教授创业之汤晓鸥:人脸识别技术的“开拓者”和“探路者”

发布日期:2021-12-08 01:40   来源:未知   阅读:

  现任香港中文大学信息工程系教授、工程学院杰出学人、IEEE Fellow(电气与电子工程师协会会士),兼任中科院深圳先进技术研究院副院长,IJCV(计算机视觉国际期刊)首位华人主编。

  其主要研究领域为计算机视觉(CV)、模式识别和视频处理,已在这些领域发表论文200余篇,是全球人脸识别技术的“开拓者”和“探路者”,是商汤科技创始人、董事长。

  11 月 22 日晚间,据港交所文件显示,商汤科技(SenseTime Group Inc)已通过上市聆讯。根据公开资料统计,从 2015 年至今,商汤科技已融资12 轮,共计52 亿美元。最后一轮融资于2021年6月完成,融资后估值达到120亿美元。

  2005-2008年,兼任微软亚洲研究院(MSRA)视觉计算组的负责人。

  2009年,依托深圳先进技术研究院搭建联合实验室,被电机及电子工程师学会(IEEE)推选为会士。同年,汤晓鸥教授与他的博士研究生何恺明,以及微软亚洲研究院的孙剑博士,凭论文《基于暗原色的单一图像去雾技术》获得顶尖国际会议IEEE计算机视觉与模式识别大会(CVPR)该年度的“最佳论文奖”。这是该会议创办25年后,首次有亚洲学者获得这项最高的荣誉。

  2011-2013年间,实验室在计算机视觉领域两大顶级会议ICCV(International Conference on Computer Vision,即国际计算机视觉大会)和CVPR上发表了14篇深度学习论文,占据这两个会议上深度学习论文总数(29篇)的近一半。

  2005年开始,汤晓鸥教授同时兼任微软亚洲研究院(MSRA)视觉计算组负责人。他的工作需要他经常往返北京与香港两地,对于才刚2岁的爱子汤之铭自然会缺少照顾。由于跟儿子在一起的时间太少,他想把每一分钟都记录下来,于是他给儿子拍摄了大量照片。当图片积累到成千上万张时,他发现如何在海量照片里准确找到某个令他念念不忘的瞬间成了“老大难”的问题。

  作为技术大佬的他想到了向他投身多年的研究领域寻求解决方案——采用计算机视觉领域的技术手段来分类管理相册。于是他跟视觉计算组的同事开始研究名为Photo Tagging的课题,采用CV技术手段来给相册进行分类整理。在CV技术远还没有成熟的当时,汤晓鸥教授由这一个简单的愿望出发,开启了中国人脸识别技术走向实际应用、走向商业化落地的一个新时代。

  2014年初,Facebook在全球首先推出了DeepFace算法,识别精确度达到了97.35%,已经十分接近人眼识别能力(97.53%),这引起了全世界的关注。面对如此压力和挑战,汤晓鸥教授曾经对外界说:“Facebook的算法是基于其拥有的750万人数据库,而我们当时仅有20万人数据库,双方力量差距很大,我们的条件处于劣势。”

  即使在硬件和数据库条件处在如此大差异的情况下,汤晓鸥教授依旧扛住了压力,选择不断精进算法。在不到两个月之后,其团队于2014年3月份发布了GaussianFace人脸识别算法,在LFW数据库上测试所得的识别准确率一举达到了98.52%,成为全球首个突破人眼识别能力的算法。

  在当时,LFW(Labled Faces in the Wild)数据库识别率的前三名全部由汤晓鸥实验室的三个人脸识别算法占据,Facebook的DeepFace算法只能排在第四。正是因为如此,汤晓鸥教授在香港中文大学创办的多媒体实验室在2016年与麻省理工、斯坦福等著名大学的实验室一道,入选世界十大人工智能先锋实验室,成为亚洲区唯一入选的团队,福布斯称他为“中国人脸识别技术背后的面孔。”

  2014年10月,商汤科技正式成立。过去曾与汤晓鸥教授共事过的教授和对其慕名已久的博士、博士后学生听闻此消息纷纷选择加入;曾与汤晓鸥在微软研究院共事的杨帆也选择加入商汤科技,还带去了一大批清华的学生,商汤科技很快就建立起了一个以汤晓鸥教授为核心的联合创始人团队。根据提交港交所的招股说明书显示,商汤科技的技术研发团队由40位教授、250多名博士和博士后,以及3593名科学家和工程师组成,研发人员占比公司员工超2/3。对汤晓鸥教授来说,成立商汤科技不仅意味着自己走出了象牙塔,更意味着从前停留在纸上谈兵的技术走出了实验室,从此他能够做更加有意义、有价值的事情。

  商汤科技成立不久,汤晓鸥就凭借他的人脸识别技术先后拿下了小米、华为、美图秀秀以及FaceU、Snow等客户。此后,商汤科技一路高歌猛进,在资本市场上表现亮眼,与依图科技、云从科技、旷视科技一道并称“AI四小龙”。

  据统计,自成立以来,商汤科技一共经历了12轮融资,商汤的投资人中除了有首轮投资人IDG资本,还有银湖、鼎晖、晨兴、光际、淡马锡、Tiger、Star VC等头部机构,以及阿里巴巴、苏宁、高通、万达集团等战略合作伙伴,Pre-IPO之前最后一笔融资是软银投资的10亿美金,累计总融资金额达52亿美元(约合人民币336.58亿元),商汤科技已成为全球估值最高的人工智能公司。2021年,弗若斯特沙利文出具的报告显示,商汤科技已然成为中国最大的计算机视觉软件公司、亚洲最大的人工智能软件公司。

  2021年8月28日,正值港中文多媒体实验室创办20年,作为超级AI独角兽的商汤科技,向香港联交所提交招股书,正式冲刺IPO上市。随着商汤科技正式启动IPO上市,也意味着这家从实验室走出来的高科技公司,在经历了7年的发展与融资之后,到了接受公开市场检验的时刻。

  汤晓鸥在创建商汤科技之初,目标就不局限于创立一家人脸识别公司,而是致力于打造深度学习平台,在人工智能领域全面发展。他认为,由于谷歌、Facebook等巨头的开源平台使得人工智能、深度学习的门槛变得很低,但以开源平台为基础也会受到很多限制。因此商汤科技决定搭建“硬件计算平台”。公司成立一年后,商汤科技建设的深度学习超算平台DeepLink—200块GPU的连接成为当时全国最大的GPU集群。2015 年,商汤科技成功开发的深度学习框架 SenseParrots已经拥有谷歌Tensorflow在当时都无法支持的功能。

  目前商汤科技的超算平台最多可承载超14000片GPU,是亚洲规模最大的AI超算平台,它依托深度学习训练框架SenseParrots,可以支持千卡并行训练、千亿级参数模型、百亿训练样板、亿级类别分类任务。

  汤晓鸥认为,AI从来不能被称之为一个单独的产业,能被产业化的只有“AI+”——这也就是说,AI是对传统产业的赋能,帮助传统产业提高生产效率,而不是重新定义乃至颠覆。在此基础上,商汤独创了“1(基础研究)+1(产品结合)+X(行业伙伴)”模式:以原创技术为基础,借助核心平台化能力多元赋能多个行业,例如:智慧城市、智能手机、互动娱乐及广告、汽车、金融、零售、教育、地产等。

  从麻省理工学院到香港中文大学,从多媒体实验室到商汤科技,汤晓鸥一直致力于计算机视觉识别技术的研究,并取得了巨大成就,成功的主要原因可总结为以下三点:

  注重研发:不管是多媒体实验室,还是商汤科技,汤晓鸥教授始终最注重研发团队的培养和打造,商汤科技由教授、博士以及科学家和工程师组成的技术研发团队,占比公司全员超2/3,创办7年以来,累计获得8000多项AI发明专利,研发投入主要在于建立“人才垄断”和搭建世界级的出色硬件计算平台。

  底层基础创新:人工智能自20世纪50年代诞生以来,其技术应用在很长一段时间内并没有取得突破性进展。在人工智能和计算机视觉应用领域整体前景不明朗的情况下,汤晓鸥带领团队坚持计算机视觉研究方向,花费十几年时间进行基础创新。商汤科技自主研发了一套AI模型和AI芯片,并且搭建起了一整套端到端、底层到应用的基础设施,这些都成为了这个“独角兽”科技公司可持续经营的关键要素。在未来的企业竞争中,唯有底层基础、原创技术上有话语权,才能真正具备独立、安全、可持续优势。

  资本助力:AI行业是新兴产业,发展环境和发展基础都不是特别成熟,需要社会各方资本加持才能持续不断地进行研发投入。从成立之初至今,汤晓鸥的商汤科技一直备受资本青睐,七年来融资达数百亿人民币,这为其研发团队提供了源源不断的资金,也是其不断取得技术突破、打造未来核心竞争力的重要支撑。返回搜狐,查看更多