微笑有术

FancyFang

想在人群拥挤的大型商场或车站浑水摸鱼的人小心了:不久后,公共场所的监控摄像头将能自动识别并锁定行为可疑者。开车的人则可更放心,车载识别系统能迅速发现出没在行车路线前方的人,并采取措施避免相撞。马虎的人也能生活得更容易,钥匙和门卡将成为历史,面孔就是最好的通行证。###
 
这些看似简单却尚未实现的未来,不属于科幻电影,而属于索尼研究院。它们的共同特征是涉及对人的面部和姿态的识别。索尼研究院的大型计算机通过统计、分析收集到的海量人脸数据,从数以千万计的样本中找到人脸的共通特点。再将面部信息分解成各种特征元素集,构建机器可识别的人脸特征量,通过大量数据演算以确定这是不是人脸。
 
至少现在,索尼智能宠物AIBO机器狗已能从众多面孔中识别出主人,像真正的宠物一样只对他做出亲密表示。从2007年开始,“人脸识别”和“微笑快门”成为索尼Cyber-shot数码相机的新功能。
 
当用户用这种数码相机取景时,相机自带的人脸识别算法会以从左上角到右下角的顺序对整个画面进行全面扫描,并根据相机中存储的标准人脸模板信息寻找与之匹配的图形信息。这两种功能不仅能识别出镜头中有几张人脸、他们是否在笑,还能自动捕捉下笑容最灿烂时的画面。此外,用户还可以自行设置不同的欢笑程度,以及优先捕捉大人还是孩子的笑容等。在已高度同质化的数码相机中,这些功能为Cyber-shot赢得很多好评。
 
仅此而已还不足够激动人心,毕竟由人来完成这样的判断只须瞥一眼,但这只是起点。索尼希望机器对人的识别能像人眼观察一样精准,这意味着机器能阅读出你的喜怒哀乐和各种动作语言。再加上机器远胜于人脑的信息存储和运算能力—同时分辨数千人的表情和姿态时机器的效率和准确性远胜于人,真正的革命才刚刚开始。

【实验室进阶】
 
索尼对机器识别人类的兴趣可追溯至1999年,当时它推出机器狗“AIBO”。这个同时满足了人们对机器人和宠物双重爱好的产品能识别并追逐粉红色的球体,但这显然不够。“我们希望AIBO至少能认出主人的脸,根据主人的行动有所反应,这样才有更多更好的感情交流。”从事索尼人机交互技术开发的智能系统研究室高级研究员大久保厚志对《环球企业家》说。因此,从1999年开始,大久保和一个不到10人的团队便为AIBO开发人脸识别技术。这一决定的更深层原因是,当时索尼研发的负责人相信未来会是机器人时代,届时机器辨认人是一切创造的基础,索尼必须尽早开始累积相关技术。
 
通常实验室研究都始于不存在的理想环境,然后渐渐加入更多真实环境中的变量,由简入难。但AIBO活动于非常复杂的家庭环境,需要识别的人脸不是以做电影特效时常用的蓝幕或绿幕做背景,而是混杂于各种家具和物品中,同时还有逆光和背光的问题。而且,机器狗看人的角度是从下往上,这比平视的正面扫描识别更难。
 
所以,从一开始,大久保及其同事就面临诸多意想不到的难点。他们在实验室中专门辟出一大块空间,建了一个从灯光、装修、布置等各种条件都和普通家庭一样的模拟环境。这个仿真空间被称为“惊讶小屋”,大久保们在其中做了大量实验和数据采集工作。直到2003年,索尼的人脸检测技术才真正在AIBO上取得比较完整的成功,它已经能从许多不同面孔中识别出主人的样貌。
 
2006年索尼重组中为削减成本解散了AIBO团队,但因它开发的人脸识别技术却在研究院中延续下来。尽管初期研发非常困难,一旦成功,索尼就能轻易将这一技术用于手机和照相机等各种消费类数码产品,因为最复杂的背景辨识问题一开始就已解决。在识别人脸的技术基础上,索尼推出笑脸识别技术。目前,其Cyber-Shot数码相机、PlayStation游戏主机和PSP手持游戏机等产品线上都有基于人脸识别技术的功能。比如,PlayStation 3上存放的照片可以自动按照婴幼儿、年轻人、老年人等分类,也可按照有笑容、没笑容等分类。
 
一个技术成熟后,进阶到下一步研发是最自然的选择。2005年,索尼就开始思考,除了让机器知道“这是人脸”,还要在远处让它们知道“这里有人”,并把人体识别从面部扩展到整个人的姿态。这一步中,索尼中国研究院扮演了重要角色。
 
姿态识别的原理和人脸识别相同,都是在海量样本基础上以统计学分析和大型计算机运算建立标准,再将目标拆解成数据与标准核对。复杂之处在于,人的表情无论怎么变化,五官形状和位置都相对固定,但整个人体不仅胖瘦、高矮等变量更多,单个人姿势变化角度也更大。而且,在人流量大的公共场合等地,经常出现人物彼此重叠的情况。当人的身体被遮挡,机器和算法就很难判断这是不是人。
 
更复杂的情况意味着索尼中国研究院需要采用更多技术,开发出描述能力更强的模型。负责这一研究的索尼中国研究院研发部副总监吴伟国博士对《环球企业家》表示,姿态识别中采用了描述能力更强的特征对人体进行检测,即使是被遮挡的人体目标一旦出现,就能被抓取出来,同时可以配合人脸识别技术,对其进行全程追踪和识别。
 
辨别“人”与“非人”的索尼姿态识别技术最早于2009年在面向游戏开发者的大会CEDEC上发布。除了游戏,索尼还试图将其用于安全防护领域。

【成为商品】
 
从人脸识别技术的研发不难看出,索尼研究院的应用项目与其相关产品结合紧密。如果微软的研究院乐于为某项技术发表一系列论文,索尼更愿意将这项技术用于它的数码相机等消费电子产品上。
 
即便如此,大久保仍然认为人脸识别中最困难的不是技术问题,而是说服产品部门接受他们的技术。2003年在AIBO上取得全面成功后,他们就希望将这一技术推广到索尼其他产品,但到2005年索尼DVD录像机首次采用人脸识别,已是两年之后。
 
大久保对《环球企业家》回忆道,其他部门也承认他们的技术很酷,却不知道应该怎么用到自己的产品里。双方认知的落差之一在于,产品事业部对于识别技术最自然的联想是应该达到相当高的精度,而不只是机器狗辨认出主人而已。“但当时技术做不到太高精度,更多考虑是如何识别出目标。不用太高精度就可以为消费者提供更有趣的娱乐方式,这有一定的容错率。”大久保说道。
 
事实证明这种意见的正确。在将人脸识别技术运用于PlayStation 3时,因为未达100%精确度,索尼担心消费者负面反馈而没有在宣传和介绍时提及这一技术,只将其作为智能幻灯片的功能之一,比如可将某个人的照片自动识别出来集中播放。但出乎意料的是,消费者认为这一功能识别非常准确,甚至有人把识别的照片做成短片放在YouTube上。
 
此外,技术应用于产品时,追求的不是单纯的性能优越,必须同时考虑实现性能所需的各种“成本”,比如需要消耗的内存容量、计算能力、电量和新增的生产成本等。DVD录像机和数码相机这样的小型数码产品的存储和运算条件远不如实验室里的超级计算机。如果只是为了增加一项有趣的笑脸识别功能而使Cyber-shot数码相机变得反应迟缓、耗电量增加,当然得不偿失。
 
因此,大久保等人需要从大量的识别特征量中挑选出既能准确识别,又不会占用过多资源的那些。其中最大的挑战是2007年人脸识别应用于索尼爱立信手机上时。受限于体积、手机的运算能力和电池容量都比其他电子产品更小,只要装载过大的应用程序,就可能运行缓慢。为此,索尼研发团队放弃了能带来更好识别精确度却很消耗运算能力的浮点运算,尽可能以整数运算建立算法模型。
 
在经历种种波折后,现在人脸识别技术已经成为索尼众多产品必备功能之一。颇为明显的转变是,2003年索尼刚开始“推销”人脸识别技术时,大久保等需要不断与各个产品事业部反复沟通,讲述使用这个技术的好处。现在,他们已摆脱推销员的身份,越来越多的产品在一开始的酝酿和设计时,就会主动考虑怎么样将人脸识别功能融合进来,并且做得更有趣。

本文来源:环球企业家