原标题:机器人真的可以跟人类情感共鸣?NO,只是看起来很美
过去,人们用神话指导未来,现代的方式则是科幻。细数科幻电影中的机器人角色,TA们有着一个显而易见的共同点:能与人进行「表情达意」的交流。
细细琢磨一番,在当下人工智能狂潮中,除了听指令低头做事型的人工智能应用,比如,机器人公司Sphero在《星球大战:原力觉醒》上映之前,率先拿到迪士尼授权,及时推出遥控机器人Sphero BB-8,造型与电影中的BB-8如出一辙,一经面世就被抢购一空。
(图片来自网络)
你用手机操控着迷你版的BB-8,你知道你说的话,也就是「自然语言」,并不能被它100%的理解和执行,但你依然乐在其中 —— 你在手机端发出语音命令,它乖乖按照指示行动。1000多元的定价,它显然满足了作为「玩具」的功能。
但又有多少应用具备了人机交互过程中「情感识别」的能力?
也许软银集团开发的人形机器人Pepper算是一个尝试。2015年6月,作为「全球首台具有人类感情的机器人」,Pepper第一次面向公众发售。这是一个不仅仅执行「自然语言」的机器人,其具备的语音/情感识别技术,可分析表情和声调等,这一过程基于Pepper的视野系统,经语音系统识别后,情感系统随即分析面部表情,通过量化评分最终做出对人类情感的判断,并以动作结合表情与人交流。
机器人Pepper对话阿里巴巴零售事业群总裁行癫
其中的一段对话如下:
Pepper:谢谢行癫。虽然我现在说得还不是很流利,但是我会一直努力学习成长的。而且,我还在努力了解中国的文化习惯。对了,我刚学到中国女孩子最喜欢男朋友说的三个字,行癫,你知道哪三个字吗?
行癫:我想中国男孩子特别喜欢说的可能就是“我爱你”。
Pepper:买买买,这三个字啦。
行癫:哦,你还知道淘宝上有“买买买”这三个字,看起来你以后肯定要在淘宝上购物了。
Pepper:快乐80,紧张20,生气0,悲伤0。我的情感引擎显示你的心情似乎不错。你是不是开始喜欢我了?
行癫:我觉得你非常可爱,不仅我喜欢你,我想你进入中国,会有更多的人会喜欢你。
2016年,为了使Pepper更加智能化,软银选择与IBM合作,将Watson AI认知计算平台系统引入Pepper。
看上去很不错?Pepper的软银机器人控股公司(Soft Bank Robotics Holdings Corp)却有坏消息传来:2017年3月底该公司陷入资不抵债。报道显示,由于人形机器人利润率不高,难以抵消研发费用,该公司出现持续亏损。据东京商工调查(Tokyo Shoko Research)统计,该公司2015财年的营业收入为22亿日元,净亏损117亿日元(约合人民币7亿元)。
人工智能与人的情感连接到底何以可能?其一、人工智能需要读懂人类的情感;其二、人工智能可自我表达情感。
然而,到底什么是情感?情感何以产生?什么是人的情感?什么是人工智能的情感?人工智能是否可能产生类似于人的情感?那句「柯洁输了会哭,但AlphaGo赢了并不会笑」的话想必你略有耳闻,但事实上,人的情感与人工智能的情感从本质上来讲是同源的:一种反馈,不同的输入产生的不同反馈。在人与人的沟通过程中,情绪在情感传递中占比巨大,从理性决策、感知到学习与再创造。甚至有研究表示,「人类交流中80%的信息都是情感性的信息」,而绝对理性的决策在很多时候并非最优。
从认知科学角度来看,情感本身是高级智能的一部分。人类进化过程中,情感识别不断修正优化,大脑计算和分配的方式仰赖于情感状态的不同,因而在执行的过程中也会变化巨大。因而,在人与人面对面交流时,互相接收的情感性信息从面部表情到肢体表达,多维度渗透,而在人机交互中,肢体这一维度是缺失的,如何解决?
卡内基梅隆大学人机交互学科针对于此,研发了SARA(Socially Aware Robot Assistant),它不仅可以在与人类沟通的非语言领域,自主学习人类在沟通过程中顺畅、友好的模式,并且在麦克风和摄像头等设备的辅助下,结合观察所得,包括细微的表情变化、声调浮动、肢体移动,并综合诸多因素判断人的情感。人与人之间难免会有一些难以表达的沟通需求,聊天机器人如果没有及时捕捉到情感的细枝末节,而只停留在语言表层的理解时,恐怕会造成难以收拾的局面。
另外,SARA项目包含了三个之前从未使用过的元素:会话策略分类器,融洽度估测器和社交推理器。会话策略分类器是五个单独的识别器,可分类5种会话策略中的任何一种,准确率高达80%;融洽度估测器可以让AI知道你与它的相处情况;社交推理器则可以根据融洽度水平,基于最近一次会话策略以及非言语行为决定下一句什么,此处会激发SARA面部识别功能。有报道称,当你与它沟通时的表情起了一个「正向反馈」,比如,你笑了,SARA接下来与你的沟通时也会随着这个正向反馈而产生变化。简单来说,即在做出情感判断之后,以不同的回复来改变说话者的情感倾向。
要从与人类沟通过程中的微表情和肢体变化中提取有用的信息,并作为决策依据,这必然要求人工智能有强大的交互设备支持,比如只有高帧数的摄像机,借此才能记录下人类的微表情;而麦克风的灵敏度也是重要指标之一,用以检测对话者语气中的微秒变化。
随着与人类的沟通次数的增多,SARA可更好地了解用户的偏好程度,并利用这些具体的「偏好」信息进行建模,从而实现人机交互的目的之一:个性化服务。Siri之所以被人广为诟病的原因之一便是,人们与Siri之间的每一次对话都从零开始,在这种单纯的你问我答的语音交互方式中,人们不得不调整自己的提问方式以适应机器,体验必然不佳。结合前阵子甚嚣尘上的Sofia,作为第一个被授予国籍的人工智能,「她」让人又爱又恨 —— 她似乎真的做到了理解你,甚至与你逗趣,而这一切在被AI界神经网络之父Yann LeCun拆穿前,都是一个美好的故事 —— 索菲亚那些具有争议性的回应,均为研发团队事先完成的程序设置,这只是一场哗众取宠的公关秀。
说回来,人类对于自身的情感认知还在极其有限的探索过程中,虽然上述SARA的例子在人工智能的构造层面可以下一个保守的判断,也就是说,人工智能是可以拥有情感的能力的,但人工智能是否知道自己有情感判断的能力又是另一层面的问题了。