发布时间:2018-09-23 23:02 | 来源:科技日报 2018-09-17 08版 | 查看:936次
“读心”大战中表现抢眼的阿尔法鹰眼引发关注
视觉中国
速度比从业多年的人类心理专家更快,连家人都可能注意不到的情绪变化竟然瞒不过机器。
实习记者 崔 爽
近期,央视《机智过人》节目中上演了人与机器的“读心”大战。结果好像也不太惊人,没错,机器又赢了。
节目中,名为“阿尔法鹰眼”的机器人快速识破节目嘉宾撒贝宁和韩雪刻意伪装的表情,准确判断出牛蛙所在的箱子。在另一项难度更高的测试中,它又在一排心理素质顶尖的海豹突击队老兵中准确找出了其中的狙击手,速度比从业多年的人类心理专家更快。
据介绍,阿尔法鹰眼是掌握情感计算能力的人工智能设备,能识破人的情绪。连家人都可能注意不到的情绪变化竟然瞒不过机器,人类真的要无所遁形了吗?
将人的情感进行分类
情感这个词,喜乐哀愁种种,人类自己都很难准确定义,机器又如何理解?这是看到情感计算四个字最大的疑问。
对此,国际关系学院信息科技系副教授李斌阳作出解释:“情感计算的本质是一个分类问题,让机器判断人的感情是褒义的、贬义的还是中性的。鉴于中性的判断在实际应用中范围有限,因此大部分情感计算尝试做的都是区分褒义和贬义的情绪。”
据他介绍,情感计算传统的做法是利用人能够提炼出来的表达情感的特征,学习出一套用于判断感情性质的模型,在捕捉到新的表情或文本等时进行匹配,从而做出感情倾向的判断。
这项研究起于本世纪初,并在近几年深度学习加入后进步明显——在那之前,情感特征需要人来提取,在那之后,机器可以根据标注好的数据提炼出特征,更多保留人的原始表达信息。当然,这其中也存在深度学习普遍存在的“黑箱”问题,研究者并不能确定机器做判断的时候提炼了哪些特征,且某些特征可能仅针对某一批数据,从而形成某种偏差。
据李斌阳介绍,针对语言文字或图像视频的情感计算基本要“一句一算”或“一帧一算”。他以自己从事的文本情感计算为例作了解释:同样是“高”这个字,在“失业率”和“就业率”两个语境下的情感倾向是不同的,前者常是贬义,后者常是褒义,有时候通过几句话,机器根本无法分析出背后的含义,需要更丰富的语义信息的注入。
微颤动难逃“鹰眼”捕捉
在节目中,阿尔法鹰眼的表现令人惊艳,据阿尔法鹰眼安防科技有限公司首席技术官俞楠博士介绍,这是通过对肌肉的微震颤的捕捉和判断实现的。“情绪本身是一个非常复杂的生理反应,有外在的瑟瑟发抖、浑身颤抖、内在的激素、心跳、血压异常等连锁反应。这些反应超出人的控制,计算机可以通过结构化人的情绪、量化这种反应,形成对情绪变动引发身体反应的判断模式。这是情感计算最简单的部分:利用摄像头捕捉到人身体的微振动,通过对振动模式的快速检测和分析,对应到某一种情绪上。”俞楠表示。
谈到节目中阿尔法鹰眼准确判断出谁摸到牛蛙的部分,俞楠解释说:“人把手伸到水里,摸没摸到牛蛙的反应差异是无法伪装的。恐惧、紧张会影响肌肉震动,人无法自控。”通过俞楠的解释,一方面,阿尔法鹰眼的工作容易理解,但另一方面,这种判断方式和网上流传的“微表情”似无差别,“微表情还是偏重于对图像内容的分析,需要被测者有较大的表情反应,如皱眉、咪眼、笑容等‘喜怒形于外’的表现,同时,需要比较大面积能显示出人脸正面的图像,但面对人的面部有遮挡(如带口罩、帽子、墨镜),或人体的侧面、背后等情况就基本无法判断了。而我们的方式是建立起一套微振动情感模式库,即便人闭上眼没有反应,一样会有难逃机器法眼的下意识生理反应,这是系统相对独特的地方。”
李斌阳解释了情感计算和测谎仪的差别,测谎就是比如我会问你十个问题,有些很基础,像是吃饭了吗、昨天睡得好不好,根据这些基础问题的回答确定每个人基准的心跳脉搏脑电波等水平,再基于这些进行测谎问题的问答,跟常态下进行比对,判断其是否撒谎。但阿尔法鹰眼的识别对机器捕捉的要求很高。而且它的情感识别是“非接触”式的,与被测者之间甚至不需要互动,这对机器的智能水平要求高得多。
实际场景难以保证准确
随着深度学习的成熟,现阶段情感计算的准确度有了很大提升,但仍存在着特殊的难题。“要做情感计算,一定要在理解文本的基础之上,这需要人的常识做依托,甚至合理推理,这些都是很难给予机器的。”李斌阳说,“比如我读了一段文字:今天是开学第一天,适逢教师节,同学们纷纷给老师送上祝福。这句话的背后意思就是开学这天是9月10日,但机器无法理解到这一步。”
在情感的背后,是人类庞大的常识体系的支撑,这是成熟的情感计算绕不过的。据李斌阳介绍,已经进行多年的“知识工程”计划就是希望把人类的知识以图谱方式进行梳理,各个领域的研究机构可以围绕自身的知识点构建自己的知识图谱,比如体育的、军事的,这是一项非常庞大的工程,但可以给情感计算的深入带来更大可能。
另外一重困难是“主观性”。感情是主观的,大家的描述差异甚远,一个宽和的人和一个刻薄的人对同一件事的感受肯定大不相同。“实验室利用自己爬取的社交网络评论做判断时,准确率可以到90%左右,但一旦落地到实际场景,效果就会出现差别。”李斌阳说。比如吃一碗牛肉面,如果顾客有一个负面的表情,机器虽然可以准确捕捉,但要说是面难吃还是太烫、甚至是房内太热不舒服,是很难判定的。
需严格限定使用场景
针对情感识别将使人类“零隐私”的担忧,李斌阳强调了“场景”的重要。情感计算的研究从起步时就与商业领域不可分。亚马逊公司等希望通过对商品评论的分析,判断消费者的好恶,对商品作出改进。在某类化妆品效果如何等具体问题上,情感计算的应用较早且相对成熟。
至于对隐私的担忧,李斌阳认为无法回避。如果无孔不入,确实需要担心,但如果可以专业地应用于特定场景,则利大于弊。
据俞楠介绍,阿尔法鹰眼目前主要在安防领域施展拳脚,“比如机场安检,正常通过的人不需要紧张,但如果某些人有异于常人的反应,系统就可以将其确认为重点关注人群。”俞楠表示。这种判断如果让安检员来完成,需要长时间的经验积累和细致捕捉,但机器只需要通过对情绪的结构和模式库的生成,就可以在毫秒级的时间内作出判断。
“最适合的就是对无特征人群的判断。”俞楠说,“强特征人群的检定可以通过人脸识别做到,比如在海量人群中搜寻有前科的人。但无特征的人没有犯罪记录、无法比对分析。比如刚跟家人吵完架就要登高作业的建筑工人,可以通过上工前的情感识别,判定他是否需要情绪干预,从而避免潜在的危险可能。”
俞楠表示,目前情感识别的应用是与场景严格挂钩的。除了安防、金融风控等严肃应用,他们也不排除将情感识别应用于“真情实感表情包”这样轻松娱乐化的方向,探索更多落地可能。
发表评论
网友评论
查看所有评论>>