1.3 视觉情感计算
表情作为人类情感表达的主要方式,其中蕴含了大量有关内心情感变化的信息,通过面部表情可以推断内心微妙的情感状态。但是让计算机读懂人类面部表情并非简单的事情。 人脸表情识别是人类视觉最杰出的能力之一。 而计算机进行自动人脸表情识别所利用的主要也是视觉数据。 无论在识别准确性、 速度、 可靠性还是稳健性方面, 人类自身的人脸表情识别能力都远远高于基于计算机的自动人脸表情识别。 因此,自动人脸表情识别研究的进展一方面依赖计算机视觉、 模式识别、人工智能等学科的发展, 另一方面还依赖对人类本身识别系统的认识程度,特别是对人的视觉系统的认识程度。
早在 20 世纪 70 年代,关于人脸表情识别的研究就已经展开,但是早期主要集中在心理学和生物学方面。随着计算机技术的发展,人脸表情识别技术逐渐发展起来,至上世纪 90 年代,该领域的研究已经非常活跃。大量文献显示表情识别与情感分析已从原来的二维图像走向了三维数据研究,从静态图像识别研究专项实时视频跟踪。 下面将从视觉情感信号获取、情感信号识别以及情感理解与表达方面介绍视觉情感计算。
视觉情感信号获取 :表情参数的获取, 多以二维静态或序列图像为对象, 对微笑的表情变化难以判断, 导致情感表达的表现力难以提高, 同时无法体现人的个性化特征,这也是表情识别中的一大难点。 以目前的技术, 在不同的光照条件和不同头部姿态下, 也不能取得满意的参数提取效果。由于三维图像比二维图像包含更多的信息量, 可以提供鲁棒性更强, 与光照条件和人的头部姿态无关的信息, 用于人脸表情识别的特征提取工作更容易进行。因此, 目前最新的研究大多利用多元图像数据来进行细微表情参数的捕获。 该方法综合利用三维深度图像和二维彩色图像, 通过对特征区深度特征和纹理彩色特征的分析和融合, 提取细微表情特征, 并建立人脸的三维模型, 以及细微表情变化的描述机制。
视觉情感信号识别:视觉情感信号的识别和分析主要分为面部表情的识别和手势识别两类:
对于面部表情的识别, 要求计算机具有类似于第三方观察者一样的情感识别能力。由于面部表情是最容易控制的一种,所以识别出来的并不一定是真正的情感,但是,也正由于它是可视的,所以它非常重要,并能通过观察它来了解一个人试图表达的东西。到目前为止, 面部表情识别模型都是将情感视为离散的, 即将面部表情分成为数不多的类别, 例如“高兴” 、 “悲伤” 、 “愤怒” 等。 1971 年, Ekman 和 Friesen 研究了 6 种基本表情(高兴、悲伤、惊讶、恐惧、愤怒和厌恶), 并系统地建立了上千幅不同的人脸表情图像库。六种基本表情的具体面部表现如下表 所示。 1978 年, 他们研究了情感类别之间的内在关系, 开发了面部动作编码系统(FACS)。系统描述了基本情感以及对应的产生这种情感的肌肉移动的动作单元。他们根据人脸的解剖学特点,将其划分成大约 46 个既相互独立又相互联系的运动单元(AU) ,并分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情,给出了大量的照片说明。面部识别器一般要花五分钟来处理一种面部表情, 准确率达到 98%。
马里兰大学的 Yeser Yacoob 和 Larry Davis 提出了另一种面部表情识别模型,它也是基于动作能量模版,但是将模版、子模版(例如嘴部区域)和一些规则结合起来表达情感。例如,愤怒的表情在从眼睛区域提取的子模版中,特别是眉毛内敛、下垂,在嘴巴区域子模版中,特别是嘴巴紧闭, 两个子模板结合起来, 就很好表达了愤怒这一情感。后续的研究总体上结合生物识别方法及计算机视觉进行, 依据人脸特定的生物特征,将各种表情同脸部运动细节(几何网格的变化) 联系起来, 收集样本, 提取特征,构建分类器。 但是目前公开的用于表情识别研究的人脸图像数据库多是采集志愿者刻意表现出的各种表情的图像, 与真实情形有出入。
脸部表情运动特征具体表现
对于手势识别来说, 一个完整的手势识别系统包括三个部分和三个过程。 三个部分分别是:采集部分、 分类部分和识别部分; 三个过程分别是: 分割过程、 跟踪过程和识别过程。 采集部分包括了摄像头、 采集卡和内存部分。 在多目的手势识别中, 摄像头以一定的关系分布在用户前方。 在单目的情况下, 摄像头所在的平面应该和用户的手部运动所在的平面基本水平。分类部分包括了要处理的分类器和结果反馈回来的接收比较器。 用来对之前的识别结果进行校正。识别部分包括了语法对应单位和相应的跟踪机制, 通过分类得到的手部形状通过这里一一对应确定的语义和控制命令。 分割过程包括了对得到的实时视频图像进行逐帧的手部分割, 首先得到需要关注的区域, 其次在对得到的区域进行细致分割, 直到得到所需要的手指和手掌的形状。跟踪过程包括对手部的不断定位和跟踪,并估计下一帧手的位置。 识别过程通过对之前的知识确定手势的意义, 并做出相应的反应, 例如显示出对应的手势或者做出相应的动作, 并对不能识别的手势进行处理, 或者报警或者记录下特征后在交互情况下得到用户的指导。 手势识别的基本框架如下图所示:
手势识别的基本框架
2.1 网络海量数据的情感计算
随着时代的发展,网络赋予情感计算新的、更大的数据平台,打开了情感计算的新局面。网络系统由于沟通了人类的现实世界和虚拟世界,可以持续不断地对数量庞大的样本进行情感跟踪,每天这些映射到网络上的情绪不计其数,利用好这些数据反过来就可以验证心理学结论,甚至反哺心理学。由于大数据的分布范围极其广泛,样本数量非常庞大,采用单一的大数据处理方法往往得不到有效的情感要素,统计效果较差。但是,如果将大数据和心理学结合起来,局面就会大不一样:心理学中,不同情感可以采用维度标定,如冷暖或软硬,同时各种心理效应影响人类对事物的情感判断,如连觉效应、视觉显著性、视觉平衡等,在大数据中引入心理学效应和维度,对有效数据进行心理学情感标准划分,使得数据具有情感维度,这样就会让计算机模拟人类情感的准确性大大提升。网络海量数据的情感主要有以下几个社会属性:
情感随群体的变化:在社交网络,如论坛、网络社区等群体聚集的平台上流露出群体的情感,通过这些情感展现可以达到影响其他个人的行为。
情感随图片的变化:在社交媒体出现大量的图片,这些图片的颜色、光度、图片内容等各不相同。图片的特征直接影响到了观看者的情感。
情感随朋友的变化:在社交平台上,朋友发表的微博、微信状态等容易展现个人的情感。朋友间的关系比陌生人间的关系更加深入,所以朋友的情感更容易引起情感变化,在海量数据中,个人情感容易优先受朋友情感的影响。
情感随社会角色的变化:在社交网络中,个人在不同的群体所处的角色也不一样,个人情感流露时也会跟着所处的角色不一样而展现不同的情感。
情感随时间的演变:人的情绪是变化无常的,所处的环境不一样,则表现出来的情感也将不一样。即使是同一件事,不同的情景下展现的情感也会不一样。另外,事件的发展是个动态的过程,随着事件的演变,人的情感也会跟着变化。