清华权威报告告诉你：人工智能的情感计算是什么？-EDN 电子技术设计

 人类的认知、行为等几乎都要受到情感的驱动，并影响着人际互动以及群体活动。在人与人的交往中，情感的交流还常被用来完成人的意图的传递。因此，在智能人机交互的研究中，拥有对情感的识别、分析、理解、表达的能力也应成为智能机器必不可少的一种功能。

整体而言，语音情感识别研究在该时期仍旧处于初级阶段，主要侧重于情感的声学特征分析这一方面，作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点，虽然有相当数量的有价值的研究成果相继发表，但是并没有形成一套被广泛认可的、系统的理论和研究方法。进入 21 世纪以来，随着计算机多媒体信息处理技术等研究领域的出现以及人工智能领域的快速发展，语音情感识别研究被赋予了更多的迫切要求，发展步伐逐步加快。 2000 年，在爱尔兰召开的 ISCA Workshop on Speech and Emotion 国际会议首次把致力于情感和语音研究的学者聚集在一起。近 10 余年来，语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展。下面将从语音情感数据库的采集、语音情感标注以及情感声学特征分析方面介绍语音情感计算。Ybjednc

1、语音情感数据库的采集 Ybjednc

语音情感识别研究的开展离不开情感语音数据库的支撑。情感语音库的质量高低，直接决定了由它训练得到的情感识别系统的性能好坏。评价一个语音情感数据库好坏的一个重要标准是数据库中语音情感是否具备真实的表露性和自发性。目前，依据语音情感激发类型的不同，语音情感数据库可分为表演型、诱发型和自发型三种。Ybjednc

具体来说，表演型情感数据库通过专业演员的表演，把不同情感表达出来。在语音情感识别研究初期，这一采集标准被认为是研究语音情感识别比较可靠的数据来源，因为专业演员在Ybjednc
表达情感时，可以通过专业表达获得人所共知的情感特征。比如，愤怒情感的语音一般会具有很大的幅值和强度，而悲伤情感的语音则反之。由于这一类型的数据库具有表演的性质，情感的表达会比真实情感夸大一点，因此情感不具有自发的特点。依据该类型数据库来学习的语音情感识别算法，不一定能有效应用于真实生活场景中。第二种称之为诱发型情感数据库。被试者处于某一特定的环境，如实验室中，通过观看电影或进行计算机游戏等方式，诱发被试者的某种情感。目前大部分的情感数据库都是基于诱发的方式建立的。诱发型情感数据库产生的情感方式相较于表演型情感数据库，其情感特征更具有真实性。最后一种类型属于完全自发的语音情感数据库，其语料采集于电话会议、电影或者电话的视频片段，或者广播中的新闻片段等等。由于这种类型的语音情感数据最具有完全的真实性和自发性，应该说最适合用于实用的语音情感识别。但是，由于这些语音数据涉及道德和版权因素，妨碍了它在实际语音情感识别中的应用。Ybjednc

2、语音情感数据库的标注 Ybjednc

对于采集好的语音情感库，为了进行语音情感识别算法研究，还需要对情感语料进行标注。标注方法有两种类型：Ybjednc

离散型情感标注法指的是标注为如生气、高兴、悲伤、害怕、惊奇、讨厌和中性等，这种标注的依据是心理学的基本情感理论。基本情感论认为，人复杂的情感是由若干种有限的基本情感构成的，就像我们自古就有“喜、怒、哀、乐，恐、悲、惊” 七情的说法。不同的心理学家对基本情感有不同的定义，由此可见，在心理学领域对基本情感类别的定义还没有一个统一的结论，因此不同的语音情感数据库包含的情感类别也不尽相同。这不利于在不同的语音情感数据库上，对同一语音情感识别算法的性能进行评价。此外，众所周知，实际生活中情感的类别远远不止有限几类。基于离散型情感标注法的语音情感识别容易满足多数场合的需要，但无法处理人类情感表达具有连续性和动态变化性的情况。在实际生活中，普遍存在着情感变化的语音，比如前半句包含了某一种情感，而后半句却包含了另外一种情感，甚至可能相反。例如，某人说话时刚开始很高兴，突然受到外界刺激，一下子就生气了。对于这种在情感表达上具有连续和动态变化的语音，采用离散型情感标注法来进行语音情感识别就不合适了。因为此时语音的情感，己不再完全属于某一种具体的情感。Ybjednc

维度情感空间论基于离散型情感标注法的缺陷，心理学家们又提出了维度情感空间论，即对情感的变化用连续的数值进行表示。不同研究者所定义的情感维度空间数目有所不同，如二维、三维甚至四维模型。针对语音情感，最广为接受和得到较多应用的为二维连续情感空间模型，即“激活维－效价维” （Arousal-Valence）的维度模型。 “激活维” 反映的是说话者生理上的激励程度或者采取某种行动所作的准备，是主动的还是被动的； “效价维” 反映的是说话者对某一事物正面的或负面的评价。随着多模态情感识别算法的研究，为了更细致的地描述情感的变化，研究者在“激活维－效价维” （Arousal-Valence）二维连续情感空间模型的基础上，引入“控制维” ，即在“激活维－效价维－控制维（Arousal-Valence/Pleasure-Power/Dominance） ”三维连续情感空间模型上对语音情感进行标注和情感计算。需要强调的是，离散型和连续型情感标注之间，它们并不是孤立的，而是可以通过一定映射进行相互转换。Ybjednc

3、情感声学特征分析Ybjednc

情感声学特征分析主要包括声学特征提取和声学特征选择、声学特征降维。采用何种有效的语音情感特征参数用于情感识别，是语音情感识别研究最关键的问题之一，因为所用的情感特征参数的优劣直接决定情感最终识别结果的好坏。Ybjednc

声学特征提取。目前经常提取的语音情感声学特征参数主要有三种：韵律特征、音质特征以及谱特征。在早期的语音情感识别研究文献中，针对情感识别所首选的声学特征参数是韵律Ybjednc
特征，如基音频率、振幅、发音持续时间、语速等。这些韵律特征能够体现说话人的部分情感信息，较大程度上能区分不同的情感。因此，韵律特征已成为当前语音情感识别中使用最广泛并且必不可少的一种声学特征参数除了韵律特征，另外一种常用的声学特征参数是与发音方式相关的音质特征参数。三维情感空间模型中的“激发维”上比较接近的情感类型，如生气和高兴，仅使用韵律特征来识别是不够的。Ybjednc

音质特征包括共振峰、频谱能量分布、谐波噪声比等，不仅能够很好地表达三维中的“效价维”信息，而且也能够部分反映三维中的“控制维”信息。因此，为了更好地识别情感，同时提取韵律特征和音质特征两方面的参数用于情感识别，已成为语音情感识别领域声学特征提取的一个主要方向。谱特征参数是一种能够反映语音信号的短时功率谱特性的声学特征参数， Mel 频率倒谱系数（Mel-scale Frequency Cepstral Coefficients，MFCC）是最具代表性的谱特征参数，被广泛应用于语音情感识别。由于谱特征参数及其导数，仅反映语音信号的短时特性，忽略了对情感识别有用的语音信号的全局动态信息。近年来，为了克服谱特征参数的这种不足之处，研究者提出了一些改进的谱特征参数，如类层次的谱特征、调制的谱特征和基于共振峰位置的加权谱特征等。Ybjednc

声学特征选择。为了尽量保留对情感识别有意义的信息，研究者通常都提取了较多的与情感表达相关的不同类型的特征参数，如韵律特征、音质特征、谱特征等。任意类型特征都有各自的侧重点和适用范围，不同的特征之间也具有一定的互补性、相关性。此外，这些大量提取的特征参数直接构成了一个高维空间的特征向量。这种高维性质的特征空间，不仅包含冗余的特征信息，导致用于情感识别的分类器训练和测试需要付出高昂的计算代价，而且情感识别的性能也不尽如人意。因此，非常有必要对声学特征参数进行特征选择或特征降维处理，以便获取最佳的特征子集，降低分类系统的复杂性和提高情感识别的性能。Ybjednc

特征选择是指从一组给定的特征集中，按照某一准则选择出一组具有良好区分特性的特征子集。Ybjednc

特征选择方法主要有两种类型：封装式（Wrapper）和过滤式（Filter）。 Wrapper 算法是将后续采用的分类算法的结果作为特征子集评价准则的一部分，根据算法生成规则的分类精度选择特征子集。 Filter 算法是将特征选择作为一个预处理过程，直接利用数据的内在特性对选取的特征子集进行评价，独立于分类算法。Ybjednc

声学特征降维。特征降维是指通过映射或变换方式将高维特征空间映射到低维特征空间，已达到降维的目的。特征降维算法分为线性和非线性两种。最具代表性的两种线性降维算法，如主成分分析 PCA（Principal Component Analysis）和线性判别分析 LDA（Linear DiscriminantAnalysis），已经被广泛用于对语音情感特征参数的线性降维处理。也就是， PCA 和 LDA 方法被用来对提取的高维情感声学特征数据进行嵌入到一个低维特征子空间，然后在这降维后的低维子空间实现情感识别，提高情感识别性能。Ybjednc

近年来，新发展起来的基于人类认知机理的流形学习方法比传统的线性 PCA 和 LDA 方法更能体现事物的本质，更适合于处理呈非线性流形结构的语音情感特征数据。但这些原始的流形学习方法直接应用于语音情感识别中的特征降维，所取得的性能并不令人满意。主要原因是他们都属于非监督式学习方法，没有考虑对分类有帮助的已经样本数据的类别信息。尽管流形学习方法能够较好地处理非线性流形结构的语音特征数据，但是流形学习方法的性能容易受到其参数如邻域数的影响，而如何确定其最佳的邻域数，至今还缺乏理论指导，一般都是根据样本数据的多次试验结果来粗略地确定。因此，对于流形学习方法的使用，如何确定其最佳参数，还有待深入研究。Ybjednc

下表为常用语音情感数据库，供读者参考：Ybjednc

Ybjednc

2/6 首页上一页 1 2 3 4 5 6 下一页尾页

阅读全文，请先

模拟/混合信号/RF

上一篇： 实验：PN结电容与电压的关系 下一篇： 华为Mate X易坏、易拱起，折叠屏手机真的准备好了吗？

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
匠芯创M7000系列远超传统微秒级芯片，响应速度不到300纳 M7000 系列芯片已在人形机器人、机器人关节、高功率伺服驱动器等多个领域实现落地应用，与众多头部企业展开紧密合作···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
ST移动安全解决方案：构建全场景安全连接生态随着移动设备的普及与应用场景的复杂化，移动安全体系正经历关键变革——从早期依赖手机SIM卡的单一安全架构，逐步向融合NFC近场通信、嵌入式安全元件（eSE）及嵌入式SIM卡（eSIM）的多元技术体系演进。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

清华权威报告告诉你：人工智能的情感计算是什么？