课题组凭借对传统表情识别的深度钻研,积极与澳大利亚蒙纳士大学的 Abhinav Dhall 教授开展深度合作,在国际学术前沿领域中,较早地提出了基于面部的群体情感识别算法。彼时,研究团队大胆创新,率先将统计模型以及多种先进的机器学习算法引入群体情感的跟踪与分析研究中,历经无数次的理论推导、实验调试,最终在这一极具挑战性的研究方向上取得了当时堪称最优的效果。在当前所推进的项目里,课题组精心拟定的技术方案主要涵盖多样化面部特征群体建模(其中包含时空群体特征)、多模态信息融合群体建模以及场景应用这三大核心板块。值得一提的是,在这三个关键方面,课题组均积累了相当丰富且扎实的科学研究与工程开发经验。
①在多样化面部特征群体建模方面,课题组开展了一系列极具开拓性与前瞻性的工作。首先,课题组申请人充分发挥自身深厚的学术功底与创新思维,提出了基于里氏变换的特征描述子。在此创新性成果的坚实基础上,通过对连续随机场模型学习目标函数展开深入细致的研究,创造性地引入群体空间的位置关系。这一创新之举意义非凡,能够精准地反映人与人之间错综复杂的关联,成功实现了将随机场理论巧妙应用于构建社会群体模型 。该模型随后被成功应用于分析复杂环境下群体微笑程度的研究中,在公开数据集上的实验表现卓越,一举达到当时该领域的最佳水平。这一突出成果也成功吸引了本领域多位知名专家的关注与认可,比如,Prof. Hatice Gunes 和 Prof. Ioannis Patras 不仅对该研究成果给予了高度评价,还在其学术研究中对相关内容进行了引用。另一方面,针对群体规模变化这一棘手难题所导致的特征距离测量困难,课题组申请人聚焦群体图像特征距离度量的关键问题,引入全局对齐核构建模型。在构建过程中,巧妙利用全局权重排序方案对数据结构进行优化,显著提升了全局对齐核的性能表现。与此同时,研究团队创新性地融合基于 Riesz 的体积局部二值模式和深度卷积神经网络特征,并借助多内核学习这一先进技术确定最优权重,进一步增强了模型对复杂环境的鲁棒性和判别能力,最终结合支持向量机完成整个技术体系的构建。该方法在多个开放场景群体情绪数据库上进行了全面且严格的实验验证,实验结果表明,相比近期其他先进方法,此方法展现出了极为卓越的性能优势。其次,课题组申请人提出基于图核和深度多层核学习的方法,通过构建图核来精准描述图像相似性,将多种特征进行有机融合,并利用深度多层核学习技术对整个过程进行优化,进一步提升了模型在多样化面部特征群体建模方面的精度与效能。最后,课题组主要成员提出了局部和全局特征聚合的多任务学习方法,从面部、整帧和音频三种互补模态中深入提取情感信息,利用 MLP 高效地提取和融合特征,使用回归损失函数精心指导网络训练,有效减少正负情感干扰,最终成功应用于音视频群体情感识别,为该领域的研究提供了全新的思路与方法。
②在多模态信息融合群体建模方面,课题申请人深入地探讨多信息特征提取与群体情感建模的融合问题,分别提出了一系列极具创新性的方法:(a)基于信息压缩的群体聚合特征,并用于分析和识别群体情绪(包括微笑程度和三种情绪分析)。此项研究工作成功发表在人工智能与多媒体领域顶级期刊 IEEE TMM2018 [Ref.5]。为有效解决个体特征的聚合问题,课组申请人首先创新性地提出了信息压缩的算法,该算法充分运用纹理信息和深度卷积神经网络模型提取的判别信息,从而成功获得具有高度判别性的群体特征。其次,将特征压缩算法巧妙应用于面部、姿态和图片语义分割信息,对不同模态的个体特征进行精准建模,进而生成表征群体的面部、姿态与场景等三种特征。最后,采用多核学习算法进行特征融合,通过这一关键步骤,极大地提升了群体情绪分析算法的性能。值得一提的是,该算法作为关键核心技术,被成功应用于奥卢大学教育学院的学生互动与教学评估项目中,在实际应用场景中发挥了重要作用,为教育领域的相关研究与实践提供了有力的技术支持。(b)针对复杂场景中不确定因素干扰严重,极大限制个体信息表达,进而影响局部个体细粒度特征学习的问题,课题申请人提出了基于不确定性感知的情感特征学习方法 [Ref.6]。该方法从数据和特征层面分别对个体不确定性进行建模,通过这种方式有效抑制复杂场景下的固有噪声,极大地促进了局部个体细粒度情感特征的学习,并最终聚合为具有强大鲁棒性的群体情感特征,为多模态信息融合群体建模在复杂场景下的应用提供了切实可行的解决方案。
③在场景应用方面,课题组申请人首次深入探讨在协作学习场景下,利用情感模仿识别领导者和追随者的可行性问题 [Ref.7]。为成功实现该目标,研究团队综合运用视频编码、视频基面部表情识别和交叉递归量化分析(CRQA)等多种先进方法。通过视频编码详细记录学生任务中的领导与跟随行为,为后续分析提供详实的数据基础;借助基于 Riesz 的体积局部二值模式精准提取面部表情特征,结合支持向量机进行高效的情感分类;利用 CRQA 量化情感模仿程度和方向。经过深入研究,发现情感模仿在一定程度上能清晰揭示协作学习中的领导者和追随者关系,且该成果为理解协作学习过程中的情感传播和互动动态提供了全新的视角,为后续优化协作学习策略、显著提升学习效果奠定了坚实的理论和方法基础,对教育领域的研究和实践具有极其重要的参考价值。另一方面,课题组申请人率先探究利用多通道数据揭示协作学习中互动类型和学习调节过程的问题。为实现这一研究目标,研究团队综合运用生理数据、视频观察数据和面部识别数据,通过使用 Empatica 传感器精准捕捉同步唤醒事件,借助视频观察准确确定工作阶段和互动类型,对视频数据进行精细的后处理获取面部表情数据。研究发现同步唤醒事件在协作学习各阶段均有发生,且学习者在同步唤醒时负面面部表情居多;多数同步唤醒时的协作互动为低水平,但高水平互动时存在学习调节迹象,互动混乱时包含监测活动。此项成果为协作学习情境下客观测量社会互动和学习调节提供了全新的方法,对后续优化协作学习策略、提升学习效果具有重要的参考价值,有力地推动了教育领域中相关研究方法的发展与创新。
主要成果:
Qing Zhu, Qirong Mao*, Jialin Zhang, Xiaohua Huang*, Wenming Zheng. Towards a robust group-level emotion recognition via uncertainty-aware learning. IEEE Transactions on Affective Computing, 2025.
Xiaohua Huang, Jinke Xu, Wenming Zheng, Qirong Mao, Abhinav Dhall. A survey of deep learning for group-level emotion recognition. arXiv: 2408.15276, 2024.
Jinke Xu, Xiaohua Huang*. Group-level emotion recognition using hierarchical dual-branch cross transformer with semi-supervised learning. In 2024 IEEE 4th International Conference on Software Engineering and Artificial Intelligence (SEAI), pp. 252-256. IEEE, 2024.
Xiaohua Huang, Abhinav Dhall, Roland Goecke, Matti Pietikainen and Guoying Zhao. Analyzing group-level emotion with global alignment kernel approach. IEEE Transactions on Affective Computing, vol. 13, no. 2, pp. 713-728, 2022.
Muhterem Dindar, Sanna Jarvela, Sara Ahola, Xiaohua Huang, Guoying Zhao. Leader and followers identified by emotional mimicry during collaborative learning: a facial emotions recognition study. IEEE Transactions on Affective Computing, vol. 13, no. 3, pp. 1390-1400, 2022.
Xiaohua Huang. Group-level human affect recognition with multiple graph kernel fusion. INFORMS Conference on Service Science, pp. 127-140, 2022.
Jonna Malmberg, Sanna Jarvela, Jukka Holappa, Eetu Haataja, Xiaohua Huang, Antti Siippo. Going beyond what is visible: what multichannel data can reveal about interaction in the context of collaborative learning? Computers in Human Behavior, vol. 96, pp. 235-245, 2019.
Xiaohua Huang, Abhinav Dhall, Roland Goecke, Matti Pietikäinen and Guoying Zhao. Multi-modal framework for analyzing the affect of a group of people. IEEE Transactions on Multimedia, vol. 20, no. 10, pp. 2706-2721, 2018.