为此,西安电子科技大学与新加坡国立大学以及南洋理工大学团队联合提出多模态共情回复生成(MERG)任务,引入文本、语音和面部视觉信息,并构建大规模基准数据集 AvaMERG,涵盖真实语音与动态头像视频。