科技人物
这是一个人工智能(AI)蓬勃发展的时代。这是一个科技以前所未有的速度改变人类生活、生产方式的时代。AI技术正在重新定义人类与世界的互动方式。如何让这股强大的力量真正造福人类,是一众科研工作者思考的重要课题。合肥工业大学计算机与信息学院教授、视觉理解团队(VUT)负责人郭丹也是如此。在她眼中,科技向新更向善。多年来,她带领团队对接国家重大需求,在视听内容解析与视觉情感计算领域深耕细作。“以人为本”,是她的来时路,也是她未来前进的方向。
郭丹
让沟通无障碍
“我们做技术研发不只是写写算法,拼拼性能参数,而是要落地。科技发展的最终目的是让人类的生活变得更好,如果能以‘科技向善’为导向,用科技更好地为特殊人群服务,是一件非常有意义的事。”2018年,郭丹偶然接触了手语识别,她认为完全可以从自己的研究角度出发,做一些拓展性工作。
为此,郭丹积极筹备起来。在国家自然科学基金的支持下,2019年,她主持的面上项目“动态长时手语视频自动翻译研究”启动;2021年,她参与的区域创新发展联合基金重点项目“手语视频分析与理解关键技术研究”也顺利立项。
听障人士进行手语表达往往以句子为单位,表达完一个完整的句子之后才会出现停顿,而过往以单个词为单位进行识别的算法,限制了翻译系统的灵活性和流畅度。郭丹团队提出的“基于数据自驱动的多阶特征动态融合手语识别方法”,解决了手语连续翻译的难题。从准确性上看,他们的成果在目前中国最大中文日常手语数据集(科大讯飞发布)上“已见句子”的测试精度已达到99.1%;而通过对生成的手语序列进行在线反向翻译验证,他们也解决了手语视频生成研究中文本语义薄弱的问题,有效提升了手语生成效果。基于此,郭丹团队的相关论文被引用累计千余次,成果被《国际电气电子工程师学会(IEEE)图像处理汇刊》、国际先进人工智能协会(口头汇报)等一系列国际权威期刊和会议收录,获得国际学术界广泛关注,也得到来自小米集团人工智能实验室、腾讯优图、英伟达等知名企业的认可,评价这一系列成果成功解决了手语识别的技术瓶颈。
“简单来说,就是当听障人士面向屏幕使用手语表达时,系统可以通过摄像头接收到这些手语动作并进行识别和翻译,翻译结果会以文字形式呈现在屏幕上;同样,它也能借助数字人的形式,将文字表达生成相应、准确的手语动作,让听障人士看到。”郭丹介绍。近年来,他们与中国科学技术大学、合肥综合性国家科学中心人工智能研究院等单位开展了手语识别与手语生成的一系列技术合作,成果在黑龙江公共法律服务热线、合肥市政务服务便民热线等平台的视频手语系统中得到应用,为听障人士带来实际的便利。
拓宽情感计算的应用边界
“刚来合肥工业大学时,我并不知道自己能有多少能量能做什么事,就想先做好自己,然后一步一步去进阶。”郭丹说。从最初一个人带三五个硕士生,到如今形成一个由20余名硕博研究生组成的青年团队,她带领视觉理解团队取得了一系列突破性成果。针对视频视听事件定位问题,团队提出的正样本传播网络,在降低90%网络参数量的同时保持了优异性能;在视听对象分割方向,团队创新设计的分割模型能精准识别视频中的发声物体;而基于关系图推理的视觉问答方法,更是被同行专家誉为“视觉理解和推理的新范式”。这个成果被《IEEE模式分析与机器智能汇刊》收录。与此同时,他们与商汤科技合作构建的全新视听场景推理数据集“视听分割基准”(AVSBench),也已向微软、英伟达,香港大学、西北工业大学等企业、高校、科研院所授予使用权限,反馈良好。
“我们前期就是做一些通识任务,当具备了足够的视觉处理能力、听觉处理能力之后,除了关注弱势人群的手语识别研究外,近年来我们开始重点关注智慧健康领域的心理精神赛道。”郭丹说。他们的研究重点集中在两方面:一是为普通人群提供心理快筛;二是针对上升到病理程度的抑郁症、多动症、认知障碍等,与专业机构结合开展深入研究。“医疗有门槛,更多普通人可能会存在心理精神上的情绪波动,但远远未到病理程度,这时如果有面向普通人群的、能装在手机上操作的简易App能辅助进行心理快筛、心理辅助和心理诊断,可能更适合他们。”她表示:“当心理精神问题上升到病理程度,应用场景可能就涉及医院、心理机构、学校、部队等不同专业机构。”
“早期的心理学研究侧重群体共性,而人工智能技术的发展为实现个性化服务提供了可能。”深耕数年,郭丹深刻感受到,在这样一个多学科交叉赛道上,如何用人工智能方法去进行更准确、更让人适应而不是更反感的评估,并不容易。而围绕多样化引导、干预和治疗,暂时还没有更成熟的技术来辅助。
“现在,人脸识别等方向的信息化处理能力已经非常成熟了,但精神层面的情感分析仍是一片蓝海。”因此,郭丹团队开展了以人为本的行为认知研究——微动作分析,旨在理解人类的非自主行为。团队构建了目前全球规模最大、类别最为丰富的微动作数据集——微动作(Micro-Action)52。这个数据集共包含22 422个微动作样本,覆盖7大类、52小类肢体动作,全面涵盖了全身各部位的微动作表现,通过精细化的标签体系,对微动作进行了有效建模,为相关领域的算法研究与应用开发提供了坚实的数据基础。同时,她以第一发起人身份成功组织举办了2024年国际多媒体会议主题挑战竞赛——微动作分析挑战赛。这是全球首个同时关注全身微动作识别与多标签微动作检测任务的学术挑战赛,吸引了全球40余支队伍的参与。郭丹希望能借此推动利用全身微动作进行人类行为理解、深度心理评估和人类情感状态分析技术的发展。而最近,她正忙于筹备第二届微动作竞赛,以及在美国计算机协会(ACM)/IEEE汇刊中推出心理精神应用特刊,进一步促进学术交流。
人工智能与心理健康的结合是未来重要方向,在人际交流和情绪状态分析等领域具有广泛的应用前景。目前,郭丹团队为合肥中聚源智能科技有限公司研发的“AI身心状态测评与干预系列产品”,投产后应用覆盖军工、教育、司法、纪监等多个行业,服务用户达20.8万人,成功筛查出心理异常超3000人次,已辅助完成多个案件侦破;为合肥中科加点智能科技有限公司开发的“基于边缘计算的智能视频分析与理解系统”已通过真实环境的调试与测试,节约计算能耗达60%;为合肥哈工图南智控机器人有限公司开发的“基于目标检测的移动机器人人体跟随系统”也已成功落地,直接提升经济效益35%以上。与此同时,结合多智能体人机交互实践,他们同科大讯飞等进行合作研究,相关成果也已应用在企业开发的交互式实训及客服系统中,并已在华东交通大学、长江大学、华南理工大学等20多所高校,以及华住、首旅如家、洲际等7000多家酒店上线使用,取得了显著的经济效益和社会效益。
郭丹教授表示,她和视觉理解团队的研究工作如果要凝练成一个核心,就是“以人为本的情感计算”。尽管多学科交叉下的研究充满挑战,但整个视觉理解团队将以创新之力,在人工智能与人文关怀的交汇处开辟出一条新的路径。“科技的真谛是向善,我们的每一步探索,都是为了做有温度的研究。”
专家简介
郭丹,合肥工业大学计算机与信息学院教授。2010年6月,毕业于华中科技大学系统分析与集成专业,获理学博士学位;同年进入合肥工业大学工作。任国际电气电子工程师学会(IEEE)、中国计算机学会(CCF)、中国图象图形学学会(CSIG)高级会员,中国图象图形学学会多媒体专委会(CSIG-MM)副秘书长,安徽省情感计算与先进智能机器重点实验室常务副主任等职。主持国家重点研发计划课题、国家自然科学基金面上项目、安徽省杰出青年项目、安徽省高端人才引育行动项目青年拔尖人才项目等多项课题。担任《IEEE多媒体汇刊》《美国计算机协会多媒体计算、通信和应用汇刊》《模式识别》《英国工程技术学会图像处理》《人工智能工程应用》《图像与视觉计算》等国际期刊副主编;发表国内外高水平期刊/学术会议论文100余篇,其中IEEE/ACM系列汇刊期刊论文和CCF-A类国际会议论文80余篇;获得CCF-A类国际会议挑战赛(ACM国际多媒体会议和国际人工智能联合会议等竞赛单元)的冠亚军13次;授权发明专利21项。
【我们尊重原创,也注重分享。版权原作者所有,如有侵犯您的权益请及时联系,我们将第一时间删除。分享内容不代表本网观点,仅供参考。】