武汉大学电子信息学院

首页 >> 学术动态 >> 学术讲座 >> 正文

学术讲座公告---语音生成大模型研究进展

2024-09-04

阅读：3645

报告时间：2024年9月7日（周六）下午03：30
报告地点：武汉大学电子信息学院（信息学部西区综合楼）709会议室
报告题目：语音生成大模型研究进展
报告人：武执政博士

报告摘要：

语音包含丰富的信息，不仅仅是内容，还有副语言和环境信息。副语言信息包含了情感、口音、年龄等，而环境信息表达了语音所发生的场景信息。随着研究的深入和技术的进步，口语理解系统不仅需要理解文字信息，还需要识别和处理语音中的副语言信息和环境信息，从而具有良好的共情能力，使其不仅能听得清、听得懂，还能听出“人情味”。该报告将分享面向语音交互大模型的语音理解、高表现力具有零样本学习能力的语音生成大模型最新进展，也将分享面向语音大模型的深度伪造检测、语音安全相关的研究进展。

报告人简介：

武执政博士现任香港中文大学（深圳）副教授、博导，入选国家级青年人才项目，连续多次入选斯坦福大学“全球前2％顶尖科学家”、爱思唯尔“中国高被引学者”榜单。他于2015年获得南洋理工大学博士学位，并在Meta（原Facebook）、京东、苹果、爱丁堡大学、微软亚洲研究院等机构从事学术研究和技术领导工作。武博士带领开发了语音合成开源系统Merlin、Amphion及开源数据库Emilia，发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测，组织了2019年语音合成国际评测（Blizzard Challenge 2019），多次获得国际会议的最佳论文奖。武博士现为IEEE语音与语言处理技术委员会委员，语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor, IEEE Signal Processing Letters的Associate Editor, IEEE Spoken Language Technology Workshop 2024的大会主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告。

欢迎感兴趣的老师和同学们积极参与！

学院地址: 湖北省武汉市武昌区八一路299号 (430072)

Address:No.299 Bayi Road,Wuhan,Hubei(P.R.C.:430072)

联系电话 (Tel) :(+86)27-68756275/68778537

传真 (Fax) :(+86)27-68778537

网址 (Http) : Http://eis.whu.edu.cn

联系邮箱 (Email) : eisyb@whu.edu.cn

武汉大学电子信息学院

官方微信公众号