报告时间:2024年9月7日(周六)下午03:30
报告地点:武汉大学电子信息学院(信息学部西区综合楼)709会议室
报告题目:语音生成大模型研究进展
报 告 人:武执政 博士
报告摘要:
语音包含丰富的信息,不仅仅是内容,还有副语言和环境信息。副语言信息包含了情感、口音、年龄等,而环境信息表达了语音所发生的场景信息。随着研究的深入和技术的进步,口语理解系统不仅需要理解文字信息,还需要识别和处理语音中的副语言信息和环境信息,从而具有良好的共情能力,使其不仅能听得清、听得懂,还能听出“人情味”。该报告将分享面向语音交互大模型的语音理解、高表现力具有零样本学习能力的语音生成大模型最新进展,也将分享面向语音大模型的深度伪造检测、语音安全相关的研究进展。
报告人简介:
武执政博士现任香港中文大学(深圳)副教授、博导,入选国家级青年人才项目,连续多次入选斯坦福大学“全球前2%顶尖科学家”、爱思唯尔“中国高被引学者”榜单。他于2015年获得南洋理工大学博士学位,并在Meta(原Facebook)、京东、苹果、爱丁堡大学、微软亚洲研究院等机构从事学术研究和技术领导工作。武博士带领开发了语音合成开源系统Merlin、Amphion及开源数据库Emilia,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,组织了2019年语音合成国际评测(Blizzard Challenge 2019),多次获得国际会议的最佳论文奖。武博士现为IEEE语音与语言处理技术委员会委员,语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor, IEEE Signal Processing Letters的Associate Editor, IEEE Spoken Language Technology Workshop 2024的大会主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告。
欢迎感兴趣的老师和同学们积极参与!
学院地址: 湖北省武汉市武昌区八一路299号 (430072)
Address:No.299 Bayi Road,Wuhan,Hubei(P.R.C.:430072)
联系电话 (Tel) :(+86)27-68756275/68778537
传真 (Fax) :(+86)27-68778537
网址 (Http) : Http://eis.whu.edu.cn
联系邮箱 (Email) : eisyb@whu.edu.cn
武汉大学电子信息学院
官方微信公众号