武汉大学电子信息学院

首页 >> 学术动态 >> 学术讲座 >> 正文

学术讲座公告---小米声音大模型的展望

2024-03-05

阅读：2353

报告时间：2024年3月13号（周三）上午10：30

报告地点：电子信息学院（信息学部西区综合楼）501会议室

报告题目：小米声音大模型的展望

报告人：王育军，小米技术委员会AI实验室

报告摘要:

声音是人与人，人与自然交互的重要模态之一。小米有世界上最大的声音交互设备生态。在此之上，小米的声学语音团队每天为用户提供超过十亿声音交互的服务，包括语音识别，拾音，通话降噪，语音唤醒，声纹识别，语音合成，以及空间音频。所有这些交互技术都遵循声音信息承载，传递，转换的大模型编解码范式。大模型为小米提供了声音交互服务迭代的启示。在一直坚持探索声音基础模型的建设基础上，语音识别，语音合成以及声音的还原或降噪算法会以新的形式，更好的服务用户。报告将分享以下两点：1. 小米的声音交互技术演进；2. 声音技术的大模型预研。

报告人简介：

王育军，小米技术委员会AI实验室声学语音方向负责人。先后在学术界和工业界从事声学语音方向20年。国家知识产权局中国专利审查技术专家。主要研究兴趣包括声音的感知，理解，生成与展现。先后就读于清华大学和伯明翰大学。后就职于NEC，鲁汶大学，百度等机构。小米声学语音团队成立于2017年，下设语音理解、生成与测量三个领域，包括语音识别、声音分析还原、阵列拾音、语音唤醒、声纹识别、通话降噪、主动降噪、声学测量、声音视觉跨模态感知理解、口语评测、语种识别、声音情绪识别、语音合成、声景合成、音乐生成、声音复刻、虚拟形象生成以及空间音频17个子方向。为小米的手机AIoT平台79个设备品类，5312个智能终端，日均提供语音服务12.6亿次。先后获得7项国内外声学语音挑战赛冠军。在国际行业会议上发表论文43篇。

欢迎感兴趣的老师和同学们积极参与！

学院地址: 湖北省武汉市武昌区八一路299号 (430072)

Address:No.299 Bayi Road,Wuhan,Hubei(P.R.C.:430072)

联系电话 (Tel) :(+86)27-68756275/68778537

传真 (Fax) :(+86)27-68778537

网址 (Http) : Http://eis.whu.edu.cn

联系邮箱 (Email) : eisyb@whu.edu.cn

武汉大学电子信息学院

官方微信公众号