业绩考核

OA系统

首页 >> 学术动态 >> 学术讲座 >> 正文

学术讲座公告---小米声音大模型的展望

2024-03-05
  • 阅读:2353


报告时间:2024年3月13号(周三)上午10:30

报告地点:电子信息学院(信息学部西区综合楼)501会议室

报告题目:小米声音大模型的展望

报告人:王育军,小米技术委员会AI实验室


报告摘要:

声音是人与人,人与自然交互的重要模态之一。小米有世界上最大的声音交互设备生态。在此之上,小米的声学语音团队每天为用户提供超过十亿声音交互的服务,包括语音识别,拾音,通话降噪,语音唤醒,声纹识别,语音合成,以及空间音频。所有这些交互技术都遵循声音信息承载,传递,转换的大模型编解码范式。大模型为小米提供了声音交互服务迭代的启示。在一直坚持探索声音基础模型的建设基础上,语音识别,语音合成以及声音的还原或降噪算法会以新的形式,更好的服务用户。报告将分享以下两点:1. 小米的声音交互技术演进;2. 声音技术的大模型预研。


报告人简介:

1.jpg

王育军,小米技术委员会AI实验室声学语音方向负责人。先后在学术界和工业界从事声学语音方向20年。国家知识产权局中国专利审查技术专家。主要研究兴趣包括声音的感知,理解,生成与展现。先后就读于清华大学和伯明翰大学。后就职于NEC,鲁汶大学,百度等机构。小米声学语音团队成立于2017年,下设语音理解、生成与测量三个领域,包括语音识别、声音分析还原、阵列拾音、语音唤醒、声纹识别、通话降噪、主动降噪、声学测量、声音视觉跨模态感知理解、口语评测、语种识别、声音情绪识别、语音合成、声景合成、音乐生成、声音复刻、虚拟形象生成以及空间音频17个子方向。为小米的手机AIoT平台79个设备品类,5312个智能终端,日均提供语音服务12.6亿次。先后获得7项国内外声学语音挑战赛冠军。在国际行业会议上发表论文43篇。

欢迎感兴趣的老师和同学们积极参与!

学院地址: 湖北省武汉市武昌区八一路299号 (430072)

Address:No.299 Bayi Road,Wuhan,Hubei(P.R.C.:430072)

联系电话 (Tel) :(+86)27-68756275/68778537

传真 (Fax) :(+86)27-68778537

网址 (Http) : Http://eis.whu.edu.cn

联系邮箱 (Email) : eisyb@whu.edu.cn

武汉大学电子信息学院

官方微信公众号


© Copyright 2023 武汉大学电子信息学院 版权所有 访问量:56682