Lei Xie > Research Teams

 

Automatic Speech Recognition (ASR) 语音识别

  • 成员:邹赛赛、孙思宁、吕航、张彬彬、何长青、张弼弘、张弢
  • 合作伙伴:百度、中兴、航空研究所等
  • 背景:随着“移动互联网时代”的到来,基于语音识别的语音交互技术成为IT巨头兵家必争之地,语音识别被认为是抢滩移动互联的重要“船票”和入口。Apple公司于2011年在其iphone4s上推出了智能语音助手Siri,使语音识别技术走到了移动互联网的前台。其后,各大IT巨头纷纷推出了各自的语音识别产品,例如,Google推出了Google Now、微软推出的体感游戏套件Kinect上配置了语音对话功能,并于近期推出了Cornata智能手机语音助手,三星、Yahoo也纷纷加入语音识别的研发大军。在国内,百度、腾讯、搜狗、360等互联网巨头均纷纷推出了各自的中文语音助手。就连微信里也加入了语音识别功能!同时,语音也是将要来临的“可穿戴计算时代”的标配功能。Google推出的“Google Glass智能眼镜”以及刚刚推出的“Android Wear”智能手表,均以语音识别作为标准功能。
  • 当前研究内容: 基于深度学习的语音识别;语音识别置信度研究;嵌入式语音识别;说话人识别与标注等

 

Audio-Visual Speech Synthesis (AVS) 音视频语音合成

  • 成员:盖于涛、樊博、朱鹏程、丁闯、陈云琳、李梅、朱鹏程
  • 合作伙伴:百度、微软亚洲研究院、比利时布鲁塞尔自由大学、新加坡南洋理工大学、美国休斯顿大学等
  • 背景:语音合成技术是智能人机语音交互系统中不可或缺的一环。当前,导航软件和天气预报APP里,用户可以选择自己喜欢的明星(如林志玲)的声音进行语音播报,这都归功于个性化的语音合成技术带来的体验。我们知道,语音产生和感知都是多模态(Multimodal)的过程,即语音不仅是可听(auditory)的,而且是可视(visual)的。在人与人的交流中,我们可以通过观察说话人的面部甚至肢体动作来帮助理解话意、了解意图。音视频语音合成组从语音的两个模态出发,目的在于创造出能说会道的逼真个性化虚拟人物。大家一定对乔布斯创造出的《玩具总动员》里的个性鲜明的、逼真的虚拟人物印象深刻!红极一时的智能手机“汤姆猫”APP也算是一种音视频语音合成的娱乐应用。微软推出的必应在线字典里,采用音视频语音合成技术,让我们跟着“虚拟老师”来学习英语!
  • 当前研究内容: 基于统计参数模型的语音合成技术;韵律预测技术;语音转换技术;具有表现力的虚拟说话人技术

Spoken Content Analysis (SCA)语音内容分析

  • 成员:杨鹏、许成林、陈虹洁、于佳
  • 合作伙伴:新加坡资讯通信研究院、新加坡南洋理工大学等
  • 背景:智慧和语言是人类独有的两大法宝,而语音是语言的物质外壳。人类的语言首先是以语音的形式形成。世界上有无文字的语言,但没有无语音的语言,语音在语言中起决定性的支撑作用。语音这一人类最便捷的交互手段,在物理上就是一个一维的声波信号。然而,这一表面上看似简单的一维信号,却蕴含着及其丰富的语言学信息(linguistic information)、副语言学信息(para-linguistic information)和非语言信息(non-linguistic information),例如身份、性别与年龄、内容、意图、情感与状态、场景信息、语种与地域、主题信息等等。 广义上讲,语音内容分析就是根据用户需求,从语音中自动挖掘出这些丰富的信息。目前该研究组主要关注语音中的关键信息与结构线索,例如主题、语句、关键词等,包括主题检测、分类与分割,句边界检测、语音模式发现与关键词检出等。
  • 当前研究内容:无监督语音关键词检出、语音模式发现、主题分割、句边界检测等

Digital Audio Effects and Virtual Auditory (DAE) 数字音效与虚拟听觉

  • 成员:明怀平、张少飞、丛蕲、袁有根
  • 合作伙伴:华为、中兴、航空研究所等
  • 背景:数字音效技术在虚拟现实、沉浸式会议系统、家庭与个人娱乐中发挥着越来越重要的作用。特备是随着移动设备(智能手机、平板电脑等)的普及,如何在相对有限的计算资源、小体积、移动状态下为用户打造良好的听觉体验,成为一项重要的研究课题。例如,作为数字音效的旗舰之一,杜比公司一直致力于打造沉浸式的听觉体验。本研究组的长远目标是为听众打造便捷的、沉浸式的、丰富多彩的听觉体验。人类的听觉中,除了包括对声音的响度、音调和音色等主观属性的感觉外,还包括对声音的空间感觉。数字音效与虚拟听觉组当然的主要任务就是创造出丰富多彩的听觉效果以及极具真实感的空间效果,内容包括音频增强、虚拟重低音、语音变换和虚拟三维音效等。
  • 当前研究内容:基于HRTF的虚拟听觉;虚拟重低音等

     

    Want to be a team member ? Please contact me right now! Contact: lxie (at) nwpu.edu.cn; xielei21st (at) gmail.com

    想加入研究小组?赶快联系我吧!联系: lxie (at) nwpu.edu.cn; xielei21st (at) gmail.com

    Back to Dr. Lei Xie's Homepage