微软亚洲研究院语音组的研究方向主要是语音识别\语音合成\ 人际间语音互动\音频分析检索.
语音合成
研究方向:自然用户界面
研究小组:语音组 2007/01/01
我们的任务是,让计算机像人一样自然的说话。我们的研究包括:预测及实现自然韵律;可大可小的语音合成及文字预处理平台;主观与客观评估语音质量等。我们开发了多语言的、可供文语转换的通用研究平台,综合文本分析、韵律分析以及单元选择和拼接等。
详细内容:
请听在线演示自然流利的普通话和英文文语转换“木兰”合成系统(网址:http://www.research.microsoft.com/speech/tts.asp)。
音乐导航
研究方向:自然用户界面
研究小组:语音组 2008/11/18
音乐导航(Music Steering),是指通过音乐内容分析、推荐和筛选,交互式生成音乐列表,使你可以方便地找到想听的歌曲。当用户有几千首歌储存在音乐播放器中(比如iPod, Zune,和智能手机),如何选择想要听得音乐便成了一个问题。
详细内容:
用户可能没有时间从中选择所有想听的音乐;而且用户在不同的时候也想听不同的音乐。目前音乐播放器提供 的“shuffle” 功能,基本上是随机播放音乐,只能满足用户最基本的需求。“音乐导航”提供给用户“smart shuffle” — 一种便捷的方式来选择和欣赏音乐。 通过“音乐导航”中,用户可以只选择一首音乐,系统就会自动生成一个”音乐电台”,推荐给用户一些相似的音乐。 用户可以欣赏推荐的歌曲,也可以选择喜欢或删除不喜欢的歌曲。基于用户的反馈和偏好,歌曲推荐列表(电台中的音乐)就会自动地调整。用户还可以通过音乐筛选来选择适合不同场景下听的音乐, 比如在阅读时听柔和的音乐。 其中的主要技术是自动音乐内容分析,并对每一首歌检测50个音乐属性, 包括风格、乐器、音调、和节奏等。 基于这些属性来推荐音乐,生成音乐电台。
能说会唱的小人头
研究方向:自然用户界面
研究小组:语音组 2008/11/18
“能说会唱的人小人头”展示一个新的音频/视频人机界面。经此界面可由隐马可夫统计模型将文字转成语音,词与谱换为歌唱,此外头部动作与嘴型同步的视频信号也将与说/唱的音频信号一同播放。
详细内容:
统计模型由音频与视频的信息和相关的文字,歌词与音符(旋律)批量资料进行训练。以音频与视频的信息及其运动轨迹建成参数化的统计模型。语音参数模型由语音音位的频谱包络,音长与基频之音高三部分组成。歌唱模型则由歌词与旋律训练而成。
基于最大似然度的统计模型既由个人之语音和歌唱数据客观生成,个人化之语音和歌唱信号亦可依同一客观准则合成。在视频中,自然的头部动作,同步的发声口型也可由相关的韵律变更和音位的次序而产生。如有需要,头部动作与嘴型变换也可以互动模式由人工进行调整。