• 微软亚洲研究院语音组的研究成果


    微软亚洲研究院语音组的研究方向主要是语音识别\语音合成\ 人际间语音互动\音频分析检索.

    语音合成
    研究方向:自然用户界面

    研究小组:语音组 2007/01/01
    我们的任务是,让计算机像人一样自然的说话。我们的研究包括:预测及实现自然韵律;可大可小的语音合成及文字预处理平台;主观与客观评估语音质量等。我们开发了多语言的、可供文语转换的通用研究平台,综合文本分析、韵律分析以及单元选择和拼接等。

    详细内容:
    请听在线演示自然流利的普通话和英文文语转换“木兰”合成系统(网址:http://www.research.microsoft.com/speech/tts.asp)。

    音乐导航
    研究方向:自然用户界面

    研究小组:语音组 2008/11/18
    音乐导航(Music Steering),是指通过音乐内容分析、推荐和筛选,交互式生成音乐列表,使你可以方便地找到想听的歌曲。当用户有几千首歌储存在音乐播放器中(比如iPod, Zune,和智能手机),如何选择想要听得音乐便成了一个问题。

    详细内容:
    用户可能没有时间从中选择所有想听的音乐;而且用户在不同的时候也想听不同的音乐。目前音乐播放器提供 的“shuffle” 功能,基本上是随机播放音乐,只能满足用户最基本的需求。“音乐导航”提供给用户“smart shuffle” ­­— 一种便捷的方式来选择和欣赏音乐。 通过“音乐导航”中,用户可以只选择一首音乐,系统就会自动生成一个”音乐电台”,推荐给用户一些相似的音乐。 用户可以欣赏推荐的歌曲,也可以选择喜欢或删除不喜欢的歌曲。基于用户的反馈和偏好,歌曲推荐列表(电台中的音乐)就会自动地调整。用户还可以通过音乐筛选来选择适合不同场景下听的音乐, 比如在阅读时听柔和的音乐。 其中的主要技术是自动音乐内容分析,并对每一首歌检测50个音乐属性, 包括风格、乐器、音调、和节奏等。 基于这些属性来推荐音乐,生成音乐电台。

    能说会唱的小人头
    研究方向:自然用户界面

    研究小组:语音组 2008/11/18
    “能说会唱的人小人头”展示一个新的音频/视频人机界面。经此界面可由隐马可夫统计模型将文字转成语音,词与谱换为歌唱,此外头部动作与嘴型同步的视频信号也将与说/唱的音频信号一同播放。

    详细内容:
    统计模型由音频与视频的信息和相关的文字,歌词与音符(旋律)批量资料进行训练。以音频与视频的信息及其运动轨迹建成参数化的统计模型。语音参数模型由语音音位的频谱包络,音长与基频之音高三部分组成。歌唱模型则由歌词与旋律训练而成。

    基于最大似然度的统计模型既由个人之语音和歌唱数据客观生成,个人化之语音和歌唱信号亦可依同一客观准则合成。在视频中,自然的头部动作,同步的发声口型也可由相关的韵律变更和音位的次序而产生。如有需要,头部动作与嘴型变换也可以互动模式由人工进行调整。

  • 相关阅读:
    Zjnu Stadium(hdu3047带权并查集)
    cocos2d-x结合cocosbuilder,不同屏幕适配小结
    分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储
    Generating RSA keys in PKCS#1 format in Java--转
    nodejs安装node-rsa遇到的问题及解决
    spring-redis-data的一个坑
    node-rsa加密,java解密调试
    MySQL 四种事务隔离级别详解及对比--转
    从实际案例聊聊Java应用的GC优化--转
    动态可缓存的内容管理系统(CMS)
  • 原文地址:https://www.cnblogs.com/qiuhong/p/2781522.html
Copyright © 2020-2023  润新知