SHSSS丨从人设到音色——基于说话人属性特征的语音合成

SHSSS丨从人设到音色——基于说话人属性特征的语音合成

https://blog.csdn.net/weixin_48827824/article/details/127103005

SH Symposium Series on Speech (SH SSS 2022) ，SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。来自AI语音技术领域的优秀论文作者、专家学者，用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题-Tittle
从人设到音色——基于说话人属性特征的语音合成

嘉宾-Author

杨智涵，清华大学深研院硕士生，主要研究方向为多模态语音合成，脸像相关语音合成。合作文章曾发表于AAAI、IJCAI、IJCNN等国际会议。

概述-Abstract
个性化语音生成展现出了巨大的应用前景，如虚拟人语音合成、自动配音等。除了要求合成丰富多样的语音之外，这些应用还特别期望合成的声音特点符合人们对角色的人物背景设定、外貌特征等的预期。例如，在虚拟新闻主播这类应用中，人们通常希望其声音具有沉稳庄重的特点，以保证视听觉两个模态所传达的说话人身份特质的一致性；而对于有声小说等应用，虽然没有人物画面，但是人们依旧希望依据角色的人设特点生成合适的声音，如大叔音、少年音等。

纵观各类应用场景，这些说话人具有自己独特的“人设”，是指导语音合成的参考依据。因此，本文提出基于人设，也就是说话人属性特征的信息，来合成语音，达到个性化的声音定制的目的。说话人属性特征是描述说话人生理属性和社会属性的一系列特征，如：年龄、性别、人格等。引入说话人属性特征的概念，使得面向有声小说等应用的声音定制化语音合成成为可能，用户可以设定或修改人物属性特征，从而操纵合成语音的声音特点。同时，该方法也解耦了不同因素对于声音特征的影响，使得语音的合成及定制具有可解释性。

题目 Tittle：从人设到音色——基于说话人属性特征的语音合成

期刊 Journal & Comments：IJCNN 2022 神经网络国际联合会议

作者 Authors：杨智涵、吴志勇、贾珈

合成 demo：Speaker-Characteristics-Guided-Speech-Synthesis

议程-Program Overview

参与方式-Joining
直播将通过CSDN直播间进行直播

手机端、PC端可同步观看

SH-SSS丨从人设到音色——基于说话人属性特征的语音合成-CSDN直播

————————————————
版权声明：本文为CSDN博主「语音之家」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_48827824/article/details/127103005
相关阅读:
[iOS微博项目
 [iOS微博项目
 [iOS微博项目
 [iOS微博项目
 [iOS微博项目
 [iOS微博项目
 [iOS微博项目
 COS Javascript 上传图片putObject成功后没有返回ETag？
模拟一个在线音乐播放程序（socket + 数据库）
python 基础（while 循环、格式化输出、运算符、编码初识）
原文地址：https://www.cnblogs.com/wcxia1985/p/16790214.html