当前位置: 首页 » 行业资讯 » 机器人»为了合成让人类听懂的语音，机器做了哪些“深度学习”？

为了合成让人类听懂的语音，机器做了哪些“深度学习”？

[点击复制]

发布日期：2017-09-06 浏览次数：510

核心提示：　　深度进修在2006年开端崭露头脚后，近几年获得了飞速的成长，不管是学术研讨照样企业运用均出现出指数级增加的趋向；随同着这项技巧的赓续成熟，深度进修在智能语音范畴率先发力，获得一系列胜利的运用。　　例如

　　深度进修在2006年开端崭露头脚后，近几年获得了飞速的成长，不管是学术研讨照样企业运用均出现出指数级增加的趋向；随同着这项技巧的赓续成熟，深度进修在智能语音范畴率先发力，获得一系列胜利的运用。

　　例如，一。音色的定制化，须要跟踪录年夜量的音库，从新练习一个模子；二。特性化表现办法的定制化，可以录一些数据，经由过程深度进修练习模子，自顺应的办法来完成。

　　深度进修在统计参数语音分解中的运用

　　语音分解重要采取波形拼接分解和统计参数分解两种方法。波形拼接语音分解须要有足够的高质量发音人灌音能力够分解高质量的语音，它是贸易产物中最经常使用的语音分解技巧。统计参数语音分解固然全体分解质量略低，然则在小范围语料、低占用资本的情形下，优势更加显著。另外，混杂语音分解结合了波形拼接分解和统计参数分解的优势，选音办法相似于传统的波形拼接办法，它应用参数分解办法来指点选音；接上去重点引见今朝普遍应用的语音分解办法：

　　（1）传统的基于DNN/LSTM的分解

　　传统的基于HMM统计参数的语音分解是在练习进程中树立文本参数与声学参数之间的映照模子，经由过程高斯混杂模子描写每一个建模单位。在建模进程中有三个环节会招致语音音质降低，第一是决议计划树的聚类，第二是声码器，第三是参数生成算法。针对决议计划树聚类成绩，可以经由过程深层神经收集树立文本特点和声学特点之间的映照关系，替换传统的浅层模子，进步模子精度；比拟典范的深层神经收集模子构造包含深层相信神经收集和长短时记忆递归神经收集；后者具有更强的序列进修才能，采取BLSTM-RNN建模时，还可以跳过参数生成算法直接猜测语音参数，最初经由过程声码器便可以分解语音；总的来讲，应用深层神经收集壮大的非线性建模才能，在必定水平上晋升了语音分解体系的机能，然则并没有跳出原本的语音分解体系框架。

　　（2）基于WaveNet的分解

　　在已有的研讨中，很少有人会直接在时域上对已有音频建模。从直觉上剖析，构建一个自回归模子，可以或许猜测每个samples是若何被后面一切的samples所影响的，是一个相当艰难的义务。谷歌提出的基于WaveNets的语音分解办法，跳出了传统语音分解框架，绕开声码器模块，直接对采样点停止猜测，面临这个充斥挑衅的成绩，获得了冲破。

　　WaveNet语音分解体系的输出包含文本特点和先前时段的音频采样点。个中文本特点的有用表述起到异常主要的感化。假如在没有文本序列的情形上去练习收集，依然可以生成语音，然则没法听懂输入音频的内容。WaveNet语音分解体系存在的成绩是模子每次输入单个采样点，盘算效力难以知足适用请求。可以引入一些自顺应的办法对已有模子停止优化，使其可以或许实用于分歧发音人。也能够在模子的输出端供给更多的信息，例如情绪或口音，如许使得生成的语音可以更多样化，更具表示力。

　　（3）基于DeepVoice的分解

　　百度提出了Deep Voice语音分解体系，它将外面的许多模块用深度神经收集去完成，经由过程相似于WaveNet的分解器来分解，后果也是比拟幻想的。已有的语音分解体系会在某些环节上采取深度进修，但在Deep Voice之前，没有团队采取全深度进修的框架。传统语音分解须要停止年夜量的特点处置和特点构建，但百度经由过程应用深度进修防止了这些成绩。这使得 Deep Voice 的运用规模加倍普遍，应用起来也加倍便利。假如须要运用于新的数据集，传统的语音分解体系完成从新练习需数天到数周的时光停止调理，而对Deep Voice停止手动操作和练习模子所需的时光只需几个小时就足够。比拟于WaveNet语音分解体系，如今这个体系的有用速度晋升了400倍。

　　（4）两个端对真个语音分解

　　第一个是Char2Wav，这个模子是直接对输出的文本停止编码，采取encoder-decoder模子。对输出特点停止编码，然后生成的中央编码信息放到解码器里停止最初的分解，分解采取SimpleRNN的分解器来分解语音，后果也是比拟幻想的，并且是典范的End-To-End的语音分解模子。

　　再一个是谷歌提出的端对真个语音分解体系，它跟Char2Wav比拟相似，输出的也是Embeddings，分解的后果也比拟感性。

下一篇：水的污染问题要在岸上找“病因” 机器人为地下管网“诊病”

上一篇：临平新城将打造一座产业互联网小镇

[ 行业资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]

同类行业资讯

• 机器人产业前景诱人瑞迪智驱将改扩建谐波减速 • 国际机器人联合会：中国在工业领域使用机器人的
• 中国人形机器人市场规模将超27亿元 • 长安启动“数智造车”计划：投500亿研发飞行汽
• 上海机器人产业园迎来“主场作战” • 银河通用机器人完成5亿元战略轮融资
• 10年内人形机器人将进入千家万户！可以做各种家 • 人形机器人行业玩家涌入灵宝CASBOT推出首款人
• 人形机器人量产前夕众擎把造价打到10万元内 • 北京人形机器人“天工”面向行业开源开放

共0条 [查看全部] 相关评论

展会更多+

2025武汉国际工业

2025成都国际工业

2025第24届西部光

2024深圳国际清洁

11-202025武汉国际工业博览会暨中国国际机电产品博览会

11-142025成都国际工业博览会工业自动化与机器人展

11-132025 第五届广州国际新能源汽车产业智能制造技术展览会

11-13武汉电子展︱2025 武汉国际半导体产业与电子技术博览会

11-082025第85届中国教育装备展示会（天津）

视频更多+

中舟智能固守科技

玉沣科技：精研滑

新松机器人自动化

罗克韦尔自动化（

10-11中舟智能固守科技创新新品首发添彩中国梦

10-11玉沣科技：精研滑台十二载遥遥领先的模组

08-05新松机器人自动化股份有限公司

07-18罗克韦尔自动化（中国）企业宣传片

07-18凌华科技机器手臂视觉导引解决方案

点击排行

谁在助力浙江人形机器人加速跑

马斯克：未来20年人形机器人数量

“成都造”人形机器人首发

全国首批人形机器人具身智能标准

家电企业跨界机器人赛道蔚然成风

华为、小鹏加码支持政策出炉国

人形机器人“新星”布局研发中心

机器人前三季度营收24.31亿元，

将开展人形机器人业务？赛力斯紧

超七成人形机器人企业前三季度盈

我的供应

我的求购

商铺管理

工业机器人及行业应用

智能机器人

工业自动化

智能装备

为了合成让人类听懂的语音，机器做了哪些“深度学习”？

• 机器人产业前景诱人瑞迪智驱将改扩建谐波减速	• 国际机器人联合会：中国在工业领域使用机器人的
• 中国人形机器人市场规模将超27亿元	• 长安启动“数智造车”计划：投500亿研发飞行汽
• 上海机器人产业园迎来“主场作战”	• 银河通用机器人完成5亿元战略轮融资
• 10年内人形机器人将进入千家万户！可以做各种家	• 人形机器人行业玩家涌入灵宝CASBOT推出首款人
• 人形机器人量产前夕众擎把造价打到10万元内	• 北京人形机器人“天工”面向行业开源开放

2025武汉国际工业	2025成都国际工业
2025第24届西部光	2024深圳国际清洁

中舟智能固守科技	玉沣科技：精研滑
新松机器人自动化	罗克韦尔自动化（