当前位置: 首页 » 行业资讯 » 机器人»机器人语言“天赋”崭露头角；

机器人语言“天赋”崭露头角；

[点击复制]

发布日期：2016-10-09 浏览次数：316

核心提示：智能机器人如何与人沟通？简单的指令输入早已不能满足这个快节奏的社会，如果能够语音操作该有多好。但是现在大部分智能机器人

智能机器人如何与人沟通？简单的指令输入早已不能满足这个快节奏的社会，如果能够语音操作该有多好。但是现在大部分智能机器人对于语言的识别与回应并不尽如人意，有些只能识别普通话，有些则只能进行一对一回应，如果是多人聊天模式，或者是在嘈杂的背景下，智能机器人就会“晕头转向”，不知所云。

想要解决这个问题并不简单，不过近日，在美国旧金山举行的第四届国际多通道语音分离和识别大赛，中国参赛团队通过完成六麦克风、双麦克风和单麦克风场景下的语音分离和英文识别任务，最终夺冠。而这个技术解决的最重要问题，就包括在噪音环境下的语音识别。此次比赛的获奖团队来自科大讯飞，目前，他们已经把这项技术应用在了名为AIUI的人机交互解决方案上。

与机器人对话

语音识别技术，小到手机指令大到智能家居控制都有所体现，这让生活变得更加便捷。但这并非语音识别的终极目标。如果在噪音环境下，多个人给同一个智能机器人下了命令，那么后者应该听谁的，又应该如何应对呢？国际多通道语音分离和识别大赛比的就是如何解决这一类问题。

若想弄明白多通道语音，先明白语音识别的概念。首先，语音识别是指从语音到文本的转换，也就是让机器能够听懂人说的话。这其中包括两层意思，一层是指把用户所说的话逐词逐句转换成文本；二是指正确理解语音中所包含的要求，作出正确的应答。这其中语音语言学、信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能的交叉学科，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息。

智能机器人对于人的语音的处理，与人类自身理解完全不同，它们先将连续的句子分解为词、音素等单位，在理解语义的规则基础上读取其中的含义。如果说话的主体语音模糊或者口音较重时，智能机器人若没有设置过相关的规则，则无法识别。甚至一个人在认真说话与随意说话时的语调在智能机器人听起来都有区别。再加上采集声音时周围环境的噪声等，都会对机器人产生干扰，进而导致语音识别的误差率增加。而多通道语音识别是指，通过多个麦克风采集声源，再用麦克风阵列技术进行降噪之后，语音识别将会更加精确。

科大讯飞AIUI研发总监赵艳军在接受《中国科学报》记者采访时介绍说，AIUI同时拥有的回声消除、置信度判决、连续语音解密等技术，人可以在任何时候对机器进行打断发出需求，AIUI在远场识别方面支持3~5米的识别距离，识别率达到90%。“AIUI还支持方言识别，全双工交互，以及自动纠错的功能。同时，用户在和机器交流的时候发出的非相关语音，机器可以有效拒识。”赵艳军说。

AIUI是目前世界上正在开发的人机交互解决方案之一。作为未来智能机器人的主流配置之一，商业化的语音交互平台也是不少IT巨头的研发重点。比如微软的Speech API，是微软推出的包含语音识别（SR）和语音合成（SS）引擎的应用编程接口（API），依托Windows平台，可以之和朗读英文、中文、日文等。另外一个巨头是IBM，它是较早开始语音识别方面的研究的机构之一，在1984年时，IBM发布的语音识别系统在5000个词汇量级上达到了95%的识别率。

自然流畅的交互体验

在之前公布的一段视频中，几个人给一个搭载了AIUI的机器人半成品下达不同的命令，先是搜索歌曲，再来问天气，然后让订机票，之后还有人要求机器人搜索一首歌手与歌名完全不符的歌曲。虽然只是半成品，但是视频中的机器人不紧不慢地“接招”，还“毫不客气”地指出歌名与歌手信息有误，并善意地提醒是否要重新搜索。

“准确的反应归结于硬件与软件的不断更新。”赵艳军回应道。首先要克服的是交互环境的复杂性，比如用户交互时各类的噪声、多样的口音、以及其他不可预知的干扰因素。其次，就是AIUI识别平台中既长又复杂的研发链路，从前端的麦克风阵列技术到后端的语音唤醒、语义理解等服务，需要各组的人员协调、配合、沟通、合作，“这对整个项目团队的要求是很高的。”

硬件方面，AIUI 也从之前的4+1麦克风阵列到最新的6+0麦克风阵列，让其声源定位、回声消除、噪声抑制等能力不断增强，可以从容应对各种复杂的环境。“后续我们将持续优化和完善AIUI，进一步提升效果。如提高远场识别的识别率，增加方言识别的自适性，提高语义理解的能力等，使得AIUI的体验越来越完美。”赵艳军说。

智能生活更进一步

语音交互技术的进步并不是孤立呈现的，它在智能机器人与人类沟通功能的提升中所做的贡献功不可没。这一贡献体现在智能设备适用人群范围扩大以及领域拓宽。比如，随着智能设备和网络的普及，越来越多的老龄人群、低龄人群、身体残障人群使用智能设备。对于这些人群，触控的交互方式并不方便，语音交互则突破了年龄障碍。甚至，有人曾经预测，语音交互可能会成为继搜索引擎、浏览器、智能手机OS之后，第四代的入口。

同时，依托云技术以及大数据的发展，智能语音技术的迭代和优化速度也在加快。智能机器人、智能车载、智能家电等领域的多款产品都可以依托这一技术。

下一篇：模特走T台压力有多大？让这套穿戴设备告诉你;
上一篇：小型自动驾驶汽车与人型机器人联动；

[ 行业资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]

• 7年投资44.2亿元！广东持续推进AI与机器人关键	• 人形机器人商业化落地可期
• 在成都，机器人批量造机器人	• 持续构建创新生态，浦东加速人形机器人多元场景
• 人形机器人生产节奏渐趋明确多家公司布局丝杠	• 从实验室到赛场我国人形机器人迎来迅猛发展
• 机器人产业前景广阔汽车零部件企业入局抢抓先	• 外媒：人形机器人首次在中国汽车工厂协作应用
• 马斯克：今年目标生产5000台人形机器人	• 广东推出12项硬核举措力促AI与机器人产业跃升

第26届上海国际清	2025数控机床与金
2025中国(上海)机	2025武汉国际工业

中舟智能固守科技	玉沣科技：精研滑
新松机器人自动化	罗克韦尔自动化（

我的供应

我的求购

商铺管理

工业机器人及行业应用

智能机器人

工业自动化

智能装备

机器人语言“天赋”崭露头角；