机器人的语音问题--688IT编程网

机器人的语音问题

李实

研究机器人的语音，首先我们要把这个语音识别问题，分清楚分类。从大的范围上讲，可以从两个角度进行区分：一个是特定人，一个是非特定人。特定人，就是只能识别某个特定的人；而非特定人，就是什么人都能识别，甚至有口音之类的。除此之外，还有一个连续语音模型，以及语音片段的概念，不过我们如果用我前面提到的几个概念来区分，基本上可以明白，现在究竟做到了什么程度。

首先，现在，基于特定人的语音指令，那是准确率极高，实现起来没有任何问题。这个其实不涉及到语音识别，而是模式匹配而已。SpeechSDK做的已经很好了，而且实现到了非特定人的识别。我在2002年就用过一家美国公司的语音识别芯片，可以做特定人，和非特定人的语音片段识别。李开复早年把非特定人的连续识别模型给做出来了，为什么我们现在仍然见不到非特定人的连续模型？其实严格意义上讲，SpeechSDK，可以实现非特定人的连续模型，但是大家想到过没有，我们的语音，是用来交互的，也就是我和你说，还需要得到你的回应，那么对于听的一方，你不仅仅需要清楚每一个字，而且，你还必须理解是什么含义。比如我问题一

个问题，你今年多大？通过SpeechSDK，可以准备把这些字给识别出来，可是没有用，计算机并不知道这几个字有什么意思？更不知道该如何回答。这就是现在剩下的问题，当然也就是人工智能里面的核心问题了，也就是所谓的理解。其实不仅仅有语音，还有图像，包括手语，我们如果从识别的角度，都可以很容易识别，但是一旦识别之后，必须要上升到理解的层次，你需要理解人家的意思，才可以做出回应。所以理解，可以说是智能的最核心问题之一。不过到现在，应该也还没有好的方案。目前美国一直有一个很有名的比赛，就是实现图灵测试。这个图灵测试，就是当年图灵提出的最有名的一个实验。也就是说，一个人，在一个房间，通过一个黑布，与另外一个房间的某个东西，进行交互。如果这个人，无法区分，那个房间的东西，是机器人，还是真的人，那么，这个机器人，就叫做通过图灵测试。也就是说，你无法通过交互，来判断对方是什么，是机器，还是人。其实大家都知道，现在有很多聊天机器人，包括QQ上，其实有很多，我们一般称他们为Agent，或者叫Intellgent Agent。还有另外一种，我们叫Spider，这个不是用来陪你聊天的，而是用来收集网络信息的，google，还是百度，都是通过Spider来获取网络的最新变化信息，所以大家就可以搜索了。那么这个陪你聊天的Agent，当然我们希望越聪明越好，最好就像我们的朋友一样。不过据我所知，目前中文聊天，水平还是比较差的，这方面的研究，也没有深入。不过美国那

边，基于英文的，是非常好。有几个富翁，搞了一个基金会，然后支持一个大赛，就是让大家开发最好的聊天机器人，然后进行图灵测试，看看谁的机器人搞得好。最近这一两年，这个比赛，已经非常牛了，也就是说，获得第一名的，貌似已经有超过90%通过图灵测试，我最近没有去查他们最新的结果。/aiml.html这个alice机器人，是MIT开发的，曾经拿过2005还是06年的金奖，效果已经非常好了。不仅仅可以陪你聊天，还特别有幽默感，可惜就是英文的。我相信，在最近的一两年之内，这个英文的交互，就可以通过图灵测试。但是现在还有一个问题，就是这些聊天机器人，都是英文的，中文基本上无法直接使用他们的原理，因为这个和语言，语法，都有很大的相关性。大家有时间可以到那个Alice的网站上，去感受一下。我们当年，就是用SpeechSDK给Alice做了一个接口，然后通过语音，识别成文字，然后把文字给Alice，再把Alice回答的文字，通过text2speech，变成声音。现在很多人，用Alice开发专业机器人，比如给小孩子讲地理知识的聊天机器人，还有工程师机器人，帮你解答工程技术问题的，应用非常广泛。给你们说一个有意思的事情，我们当时在清华，测试Alice的水平，我们让两个Alice互相聊，大家能猜到吗？这个Alice非常的聪明，聊了一个半小时后，一个Alice说：我原来不是世界上唯一的聊天机器人。这就是说Alice已经发现，和他聊的，不是人，也是一个聊天机器人。不过从原理上看，Alice仍然是通

过模式匹配的，还是没有上升到理解的层面，不过研究者把模式设计的非常细致，然后再加上推理机，就做出了非常好的结果。

总结一下，从语音角度，可以分为特定人，非特定人，连续语音模型，和离散语音模型，从识别的角度，已经做的很好，包括微软的SpeechSDK，以及IBM的viavoice。不过从理解上，还差很多。

今天广州RCJ比赛，开幕式上的那两个机器人，从语音上，就太幼稚了，只不过实现了一个播放而已，和录音机功能一样，本来我还以为他们能有语音指令，通过人来发指令，后来发现，机器人是通过遥控器来接受指令的，所以有点失望，我希望各位老师，以后看到某机器人时，能从其技术角度来分析，而不是仅仅看它的外表。

688IT编程网

机器人的语音问题

发表评论

推荐文章

mysql copy表结构语句

oracle三表关联查询语句

layui表格合并单元格行数据

element plus 表格鼠标悬浮变

不同数据库表关联查询sql语法

热门文章

如何使用MySQL进行数据比较和同步

tabletopic经典题目

Excel中的超级表Table详细介绍(二)

vue+elementUI实现分页表格的单选或者多选、及禁止部分选择

数据库mysql转为postgresql变动

sql 文件语法

使用SQL语言进行数据库操作的技巧

sqlite基本操作语句

oceanbase mysql语法

oracle中outer用法

hive anti join写法

mysql系统内置表

kudu复制表结构语句

element表格自定义的sortable排序

element plus中表格的使用

SQLServer中的通配符介绍

Oracle -Update 多表关联

mysql与sqlserver 建表语句

oracle中的建表的sql语句

matlab中表格时间数据进行加减处理的方法

最新文章

layui表格合并单元格行数据

element plus 表格鼠标悬浮变

关于家具的英语单词

elementui 树形表格的使用以及表单嵌套树形表格的校验问题

sql 常用查询语句

oracle number字段建表语句

标签列表