腾讯家电讯(李珅)说起智能家居产品的人机交互, 多数人能想到的基本都是通过手机app的触控来进行操作,但科大讯飞不这么认为,在科大讯飞看来,触控的交互方式已经过时,应该逐渐走入主流的是语音的交互方式。
科大讯飞在智能家居中能做什么?
科大讯飞在国家会议中心一个硕大的会议室召开了一场关于智能家居产品语音交互的发布会,在发布会的一隅,科大讯飞搭建了一个智能家居的体验场景,出现的产品包括智能电视、空调、热水器、咖啡机、窗帘以及电灯。
科大讯飞董事长刘庆峰博士亲自进行了演示,通过科大讯飞的灵犀助手3.0新增的智能家电模块,可以对临时搭建的这一体验场景中的每一款产品进行控制。
打开灵犀助手3.0进入智能家电模块,可以将已经联网的智能家电产品全部显示出来,刘庆峰先演示了最基本的灯光操作,“开一盏灯”,话音刚落一盏红光灯就亮起了,“灯光调为白色”,灯光马上变为白色,“打开空调”,空调马上打开并设置为26摄氏度,“太热了,空调调低2度”,空调也识别出了这条指令,并快速进行了执行,“打开窗帘,煮一杯咖啡”,窗帘缓缓来开,咖啡机也自动启动。
我之所以不厌其烦地列举刘庆峰的每一个演示,因为这其实也是他所演示的全部,科大讯飞所支持并非只有这些,但用来展示的一定是科大讯飞最得意的产品。虽然在演示过程中智能家电有数次没有反应,灵犀助手3.0也提示没能识别出刘庆峰的语音命令,但还是获得了现场观众的阵阵掌声,显然这样的语音交互相对于触控而言更容易获得大家的肯定。
以上的演示刘庆峰都是对着手机来下达命令的,我发现,刘庆峰每次下达指令的时候,都下意识地将手机拿到嘴边,对此我们也表示理解,毕竟语音识别对环境要求并不低,英特尔曾经在同样的场地举办过IDF大会,也进行过语音交互的演示,巧的是英特尔使用的也是科大讯飞的技术,彼时语音交互对环境的要求更高,英特尔的演示数次以失败告终,但是在此次演示中我们可以看到,灵犀语音助手3.0已经基本能够应对会场糟糕的语音环境以及麦克风带来的干扰。
这种把手机拿到嘴边的操作方式并不是科大讯飞最得意的,实际上目前科大讯飞已经支持远场语音交互,所谓远场,就是任何交互对象有一定的距离,比如2米或3米,工作人员现场演示了对一台智能电视下达看电影的命令,电视也准确无误地识别了这一指令并进行了执行,在这次演示中,工作人员是直接对电视下命令,并没有通过手机或遥控器来进行接受。
除了以上这些,科大讯飞还已经实现了预设任务功能,比如你可以预设好回家时需要空调打开调为26摄氏度并关上窗帘,当你远程对着手机说“我要回家了”的时候,你预设好的这些任务就可以全部执行,这虽然只是把文字任务转变为语音任务,还是会更智能家居带来更多智能的感觉。
据刘庆峰介绍,目前主流的电视厂商和科大讯飞基本都有合作,包括TCL、长虹、海尔、海信、康佳、创维等,有的是个别品牌,有的则是全线产品。
语音交互还应该做些什么?
看了刘庆峰的演示,不知道现场观众作何感想,给我的真实感觉是“有很大进步,但还远远不够”,我认为有几点还做得不够好:
1、对语义的识别并不理想:刘庆峰演示中所下达的一些命令基本都是灵犀语音助手3.0中预设的命令,如果灵犀没能正确识别,还会提示你可以如何如何来下命令,这就给交互造成了较大的局限,比如对智能窗帘的操控,可以说打开窗帘或关闭窗帘,但如果说打开一点点,灵犀就无法识别一点点是什么概念,但如果是人则可以理解并做到。实际上灵犀助手3.0已经能够支持嵌入式识别和语义理解,比如打电话给张建国,但是你通讯录你记录的是科大讯飞张建国,灵犀也是能够识别的,只不过这一技术似乎还没有应用到智能家居模块中来。
2、下指令的时候还是需要字正腔圆:虽然灵犀语音助手3.0能够识别自然语音,甚至能够识别多省的方言,但刘庆峰以及工作人员在演示的时候还是有意字正腔圆地说话,显然这样识别率更高,但人和人在真正交流的时候并不会如此,有的时候会说得很快,有的时候声音则会很低,这显然也是需要提升之处。
3、无法做到全程语音操控:比如对电视的操控,都是在电视已经开启的状态执行搜索或者打某个栏目的功能,如果电视处于关闭状态还是需要用遥控器来打开,实际上刘庆峰现场还演示了使用手机在锁屏状态下拨打电话的功能,也就意味着语音唤醒是已经实现了的技术,只是还没有移植到智能家居上来。科大讯飞现场还演示了和一款基于科大讯飞技术的汽车进行语音交互,包括搜索路线或搜索音乐,但系统返回多条搜索结果的时候,并不能继续以语音的方式去操作,还是需要用手去触摸,如此一来语音交互的意义就荡然无存了。
4、对网络依赖度较高:目前灵犀对智能家居的控制多是基于WiFi网络的,如果网络不稳定或者断掉,智能家居的语音交互马上就变成了完全失灵的状态,随着越来越多智能家居产品接入科大讯飞的平台,在脱离WiFi网络的状态时应该也是可以独立控制的,这样才不会受制于网络。
5、语音合成效果还不够真实:说到这里可能让人觉得有些吹毛求疵了,所谓语音合成就是机器和人交互时的语音效果,科大讯飞参加过很多相关的测试,其语音合成技术的自然度都是很高的。按照数据显示,播音员的语音评分为5分,一般人正常说话的语音评分为4分,而科大讯飞合成的语音可达到4.2分,无论是中文还是英语,科大讯飞在全球的各项测试中都遥遥领先。在有声阅读中,科大讯飞的语音合成技术甚至能用评述风格、纪录片风格、言情风格等多种风格来朗读文本,但反映在时机交互中,会发现机器的声音还比较生硬,发音已经很接近自然语音了,但在停顿上有较大的不足,缺乏自然感。
总结
科大讯飞本次主要是发布灵犀语音助手3.0和讯飞语音云3.0,并开始布局新一代智能入口,按照刘庆峰所言,科大讯飞进入智能家居领域是要推动“从手控到声控”的变革,科大讯飞还启动了名为讯飞超脑的人工智能计划,希望让机器能够像人一样学习和思考,从能听会说进化成能理解会思考,这样的状态离真正的语音交互就不远了。
从实际情况来看,目前智能家居中的语音交互还比较依赖于手机,但智能家居很可能会成为智能手机无法承受之重,至于这一说法,我后续还会撰文进行解读,幸好我们已经看到科大讯飞一些脱离手机的语音交互。智能家居的语音交互任重而道远,科大讯飞已经迈出了可喜的一步。