分享
Scan me 分享到微信

捷通华声武卫东:语音交互未来市场广阔

2012地理信息开发者大会在北京国家会议中心举办,北京捷通华声语音技术有限公司总经理武卫东在接受3sNews专访时表示,未来三年五年,语音交互实际上作为一种非常好的、非常便捷的,跟人的生物特征契合度非常高的交互手段,一定会有很广阔的市场。

  3sNews讯 2012地理信息开发者大会在北京国家会议中心举办,北京捷通华声语音技术有限公司总经理武卫东在接受3sNews专访时表示,未来三年五年,语音交互实际上作为一种非常好的、非常便捷的,跟人的生物特征契合度非常高的交互手段,一定会有很广阔的市场。

泰伯网

北京捷通华声语音技术有限公司总经理武卫东

  3sNews:捷通华声的业务长项是什么?

  武卫东:捷通华声创立了12年,其实,捷通软件在98年就已经创建。我们主要进行语音识别技术、手写识别技术的研发和应用。

  从技术来讲,在2000年,我们在成立捷通华声的时候,请到了中科院声研究所的教授,这也是国内做语音的泰斗级的权威,到捷通华声作为我们首席科学家,开始创建为我们语音识别这块搭建整个的研发核心队伍,所以在技术上我们是有基础的。特别的是我们公司另外一个首席科学家,也是北大的顾小凤教授,是国内模式识别里的泰斗级的科学家,创建了我们手写识别技术。

  公司近十年的业务基本上有两大块。一块是基于语音手写人机交互技术的核心业务,另外在移动互联网领域。

  随着移动互联网,包括云计算服务的发展,公司从原来的核心技术的授权提供商,向一些平台级的解决方案的服务提供商转型。所以,我们现在从原来的卖SDK,现在做平台级的服务,包括深入到一些行业。而且从原来仅仅是语音技术、手写技术这方面发展到现在我们基于人机智能交互技术,已经涵盖了大概六七类这样的人机交互技术。在云计算方面我们搭建了灵云平台,而且已经开始了和各个产业的融合性的合作。

  3sNews:苹果手机的发布,把siri推向市场,让语音走向了大众生活的方面,你怎样看待这种情况?

  武卫东:siri确确实实给大家带来了一些新的感觉,或者是一种新的认识。大家认为这个技术其实很了不得,语音识别可以这样。其实那是一个表象的东西,siri的背后是一套自然语言对话系统。可能siri把语音识别带活了,但是实际上一个好的语音识别技术成功与否在于用户的体验。

  对于语音交互技术的认识,我觉得现在目前产业界,尤其是在相关领域里面,有点泡沫。对语音交互这方面的应用,大家要分领域,而不是说一个公共的东西就能解决所有的问题,这是做不到的。所以我认为,苹果推出的不是一个技术代表,因为苹果有一个完整的无缝的产业链。它每推出一个产品,都一定要让人们感觉到一些新的东西,新的一些体验。siri是为它封闭的产业链提供了一个新的亮点,让人们更多去买苹果手机。但是目前来讲,还没有达到它真正对siri期待的应用,所以对这块的应用,我们应该冷静判断。

  另外,语音交互技术受环境因素影响非常大,如口音、人的说话方式、环境、表达方式。要改变人的习惯,让人适应机器,这个挺难的。让机器真正能感知,让技术怎样引导人用它,这也是关键。其实国内在这方面宣传比较少,很多厂家在这方面探索精神或者说实践精神确实没有苹果厉害。在这方面,我们还是缺乏高端人才,尤其是在产品设计、体验设计,中国现在确实缺乏这方面的高端人才。

  3sNews:华声有没有大众市场的语音产品?

  武卫东:有,小唐龙,学术名字叫做手机移动助手或者移动终端的智能助手,我们为什么不叫siri,就像你刚才所说的,我要订张机票,我得通过siri去看,但是不能购买。但是我们做小唐龙的时候,里面有一个工单的思想,我们觉得比较贴切。我们必须要和提供内容的厂商、合作伙伴进行针对这种应用的后台和端的融合。至少在一些流程上面,把一些命令、流程融合到我们的小唐龙的执行操作里面。

  3sNews:小唐龙目前的应用情况怎样?

  武卫东:小唐龙是在今年的1月16号发布,3月16号正式上线。现在在进行一些功能的完善,包括一些资源的深度整合。同时,我们已经开展了一些智能领域的合作,比如说智能电视、车内服务的客服平台上,还有就是一些客服,比如运营商的一些客服上面,,简单地说就是可以通过小唐龙问话费、流量、运营商的信息、活动,类似于客服的性质。

  小唐龙可以说是一个智能助手,不是门户,但起到了一些门户的作用。在小唐龙目前的功能里面,提供了一些信息,包括周围的生活场所查询的信息、路况的信息,甚至包括城市的出租车,打出租车从哪儿到哪要多少钱的这样一些信息。我们跟百度、搜狗都有一些合作。这方面来讲,通过它能够提供的一些内容,我们把这些能力开发出来,提供给用户使用。

  除了语音可以交互以外,小唐龙还可以提供手写交互。手写有一个好处,不受场景的干扰,同时准确率高。而且捷通通过十多年的发展,手写技术已经发展到不像原来写一个字识别一个字,而是有连续的。所以在手写方面是小唐龙是一个特色。

  3sNews:武总给我们简单预测一下,我们三年或者五年之后语音交互的市场前景吗?

  武卫东:我们看到语音交互在很多地方开始整合,而且大家开始讲一些产品。但是我自己感觉作秀的成分大于实用的成分。你可以去到市场上调研,调研相关的一些应用,到底这些东西是不是真正已经实用化,大家是不是已经天天在用它,或者是已经非常离不开的状态。这个还有待商榷。我觉得,从未来三年五年,语音交互实际上作为一种非常好的、非常便捷的,跟人的生物特征契合度非常高的交互手段,一定会有很广阔的市场。而且,人们会越来越适应用这种方式进行人机交互。

  基本上现在机器的处理能力是足够的,很大程度是人如何能够把这种技术和真正贴身的应用很好地融合起来。而且刚才提到的后面很多的细分的一些模型,包括一些结构化的设计,能够真正结合起来。因为它的这项技术背后有很多的模型,很多结构化的东西,这些东西是需要时间,需要结合具体的领域里面去做的。所以说这个技术不是说已经成熟到大家拿来就能用,没有那么乐观。但是也绝不是那么悲观,如果大家想把这个技术做好,稍微花点工夫就可以把它用好。而且不能说100%全部替代性的应用,而是补充性的应用。因为有很多地方实际上是可以用的。比方说现在车联网里面做人工客服。语音合成现在用得很成熟。语音识别,其实有很多地方,比如说遇到一些做判断的时候,我想买东西,想找个什么地方,你可以很准确说的时候,是完全可以做到的。但是找不到,完全可以通过人工去干预。
 

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开