分享
Scan me 分享到微信

王立劭:一种入口,两个引擎,三个纬度

为期两天的2012地理信息开发者大会(简称:WGDC)在北京国家会议中心举行,在第二天的“Telematics与车载智能终端”分会场,深圳车音网科技有限公司总经理王力劭发表了题为《基于地理信息的非结构化语音识别搜索技术》的演讲。

  3sNews讯 为期两天的2012地理信息开发者大会(简称:WGDC)在北京国家会议中心举行,本次大会以“新技术、新模式、新商业”为主题,是地理信息领域最具影响力的技术性盛会,其宗旨是不断引领和促进地理信息技术的创新与变革。在第二天的“Telematics与车载智能终端”分会场,深圳车音网科技有限公司总经理王力劭发表了题为《基于地理信息的非结构化语音识别搜索技术》的演讲。

泰伯网

  以下为文字实录:

  非常感谢各位在一个昏昏欲睡的时段还能坚持在听我们的演讲,也非常感谢地理信息开发者大会给我们这样的机会去展示一下自己的应用。

  首先阐述一下什么叫Telematics,Telematics我们认为就是在移动过程当中通过移动互联网获取信息的服务。其中地理信息尤其是位置信息的获取是动态的,这就是Telematics。这是我们从市场上获得的真实的Telematics用户资料数据,可以看到服务商全部的服务位置查询占75%,位置服务查询价值大概是在40%,在这样的服务里面可以看到两个信息,第一个信息,重大服务当中基于位置服务的查询和获取是一个非常强烈的需求。第二,高端车德威治信息获取需求强于一般车主的这说明高端车主可能跑的地方更多一些所以这样的需求更多。

  基于这样的服务重要性,我把整个结构变成了一种入口、两个引擎。

  一种入口,包括GUI是键盘鼠标和屏幕的交互,一种是VUI,就是语音与界面的交互。VUI用的是口和耳的交互,通过语音识别之后在的声音获取,这个口和耳使人和机器更进一步。

  两个引擎。在语音识别过程中目前有两类引擎,讲这两个引擎之前我先做一个结构化搜索和非结构化搜索的介绍。比如我们想搜索雍和宫2室100万到150万的房子,我们首先搜索雍和宫,然后是1号线或者2号线等等,这是结构化的搜索。非结构化搜索是后台引擎进行过滤,提取重要的信息进行搜索。这也掀起了互联网时代的革命,所以非结构化搜索是通过入口完成的。语音识别的一般原理,比如用户想去国家会议中心,我们通过声音传递获取之后,后端要识别出来,识别出来之后会得到相应的说词然后是语音处理,之后再通过语音智能通过模型分词预取你的动机。动词是要去,目标是国家会议中心。这个过程之后系统会自动起动导航和定位。基于这样的一般原理非结构化搜索我们提出了两种引擎,一种是通用的引擎,它通过语音识别将用户的动机获取到,获取到之后再通过知识库提取你的意思,把它分成两个阶段,这个更着眼于识别的技术和AI的推理,是属于演绎性的归纳。现在作为以我们的理解来看,目前机器智能程度还没有达到一个算法可依突破的极限,所以基于这种理解,我们玩一玩可以,但是深度利用还是有一定的问题。

  这种引擎能力被大大的缩小了,但是专门的领域里,它的准确度和可用度却是大大提高。这是我们最近研究的垂直领域引擎这种方式是基于实际的统计,用户到底会在某一个领域里说哪一些词或者哪些句式形成的引擎。比如有这样一个表格,横向是表达方法,越靠近左边的表达方法越常用,右边的可能只有一两个人想说的。比如更多的人可能会说,我想去哪儿,也有不少人你带我到哪儿,可能很少有人说什么地方在哪儿,你能不能带我去,这样的人很少。所以构成了这样一个曲线,这个就是我们要处理语音的所有的内容。我们把所有的地名,再加上问询地名所有的方法,构建起来以后最终形成一个封闭的数据和识别的空间。这个空间如果讲识别,最后用户效果其动态就是高准确率和低相应时间的。

  3个纬度。一个是SOLOMO,一个是LBS,一个是O2O。第一种方式是会议中心在哪儿?第二种方式就是会议中心附近都有什么酒店或饭店?这是我们所求的一个点,第三种方式,从会议中心到雍和宫怎么走?我们可以通过一种模式求得一条路径,这是一种查询方式。另一种方式这是典型位置的社交,比如现在很多线下应用,要么通过地理信息的应用形成O2O。基于这样的理论,我们提出了地理信息在非结构化语音搜索里面的三个纬度。第一个纬度是“实体内涵”就是里求得的位置和名称是什么,经纬度在哪儿。第二个纬度是“外延”。就是找某一个酒店或者找某一类餐馆、咖啡厅、加油站等等,通过实体的外延进行的搜索。第三个纬度“是通过热度搜索”比如我们看更多人所关注的饭店,这是通过热度进行搜索。所有基于语音非结构化搜索最终都是由这三个纬度体现的。

  基于这样的一种应用最后系统构成是什么样的,基于这个系统的视角我们可以看到语音输入通过移动互联网、IVR、把语音送到了识别器,由识别器进行了处理,然后再通过并行的搜索方式,软件通过并行的方式,硬件通过网格计算、负载均衡,最后通过热度排序反馈给用户最需要的结果。这是非结构化在地理信息上典型的应用。

  从用户视角,用户可以说周边的加油站在哪儿,就是系统识别和搜索所得到的一系列的加油站,这些加油站有可能会按照价格最低、用户到达频率最高、或者用户评价指数最高这样的方式排序,最后给用户。用户此时所获得的信息就是通过检索获得的,这个信息对他来说是最有用的。

  这样一个平台大致的结构。四层:

  一是基于语音特征库的,如果在车载产品尤其导航服务中,能够让语音产品介入,其实更在意的时候口音容忍度和抗音性,我们花了大量时间形成了语音特征库。有语法库和搜索引擎,在引擎之上可以通过网络和IVR引入我们的数据,在应用平台层可以提供数据挖掘、数据下发等等。第三层,我们提供了供车载环境的接口,能够轻易的做APP,这个平台可以是租用的方式调用。

  最后我想讲五个问题。实际上语音识别作为目前全球能够掌握的并不多的高端识别技术,语音识别能够达到的可用性和未来发展空间,我们认为还有很多工作要做。语音识别只能用在最合适的平台和环境,如果超越了语音识别本身的特性,目前的局限性我们不承认的话,会带来很多问题。我们实际跟车厂服务和车主服务最难解决的五个问题:

  1、口音问题,2、实体别名,自然交互的语音意图,信源错误,信源干扰下的容错算法。

  第一个是语音识别真正做到很好的应用还有口音的问题;第二个是实体别名的问题,我们爱听一段录音,这是很典型的别名问题,比如央视主楼有一个大家耳熟能详的别名,这种别名我们如何区分,这也是一个问题。我们处理过1500万的POI,深度挖掘,发现15%到25%左右存在着别名的叫法,这对语音识别来说是很难很难达到的。

  第三个是自然交互的语音意图。比如在南昌,我说请导航到北京饭店,按照这个话搜索原理会分词猜测你的意图,发现是北京,在南昌搜北京饭店,可以有这样一条路到达,但是非结构化搜索很有可能是你穿越了大半个中国到了北京,所以这也是我们的一个课题,也是我们正在攻克的难题。

  第四个信源错误,信源本身发生的不可确定的情况下语音识别是没有办法解决的,它是信源发生错误后台OI同时发生错误的现象。

  还有一个就是信源干扰下的容错算法,就是信来周围发生了一种语音干扰进来的时候,那出现的问题并不可预知。所以语音搜索未来达到实用小首先要突破的重要问题是这五个。我们认为虽然面临这样的一些难题,但是我很开幕式的那个大片的一句话说“人类的视野从最早木取可视的范围之内,能够发展到今天能够以上帝的眼光俯视世界”,随着搜索技术和非结构式搜索的到来,我们认为基于地理信息的语音识别系统,没有什么是不可能的,谢谢!

  (以上内容根据速记整理,未经本人审核)

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐