分享
Scan me 分享到微信

百度发布BaiduEye涉足O2O 两大关键技术引畅想

在9月3日的百度世界大会上,百度公司正式发布智能头戴硬件产品BaiduEye。产品的技术特色在于语音交互和图像识别,产品没有配备像谷歌眼镜那样的镜片,取而代之的是配备了摄像头、动作及声音的感知识别装置,正如同产品的名字那样,这些装置更像是机器的“眼镜”。

  在9月3日的百度世界大会上,百度公司正式发布智能头戴硬件产品BaiduEye。产品与9月2日由36氪网站透露的消息基本一致,产品的技术特色在于语音交互和图像识别,产品没有配备像谷歌眼镜那样的镜片,取而代之的是配备了摄像头、动作及声音的感知识别装置,正如同产品的名字那样,这些装置更像是机器的“眼镜”,感知着周围的世界。

泰伯网

BaiduEye的这一侧包含了主要的感知设备

泰伯网

  后侧感觉略显沉重

  百度深度学习实验室(IDL)产品设计师、同时也是BaiduEye产品负责人赵思聪告诉记者,BaiduEye开发过程历时4个月,整个开发过程非常紧张。而产品应用方向,初步锁定在了O2O领域。

  在百度世界展会上,BaiduEye团队展示了他们和B2C奢侈品电商平台寺库网的合作项目,当用户佩戴BaiduEye面对他所关注的高端品牌包时,可以通过语音装置告诉BaiduEye“扫一下那个包”,或通过手势操作隔空画一个圈把书包圈起来,产品就可通过前置的摄像头感知包的外形,并通过团队和寺库网定制开发的一款手机App弹送该款书包的信息和零售价格,同时基于百度地图将用户引导到寺库线下店完成购买。据赵思聪介绍,在和商场合作以前,首先需要构建关于展示商品的识别模型,有了庞大的数据库之后,商场就可以根据顾客的喜好,推出类似的商品。

泰伯网

  BaiduEye与寺库合作,在数据库中存放了这些款书包的图像模型

泰伯网

  与寺库合作开发的App

  从合作案例可以推断,缺少屏幕端支持的BaiduEye,在未来的应用肯定也需要手机屏幕的配合才能构成服务的闭环,虽然在体验上有些繁琐,但借力产品背后深度学习研究院的项目支持,BaiduEye还是给人们留了很大的想象空间。

泰伯网

  BaiduEye全身照

  据了解,深度学习研究院成立于2013年,今年5月中旬,百度另在美国硅谷成立分支机构“硅谷人工智能实验室”。而从2012年夏天开始,百度公司就开始着手组织团队研究深度学习和人工智能,其中院长为百度董事长兼CEO李彦宏,副院长为第九批“”国家特聘专家、知名机器学习专家余凯,此外还有若干专注于大数据、机器学习的科学家,以及产品架构师和设计师加入研究院。深度学习研究院主要负责模拟人脑的学习结构,并通过图像识别技术、人机交互技术等大数据技术构建起像人类一样的深度学习能力。

  正如李彦宏在今年的百度世界大会上所提到的,“未来五年使用语音和图像来表达需求的比例将超过50%”。而BaiduEye基于图像识别和人机交互这两个重要的技术,或将有机会走得更远。

  首先,图像识别技术将是智能硬件认知世界的触角。图像识别技术被细分为人脸识别、景物识别、物体识别、动物识别、文字识别等类别。继谷歌、微软公司之后,百度也成为国内图像识别的技术提供商之一,并在上述类别的识别技术中取得了一定进展。

  例如,百度公司将图像识别技术应用在了百度翻译中,通过摄像头扫描物体,能够做到对物体的识别,并给予翻译;基于光学字符识别(OCR)技术,通过可见光来感知自然环境(像纸张上的字、建筑物上的广告文字等)中的文字轮廓,依托处理系统转化成计算机上可用的文字信息。此外,图像识别技术还应用在了百度识图、百度魔图、百度云等产品中,特别是在百度云中,目前基于识别功能可以帮助用户对照片进行景物、人物、动物或事物进行分类,这意味着用户可以通过识别技术快速整理一些专辑内容。而BaiduEye未来有望借助百度图像识别能力,对更多的对象和手势进行识别,以图像识别为入口,广泛地应用于O2O的营销及更多场景。产品负责人赵思聪就表示,产品的拓展空间相当之大,比如未来不排除让BaiduEye兼容像文字识别这样的能力,像在海外旅游中,这款硬件就可以发挥翻译、交流的作用。

  第二,语音识别技术是实现智能硬件人机交互的重要形态,也是百度IDL研究的一个重点方向。目前,包括百度地图、百度导航在内的许多百度应用都集成了百度语音技术,甚至李彦宏在今年大会上也表示,语音搜索已占总搜索量的10%左右,BaiduEye集成语音更是自然而然的事。今年,百度公司内部仅有的两个200万美金最高团队奖项其中之一就颁发给了语音识别技术研发团队,足见百度对于语音技术的重视。

  从专业角度来看,语音识别分为“训练”和“识别”两个部分,训练一般是通过离线进行的,即首先获得海量的语音数据和语言数据库,并对它们进行信号处理和知识挖掘,提炼“声学模型”和“语言模型”;识别则是在线进行的,通过前端对声音检测、降噪、提取特征后,在后端利用“声学模型”和“语言模型”对语言进行识别、处理、校正和再学习,在最终给用户一个正确反馈的同时,也能进一步提高识别率。在百度世界展会上,BaiduEye工作人员通过用不同的口语表达方法告知这款硬件设备,都能成功地执行图像识别命令,这正是体现在机器对于中文语言的识别能力上。通过不断的训练,BaiduEye则有望成为真正的“智能”设备,实现人机之间的高效交流。

  目前,BaiduEye还只停留在演示的阶段,所以期待BaiduEye正式发售的人们可能还得等上一段时间,因为无论是硬件工艺还是软件算法,还都尚须沉淀。更重要的是,不断从数据中挖掘和学习,才是产品走向成熟的关键。(文 | 陈启临)

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开