百度发布BaiduEye涉足O2O 两大关键技术引畅想-泰伯网

在9月3日的百度世界大会上，百度公司正式发布智能头戴硬件产品BaiduEye。产品的技术特色在于语音交互和图像识别，产品没有配备像谷歌眼镜那样的镜片，取而代之的是配备了摄像头、动作及声音的感知识别装置，正如同产品的名字那样，这些装置更像是机器的“眼镜”。

　　在9月3日的百度世界大会上，百度公司正式发布智能头戴硬件产品BaiduEye。产品与9月2日由36氪网站透露的消息基本一致，产品的技术特色在于语音交互和图像识别，产品没有配备像谷歌眼镜那样的镜片，取而代之的是配备了摄像头、动作及声音的感知识别装置，正如同产品的名字那样，这些装置更像是机器的“眼镜”，感知着周围的世界。

泰伯网

BaiduEye的这一侧包含了主要的感知设备

泰伯网

　　后侧感觉略显沉重

　　百度深度学习实验室(IDL)产品设计师、同时也是BaiduEye产品负责人赵思聪告诉记者，BaiduEye开发过程历时4个月，整个开发过程非常紧张。而产品应用方向，初步锁定在了O2O领域。

　　在百度世界展会上，BaiduEye团队展示了他们和B2C奢侈品电商平台寺库网的合作项目，当用户佩戴BaiduEye面对他所关注的高端品牌包时，可以通过语音装置告诉BaiduEye“扫一下那个包”，或通过手势操作隔空画一个圈把书包圈起来，产品就可通过前置的摄像头感知包的外形，并通过团队和寺库网定制开发的一款手机App弹送该款书包的信息和零售价格，同时基于百度地图将用户引导到寺库线下店完成购买。据赵思聪介绍，在和商场合作以前，首先需要构建关于展示商品的识别模型，有了庞大的数据库之后，商场就可以根据顾客的喜好，推出类似的商品。

泰伯网

　　BaiduEye与寺库合作，在数据库中存放了这些款书包的图像模型

泰伯网

　　与寺库合作开发的App

　　从合作案例可以推断，缺少屏幕端支持的BaiduEye，在未来的应用肯定也需要手机屏幕的配合才能构成服务的闭环，虽然在体验上有些繁琐，但借力产品背后深度学习研究院的项目支持，BaiduEye还是给人们留了很大的想象空间。

泰伯网

　　BaiduEye全身照

　　据了解，深度学习研究院成立于2013年，今年5月中旬，百度另在美国硅谷成立分支机构“硅谷人工智能实验室”。而从2012年夏天开始，百度公司就开始着手组织团队研究深度学习和人工智能，其中院长为百度董事长兼CEO李彦宏，副院长为第九批“”国家特聘专家、知名机器学习专家余凯，此外还有若干专注于大数据、机器学习的科学家，以及产品架构师和设计师加入研究院。深度学习研究院主要负责模拟人脑的学习结构，并通过图像识别技术、人机交互技术等大数据技术构建起像人类一样的深度学习能力。

　　正如李彦宏在今年的百度世界大会上所提到的，“未来五年使用语音和图像来表达需求的比例将超过50%”。而BaiduEye基于图像识别和人机交互这两个重要的技术，或将有机会走得更远。

　　首先，图像识别技术将是智能硬件认知世界的触角。图像识别技术被细分为人脸识别、景物识别、物体识别、动物识别、文字识别等类别。继谷歌、微软公司之后，百度也成为国内图像识别的技术提供商之一，并在上述类别的识别技术中取得了一定进展。

　　例如，百度公司将图像识别技术应用在了百度翻译中，通过摄像头扫描物体，能够做到对物体的识别，并给予翻译;基于光学字符识别(OCR)技术，通过可见光来感知自然环境(像纸张上的字、建筑物上的广告文字等)中的文字轮廓，依托处理系统转化成计算机上可用的文字信息。此外，图像识别技术还应用在了百度识图、百度魔图、百度云等产品中，特别是在百度云中，目前基于识别功能可以帮助用户对照片进行景物、人物、动物或事物进行分类，这意味着用户可以通过识别技术快速整理一些专辑内容。而BaiduEye未来有望借助百度图像识别能力，对更多的对象和手势进行识别，以图像识别为入口，广泛地应用于O2O的营销及更多场景。产品负责人赵思聪就表示，产品的拓展空间相当之大，比如未来不排除让BaiduEye兼容像文字识别这样的能力，像在海外旅游中，这款硬件就可以发挥翻译、交流的作用。

　　第二，语音识别技术是实现智能硬件人机交互的重要形态，也是百度IDL研究的一个重点方向。目前，包括百度地图、百度导航在内的许多百度应用都集成了百度语音技术，甚至李彦宏在今年大会上也表示，语音搜索已占总搜索量的10%左右，BaiduEye集成语音更是自然而然的事。今年，百度公司内部仅有的两个200万美金最高团队奖项其中之一就颁发给了语音识别技术研发团队，足见百度对于语音技术的重视。

　　从专业角度来看，语音识别分为“训练”和“识别”两个部分，训练一般是通过离线进行的，即首先获得海量的语音数据和语言数据库，并对它们进行信号处理和知识挖掘，提炼“声学模型”和“语言模型”；识别则是在线进行的，通过前端对声音检测、降噪、提取特征后，在后端利用“声学模型”和“语言模型”对语言进行识别、处理、校正和再学习，在最终给用户一个正确反馈的同时，也能进一步提高识别率。在百度世界展会上，BaiduEye工作人员通过用不同的口语表达方法告知这款硬件设备，都能成功地执行图像识别命令，这正是体现在机器对于中文语言的识别能力上。通过不断的训练，BaiduEye则有望成为真正的“智能”设备，实现人机之间的高效交流。

　　目前，BaiduEye还只停留在演示的阶段，所以期待BaiduEye正式发售的人们可能还得等上一段时间，因为无论是硬件工艺还是软件算法，还都尚须沉淀。更重要的是，不断从数据中挖掘和学习，才是产品走向成熟的关键。（文 | 陈启临）