刘伟: 基于视觉的驾驶场景理解与自动驾驶集成-泰伯网

　　2017年 6月13日，由泰伯网主办、主题为空间大数据的崛起的WGDC2017，在北京国家会议中心盛大开幕。大会由空间信息产业创新创业服务平...

　　2017年 6月13日，由泰伯网主办、主题为“空间大数据的崛起”的WGDC2017，在北京国家会议中心盛大开幕。大会由空间信息产业创新创业服务平台泰伯主办，秉承不断引领和促进空间信息技术创新与变革的宗旨，WGDC已走过六个年头，如今成为全球最具前瞻性的跨界创新风向标。

　　13日，由北京智能车联产业创新中心、中关村智通智能交通产业联盟协办的高精度地图与智能驾驶峰会开幕。峰会上，东软睿驰汽车技术有限公司自动驾驶业务负责人刘伟发表了主题为“基于视觉的驾驶场景理解与自动驾驶集成”的演讲。

　　以下为演讲实录(未经本人核实)：

　　刘伟：大家下午好!很高兴也很激动组委会给我这么一次机会，让我在信息大会上分享汽车的事儿。首先，听了刚才大家很多介绍，有一点忐忑，忐忑在哪儿呢?讲得都非常的面向市场，面向未来，当然我这边可能会让大家有点失望，我讲的是比较现实的，从我们这么多年经验角度来说，我们怎么去看自动驾驶这件事，怎么样把这个产品带到市场的。我带来演讲的题目是基于视觉的驾驶场景理解与自动驾驶的集成。

　　首先还是比较传统的方式，先介绍一下我们自己。我们的集团是东软，第一个上市的软件公司，在全球拥有2万多名员工，在中国有8个区域总部10个软件研发基地，16个软件开发与技术支持中心，60多个城市建立营销与服务网络，在全球有8个子公司，东软的产品和服务销往全球95个国家和地区，这些软件不光在汽车领域包括在移动通信、医疗设备、金融、教育，可以看到基本上涉及到所有的领域。

　　东软在汽车领域有25年的研发经验，东软汽车电子软件在全球前30汽车品牌中有80%中的运行，业务覆盖欧洲、日本、美国，在汽车店方面我们有4千多名的员工，拥有25家车厂，16家Tier，11家内容提供商，5大通讯企业。我们有中国最大的车联网整体端到端级的运营商，也是最早获得L5级别以及汽车电子A—SPLCE、L3的企业。

　　东软在汽车领域BigCar的途径，借助东软在汽车领域这么多年的经验，创造以汽车为中心的平台，去提供面向人、车、社会全系统的一个解决方案。这里面包括有金融、运营以及新能源，包括我们车展的这种刚才也提到了仪表、中控。在东软这么一个汽车链的业务背景下，我们于前年2015年9月份，拿出了集团里面新兴的几个领域，分别是新能源、车联网、自动驾驶成立了一家新的公司叫做东软睿驰，致力于在新能源、智能网联领域成为一家拥有卓越技术的创新型企业，向全球市场提供产品、技术以及新能源汽车所需要的解决方案，为创造智能和丰富的生活方式和环保社会做出应有的贡献。

　　我是属于ADAS业务线，基于视觉在驾驶场景的理解这个方面，我们有25年的电子行业经验，有18年的图像处理方面的经验，12年来一直专注于辅助驾驶核心技术的研发，研发人员有120多人，覆盖了视频分析、嵌入式高性能计算、传感器融合等辅助驾驶系统相关领域，然后一些相关的专利和一些技术。我们的使命是为人类的交通安全与便捷做出一些贡献，让更多的人享受到我们的安全、便捷的产品和服务。

　　我们在各个领域里面都有的技术基础，下面进入整体介绍一下在视觉领域，为自动驾驶我们所做的工作。首先是自动驾驶需要解决的问题有哪些，首先要感知周围的环境，要实现我们自身的定位，然后要了解我们的目的。我们在这里边当前提供的是哪些呢?第一个部分我们周围的环境是哪些，我们基于车展的摄像头去实现周围的环境，为自动驾驶提供一个感知的空间。它的感知可能有很多种，包括摄像头、超声、激光雷达、毫米波雷达以及GPS，和提到的高精度地图数据。我们作为自动驾驶这块提供视觉的环境感知和理解，这里面展开来讲涉及到很多细节的技术。包括车外的感知、车内的感知，车外的这种道路环境以及交通参与者，以及路上的这些交通指示包括信号灯、包括这种限速标志，包括路面的一些指示标志这样的一些事。车内我们需要识别一些驾驶员的姿势、驾驶员的注意力等等这些跟智能驾驶相关的人和车之间的标准。在车外环境感知这块，交通环境、交通参与者这方面，行人、摩托车、车辆、动物，路面车道线、路面标识、车位标识，知识信息刚才提到交通牌等等。

　　这些是成果能够识别哪些环境，包括车辆的识别，车道线的识别，车辆的检测、行人的检测、摩托车的检测。这个是基于夜间的行人识别，基于测试摄像头的人、车、摩托的识别。这个是面向不同类型、不同姿态对象的，比如说有非常复杂的一些行人过马路的时候，以及这种正面、侧面车辆的识别。车道线的识别，不同类型的隧道内，夜间，前边是有迎面的灯光，以及直线、歪线这样场景的车道线的识别，以及路面交通标识的识别，包括斑马线的识别。一些停车位的识别，因为我们车辆在泊车的时候使用可停车空间的识别。这是交通标志的识别，限速标志的识别，以及这些指示牌的识别，信号灯的识别。

　　在自动驾驶里面，因为除了L5到L6的阶段有一些人接轨，需要我们在自动驾驶或者辅助驾驶工作的阶段，实时的去监控驾驶员的一种状态，使驾驶员能够及时的去接管这样一种行为，保证驾驶员能够实时的接管过来，否则的话会有导致更严重的事情。所以在自动驾驶的过程中，对于驾驶员姿态的监控也是非常重要的，我们基于视觉主要有分别是检测驾驶员他的精神状态，他的手势识别，还有他的视线。这个是监控驾驶员他的朝向，通过面部特征识别去判断他视线的状态。这个是根据眼部的特征去识别他的关注点。

　　在视觉的基础上我们有一些车内、车外的环境感知，有了这些感知我们在自动驾驶方面做了哪些集成?在集成的过程中又需要哪些关键的基础?首先，也是大家最近提的比较热的“深度学习”技术，前面提到视觉是大部分使用传统机器学习的方法去识别图像中的特征，在深度学习的研究过程中，我们有两个方面。首先第一个方面我们会通过这种深度学习为我们的机器学习提供一个更加准确的标志，就是说我们会提供一个机器学习的增值，因为深度学习它比机器学习本身更能够通过对海量数据的处理得到样本，用来机器学习识别结果的产生。

　　还有另外一方面，通过深度学习的一些裁减，实现一些轻量化的应用，使它能够在自动驾驶嵌入式载体中得到真实的应外。然后在深度学习领域通过我们的一些研究，也在克服了一些比较基础的问题，包括一些配置化的网络识别更小的物体、更特殊的车辆以及传统机器学习算法所不能解决的问题。还有一个是一种类似于激光雷达的场景，通过扫描的方式实现驾驶空间的识别。另外在深度学习的实践领域，最重要的是我们目前使用了可量产的芯片，这个是通过我们在芯片设计领域深度的合作，结合我们控制算法提出了一种面向量产的SOC的结果方面，去实现刚才我提到的环境感知的技术，真正应用到自动驾驶和车辆上实现整个的产业化。

　　在高新能运算方面有两个方面，就是我们使用了并行计算的技术，提供给专门的模块去进行，同时图像的识别和处理交给GPU或者R来实现，通过这种并行的处理将计算的能力提高了，就是在数据处理典型的算法方面有很大程度的提高，在综合性能方面能够得到至少50%的一个提高。这样对于刚才我们提到的基于视觉的场景理解，自动驾驶的实现方面有很大的意义。在这个领域我们其实做了一些工程化的工作，比如说我们通过对神经网络做一些裁减，我们可能使用了一些轻量化的CNN，然后它比传统的限量级方式检测，还有相比完整CNN识别率方面它有一个性能和功耗的均衡，还有能够达到量产ADS产品能够满足的性能水平。

　　我们在基础上也有自己自动驾驶的研发平台，然后这个上面我们其实也做了一些自动驾驶的探索，包括我们在园区，还有之前在公共道路上做了很多自动驾驶的小样。我们现在重点工作其实是刚才提到的，利用轻量化的神经网络然后利用可量产的芯片，硬件平台去搭载我们现有的自动驾驶技术，去支持现在L0、L1至L2的自动驾驶发展水平的需要。

　　在市场活动方面，我们也参加了今年在美国的CES，今年的CES可能是一个自动驾驶非常直观的体现，所有的车厂都拿着真正能跑的车去给大家尝试，然后去在实际道路上跑。所以可以看到自动驾驶这件事非常快来到我们的生活中，其实刚才最初我也提到了，东软有25年自动驾驶方面的经验，18年的图像领域做的这些事情。说到这些其实我们也比较惭愧，这么长时间了，我们才意识到自动驾驶来的这么快，两三年的时间把自动驾驶这件事在做已经不是一条新闻了，就是大家都在做了，没有做自动驾驶才是新闻，所以这个领域真的是非常的快。在CES上我们也支持了多家的芯片供销，也支持了在欧美的一些供应商去做一些自动驾驶方面的尝试。

　　介绍一下我们当前对自动驾驶产品的支持，这是我们ADAS使用了一个比较lol的传感器，照现在的水平看应该是属于上一代的产品了，但是通过这样非常小的平台，我们也带来了预警，车道线识别。在后视方面，因为现在的车都有后视的摄像头，基于后视功能也带来了移动物体的识别，横穿物品的识别，这样一些有特色的应用。这个是刚才的一些场景简单的介绍，下面有一个视频可以看一下我们ADAS产品之间一些具体的演示。

　　(视频演示)

　　这是一个标清的摄像头加一个芯片，这个是车机的ADAS界面，这是一个电动车辆检测、摩托车检测，在换道过程中会做一些交互的方式加预警。这个是夜间对于摩托车进行检测，这是后视的预警系统，也是通过测试盲区的物体识别对驾驶员的提示。移动物体识别区别于超声雷达的特点，超声雷达的范围比较小，但是通过摄像头所有移动的物体可以识别。横穿物体检测，对于画面内横穿的物体作出一些提示，我们看泊车辅助，能让我们可以看到车停在了哪。ADAS产品非常的便宜，在国内也是比较有特色的产品，可以说是其他车商很少去从事的领域，我们针对后视摄像头做了挖掘，去把价值场景带到我们日常能够应用的十万级别以下的车辆，可能都会安装这样的产品，成本非常的低。

　　第二代我们更换了一个更高等级的品牌，这个品牌使用了SUV的方案，里面有R，可以实现对高清摄像头以及激光雷达和毫米波雷达的支持，同时有可以更好的去识别环境，去做更多更复杂的控制策略。它有几种形态，一种形态是一体机的形式，然后是集成在控制器上的摄像头，安装的位置是风挡玻璃，行人碰撞AB就是紧急制动辅助，还有车道偏离辅助这样控制的功能。还有一种使用两个摄像头分别去实现近距离大到秒，远距离的识别去适应更多更丰富的场景。

　　这边一个视频，提供一代产品功能，它使用了专用芯片，支持毫米波雷达，这是在它的基础上开发的AEB、LKA的功能，这些都是基于车道线识别和前方车辆识别，以及基于测试摄像头车位识别和自动泊车系统。因为目前的阶段都是辅助驾驶，所以这一个过程中都是会有人去干预的，包括刚才的换档。这是一个全速ACC的功能，所有以上提供的数据全是基于视频的，可以说没有超声也没有毫米波雷达，基于摄像头的一件事，我们基于SOC的平台可以做这些事，能够把一个可量产的产品带到市场上来，也就是刚才我们提到的L0到L3，3到5年市场上大家可能真正会用到的产品。交通标识识别在产品里面没有太多的去推广应用，这个应该在未来的高精度地图中完全可以取代视觉的作用而且更加可靠，这个是基于我们视觉然后结合了毫米波雷达去做的一个集成，将来提供更高的自动驾驶需求。

　　所以我们整个是提供了在开放平台上去做视觉处理的预算，我们可以至少在欧美、日本会提供我们的算法，当然在国内是提供360度环视的方案，我们使用的芯片是量产的芯片，是可量产的芯片，而且不光是在LOC方面，我们还有控制类的MCO应该也是面向自动驾驶能够提供L3的要求，这是我所有的介绍，谢谢大家!