分享
Scan me 分享到微信

张敏:华浩卫星大数据的实践思考

张敏我认为有三大转变,第一个经营价值的转变,原来可能是靠卖数据来挣钱,现在慢慢会转变为应用服务的增值,第二个是生产模式,我相信卫星数据的生产在不久的将来会变成无成本化生产

  6月14日,第六届WGDC大会在北京国家会议中心隆重开幕。大会由空间信息产业创新创业服务平台泰伯主办,秉承不断引领和促进空间信息技术创新与变革的宗旨,WGDC已走过五个年头,如今已成为全球最具前瞻性的跨界创新风向标。

泰伯网

  在本届大会的卫星+大数据峰会上,华浩科技副总裁张敏做了主题演讲,以下为演讲实录。(内容未经本人审核):

  这次我演讲的主要题目是卫星大数据的实践思考,我这里说到两个字,“实践”。可以说比起李院士、徐主任,我们更倾向的是一线人员。我在这里说四个方面,第一个是卫星大数据的行业变革,我认为变革应该很快就会到来;第二个是行业技术的发展;第三个是本身大数据的生产实验;第四个是我们的思考。

  这个片子我可以很简单的过一遍,刚才李院士和徐文主任说的非常明确了,我们的卫星在预测,到达2020年我们国家卫星数量肯定达到100颗以上,经历的发展时间会越来越短,同时观测频率越来越高,分辨率越来越高,初始精率越来越高,以及观测技术手段也越来越高。前段时间我们跟COE中心的一线工程师在聊,它的观测质量非常高,包括一轨内的立体成像、多维观测,现在这些技术已经慢慢变得成熟。

  我相信会带来这几个方面的变化,第一个是国产卫星数据应用份额越来越高,它会倒逼来自国外的卫星影象数据资源的大降价。数据越来越多也越来越大,有一些新发射的卫星,它可以达到60公里乘60公里,分辨率到1米,出来的结果一景数据就是40个G,这样的数据量如何应对,普通的软件还能做这样的数据吗?

  发射卫星已经不再是高端的事情,它应该是一个已经快要普及化的商业应用了。我们国家有航天部门在主导这件事情的整体发展,事实上有商业公司包括政府,都在强烈要求发卫星,这个资源已经变得越来越重要。但是,真正卫星专业的应用,专业的门槛非常高,而且需要的知识体系非常多,很多人不懂,觉得发卫星之后就是应用了,实际上从卫星发射上天到连条连侧在轨运营,以及到数据的定位、定资环节相当多、问题也非常多。一体化的服务,事实上是用户最终的诉求,数据从下载卫星到应用,看似这条实践非常简单,事实上非常难做到。

  我认为有三大转变,第一个经营价值的转变,原来可能是靠卖数据来挣钱,现在慢慢会转变为应用服务的增值,第二个是生产模式,我相信卫星数据的生产在不久的将来会变成无成本化生产,基本上做到自动化无人员干预、无成本投入的运营模式,最终就会逼我们形成产品形态的转变,由零级数据一直到最后的高级产品,这条线会越来越短,而且投入越来越少。

  对于行业的技术发展,我们认为有这样几个方面,第一个是卫星的地面站,建了很多的地面站系统,现在的诉求是向卫星大数据中心方向发展,地面站系统和卫星中心最大的区别在哪里?地面站系统仅仅就是一个系统,大数据中心更多的是扩展数据的横向扩展模式。

  第二个是数据处理由人海战术转向智能化生产,最早些年很多的数据生产都是由人来完成的,包括我们国家的涉及到卫星的数据生产,都是很多人工,包括我也去很多测绘局,大家在做地理卫星检测的时候photoshop人工一点点的去修。这种方式将来一定会发生重大的转变,全部交由计算机完成的技术发展。另外就是卫星的设计、制造、发射、测控运营、数据的生产处理、管理、以及发布共享、应用分析之间的深度融合,这个观点和李院士的观点是完全相同的,组建一个综合化的应用服务系统。

  目前的行业壁垒有哪些?有七点;

  第一个千景以上洲际规模的高精度区网平差,取代如何修正卫星解决精度问题,卫星在天上下来的数据,不是一直以来精度很高,可以通过算法能够让数据产生更高的精度;

  第二个是无色差的融合,多光谱全色之间怎么样保持光谱,保持光谱特性的融合;

  第三个是大规模数据的整体计算效率,几百景能做,几千景行不行,几万景行不行,几十万景行不行,做过的说行,没做过的觉得行,是差得很远的;

  第四个基于三线阵或者是异轨立体影像DSM的匹配技术,主要涉及到的是匹配的精度、速度,另外是错误率、含噪率;

  第五个是DOM/DSM全自动去云技术,去云技术我也见过很多了,有人基于深度学习的去云,有人基于纹理分析的去云,效果都不是那么完美;

  第六个是基于深度学习的矢量提取,我也见了很多人在做,有些已经做得比较好了,包括像水域提取、植被提取、道路提取、房屋提取;

  第七个是极端数据的处理技术,极端数据应该说是在非常规条件下得到的数据,但是必须又非要做出成果这样条件下的数据技术。

  最后得到什么?实时地图服务,它涵盖了所有的影像,从卫星上下来应该直接进入到地图,中间最好不要超过10分钟,除了影像实时地图以后,地图上的每一个像素能够溯源,像素来源于哪一颗卫星,来自于什么时间拍摄的,参数是什么,能够做到溯源,只有这样才能在地图上得到更多的信息。

  第二,时空大数据服务,提的很多,但是资源还是不够,真正数据资源多的也没见到这样的服务。时空大数据服务最关键的结点是配的要准,建议时空纬度的时候配的一定要准。第三个就是智能信息提取,第四个是在线的定制成果服务,总体来讲以时间和效率来赶上卫星大数据的处理手段,以达到成本降低和数据持续更新的能力。

  这里面有一些思考,第一个问题,数据成果的强制接边,导致数据信息位置严重失真。比如说我们做数据生产,到了影像的接边,两者影像之间做完以后路对不上,怎么办?修一修,photoshop拽一拽,我们拿这张土再做土地量测的时候要么多了2%,要么少了2%,问题在哪儿?数据成果的强制接边该不该做?我们的思考是什么?

  第一扩大趋于网平差的规模,在很多的测绘单位在做测绘生产的时候往往是什么,小区域网的平差平完之后网与网之间再接边,接边的时候很痛苦,到底是你对了还是我对了,大家都说自己对了,到底谁对了呢?photoshop去一去。不同的分辨率采用合理的控制资料,不得不说的一点,我们的卫星高分辨率影像已经越来越多了,从高分2号的一米到现在最新高景1号的0.5米,它所需要的DEM的控制资料,往往大家在做的时候是不太关注地形的,实际上这个地形是完全有要求,精度上影响很大。另外,还可以通过大数据深度学习的方法,进一步提高初始卫星的绝对精度。

  第二个不同季节的调色,我们做图的时候见过这样一个经历,明明是冬天非要把它改成绿色,这个很痛苦也很难难调,但是photoshop很强大,确实能调成绿色,但是它对吗?该不该去调它,如果说数据量足够的多,不能建立一年12张这样的图,我们不去调色,包括已经做到在轨辐射性表,不需要做大量的调色。第三条是系统建设逃不了原有技术的束缚,割裂建设。我们自己是这样做的,必须深入到专业领域当中去,要非常细,每一个环节我们的误差、错误,是否能够验证对得上。另外是各种新技术的应用,我经常跟百度、阿里不是我们行业的人在聊天,他们给了我很多新的想法和思想。

  看看我们的大数据实践,拿这几个方面来说,第一个是天绘卫星,这是一个很小的测区,有202景,应该是202组,606景数据组成的,最高匹配的自由程度达到了148度的子配匹配重叠度。它是多年的数据累在一起,形成一个纵向叠加的高度,在这样的程度上,要做到什么结果呢?能否做到无控,能不能用历史的数据做到对影像数据无控提高它的精度,做到5米量级左右,也有一系列遗留的问题。这是利用大量的重叠数据做出来的,中间关于去河道等等,基本上都是全自动完成的。这个是在国家测绘中心做的ZY3号,做的控制网的去网平差,可以达到平面两米二,高是3.4。这是它的水域的效果,水域的纹理相当不稳定。这是在一个工业区地面的效果,分辨率为6米。这个是不久前刚刚做的基于洲际的,整个印度,中间还缺了一部分数据,总量是1039组,共计3052景,资源三号的三线阵数据做了一个整网平差,利用的控制资料就是Google的五米影像,这个是全球侧组的生产工艺了。平差精度基本上能够做到两米左右,而且这里面有一个点,一台计算机,现在大家都说云,一台计算机38个小时可以把3000多G所有的平台截面匹配全自动完成,它做到的匹配的重叠数,主要的重叠数以三个重叠点为主,4-8度相对来说都比较高,两度可能是在边缘的地区,只有两景以上,最高的能达到26度。

  在这种高强度的连接下,这是全自动匹配的DSM,而且洲际的一千多景以上的匹配,一台计算机用了4.5天,一台工作站我们就完成了。按照这个算法我们中国区的DSM也就是一星期左右,这是一些效果图。另外是极端情况下的,全球侧图所面临的很重要的问题,伊朗地区沙漠地区的DSM的制作,挑了一景沙漠地区的影像DSM的生产,可以看到沙丘以及沙丘纹理特殊的地形地貌。刚才提到的如何能够很好的抑制匹配噪声,在弱小纹理的情况下达到很干净的成果出来,这就是一个很关键的问题。

  卫星遥感最大的问题就是云,因为所有的卫星都是在云上,而不是在云下,如何把云的干扰降到最低,也是我们在所有的数据生产和计算过程当中,一个非常重要的问题,否则它带来的问题是大量的人工去修补。还有是河流,能否保持真实的地貌把河面提出来,这是很关键的问题。

  做了一些实验,基于这样的DSM能否做到提取高精度的等高线,等高线是否替代传统的测绘要求,做了大量的实验,甚至把等高线放到立体下去观测,跟立体模型的匹配程度,还有是极端情况下的,整个一张图都是海岛,海域上有很多的云,在这种情况下怎么做配准,以及多光谱和全色之间的差距非常大,内部有形变,在这样的情况下如何形成高精度的配准。另外是高分4号的区域网平差,在刚刚做的时候相当水土不服,后来经过调整以后,高分4号不管是在高纬还是低唯,可以达到一个平差结果,这些结果在某一些条件下甚至比国外软件都要好。

  最后给大家提出我们的想法,这个想法也是一些思考,卫星大数据要建设这个数据中心首先是什么,要想拓展从卫星到应用,中间数据成果的加工,高级产品生产技术就必须涵盖,怎么办呢?我们在这里做了一个很简单的想法,首先采取多结点分布式存储,存储和计算放在一起,前端采用可视化终端,你想看到生成的结果是什么,打开电脑就可以看到,觉得可以了,想生产了就生产,生产完了之后转入实时动态的共享,这是非常简单的逻辑,做起来就相当复杂了。

  会涉及到几个关键技术,第一个是快速生产的解决方案,用户要得到大量的成果,最关键的问题是快速,因为我们卫星大数据的特征是什么,是它的数据非常非常大,前一阵我跟商业大数据聊,有500亿条记录,我说数据量多大?也就几百兆,一条数据就有多少个字节,他只需要知道这些数据,就做一些聚合、分类、分析,另外就是图表的输出。我们不知道,几百个G对我们来说也就是几十张片子,比如像高分1号的数据出来就是四五个G的一张图,如果说几百张这样的图,很快就上去了。像刚才印度的区域3052景,数据容量是3个T多一点,这么多的数据要把成果做出来,这完全是不一样的。

  第二个是分布式存储,这里面无外乎就是Hadoop、MongoDB这些东西如何用?很多人跟我提过我要用Hadoop去做分布处理,最终的需求在哪里,为什么用它做,这里面有很多的思考和关键点。

  第三个,实时可视化解决用户的可见的需求,原来传统的所有数据制作,如果不能做到实时可视化,那么生产效率一定会降低,做完了才能知道结果是什么样的,能不能做之前就能够就能够把空3的精度在图上量完了,不是说看空3的结果,不是看空3的平差报告,不是的,这样节省很多中间的存储、处理环节等等。

  第四个标准化镶嵌,解决成果数据源的溯源需求,为大数据应用奠定基础,后面的实时地图提供基础,这是很好的客户伙伴给我们提供的诉求。另外一个就是实时在线处理,它的技术难点有五条,第一个是广域网(洲际范围)内的高精度平差,针对平差可以提出更多的想法,这里面关键点是异常处理,很多人都在问我算的结果多好,平差精度零点几,出来的结果就是不对?为什么?你可能把连接点都删掉,连接关系都丢失了,平差结果不好。但是你怎么检查呢?能不能把这些东西检查出来呈现在我们的问题,关键的技术点在这。另外是符合全球广域特征的匀光、匀色,不是由人来引领的,是地球自己引领的,应该是什么样的光谱应该是有特征的,而不是主管把它弄成什么样的颜色,我见过已经把道路都弄成浅绿色的,这些完全不太合适。另外就是批量生产过程中的网络传输优化,这一点不言而喻,还有像快速的金字塔创建、快速正射技术、快捷融合技术、快捷镶嵌线生成技术以及集成,包括影像技术的快速统计等等。

  对于像这种存储,像Hadoop、MongoDB它可以提供多节点、大内存、高性能、高存储。到底怎么用它?MongoDB或者photoshop里面不要只存影像数据,要存更多的数据,比如说金字塔数据、光色表、ITC参数、纹理信息、云判信息、平差后的成果信息等等,有很多这样的信息,可以存很多东西。用这种方法来提高整体的数据生产效率,把原来数据仅仅用于存储,变成数据由存储到存储+计算的模式。这里面包括类似于实时可视化平差、实时可视化融合、实时可视化的校正、镶嵌等等。

  最后提一点广域极限平差的思考,这里面提了一个想法,或者说是一个概念。残差大的点该不该删?这是一个很简单的问题,有人说该删,有人说不该删,当我的匹配非常可靠的时候,匹配出来的点正确的时候仍然残差大,该不该删?我在很多的测绘单位、生产单位、做软件的研究人员问这个问题,大家一味的追求你的残差很小、空差机构好,殊不知他把残差大的一删,把好的点留下来,剩下的放回去,结果不言而喻。该不该分区平差再接边?这是一个很严肃的问题,如果做到全球一张网,是最好的,不需要再接边了。另外一个是连接点越多越好,连接点我认为越多越好,但是能不能算过来。我们在印度这个测区做连接点的时候,最终留下的是68万,事实上匹出来的点在过程计算当中应该达到了1.3亿个点左右。最后平差的结果仅仅只体现精度吗?

  我认为平差的结果还有很多信息可以值得我们深入挖掘,它不仅仅体现的只是平差、只是精度,它有更多的信息在里面。我提几个点,第一,基于超海量的点建立超纬方程这样的实现思路,建立方程纬度,片子越多,点就越多,得到误差方程的纬数就会最大,在一台计算机上能不能解决这个问题。

  第二,如果利用海量的同名点做深度分析,比如说密度分析、连接刚性分析、符合性分析等能否得到更多的信息,比如说每一个影像、每一部分的误差,甚至是每一个影像纹理的质量等等。

  最一提一个云中心管理方案的思考,我们也有很多客户的支持,第一个是准实时更新的“卫星遥感一张图”,这个目标离我们的目标实现越来越近。第二个是卫星遥感时空大数据平台,里面含有所有时期的DOM/DSM/DEM/DLG,在这个基础上的共享发布服务、行业应用分析等等,以及在这样的环境平台上可以构建深度学习的海量样板库和在线学习系统等等。

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开