WGDC2021 | 龚健雅院士：智能遥感解译的研究进展与挑战-泰伯网

龚健雅院士在WGDC2021商业航天2025峰会上介绍关于智能遥感解译的研究进展与挑战以及他们做的工作。

主持人：我们下面开始开会，尊敬的龚健雅院士，各位领导，各位企业家，各位来宾、朋友们，还有今天云端的包括世界各地的朋友们，大家上午好！这里是WGDC2021第十届全球地理信息开发者大会商业航天2025峰会现场。我是主持人张新长。

首先有请中国科学院院士、泰伯研究院名誉院长龚健雅教授给大家作特邀报告，他的报告题目是“智能遥感解译的研究进展与挑战”，有请！

龚健雅：非常感谢张老师的介绍，我今天受泰伯刘总的邀请，到这里来给大家介绍一下关于智能遥感解译的研究进展与挑战以及我们做的工作。

人工智能现在迅速发展，各行各业都在讨论这个问题，将来对各行各业都会产生巨大影响，许多行业会在变革中消失，有一些行业也得到大的发展。遥感是与人工智能密切关联的领域，我们既有发展的机遇，也面临很大的挑战。大家知道，人工智能发展最重要的两个方向，一个是对影像的解译，一个是对语音的识别。我们在飞机场、高铁的识别，都是通过影像，人工智能在影像、视频领域得到了广泛应用，那我们跟图像有什么区别？今天跟大家解释一下我们用那些技术做了哪些工作，进展怎么样。

我在这里报告三个方面的问题：一是深度学习在遥感解译中的应用进展，第二我们遇到了哪些瓶颈和挑战，第三就是我们现在做的一些工作。在这里也做一个广告，我们武汉大学今年将要推出一个最大的或者是说比较大的一个样本库，和一个自己从底层开发的深度学习遥感的专用网络，希望大家以后在这个平台上来共同发展我们中国自己的一个网络。

深度学习的应用进展，很多人都非常清楚。这一次人工智能的发展，得益于深度学习，实际上在50年代以后，人工智能这个概念提出来，大家就想到你必须要有学习的能力，所以机器学习就是一个重要方向。那么机器学习主要的一个泛指，就是我们用很多样本的数据让机器学习，得到一个模型，我们再把这个模型用到其它需要解译的数据来得到应用，这就是机器学习。

在机器学习里头一直以来有两派，一派叫符号主义，一派叫联结主义。符号主义基本上是基于统计来学习，联结主义通过提出人工神经元网络的方法来学习，这个其实很早就有，但是这一次为什么影响能这么大呢？就是因为在2006年的时候Hinton他们提出深度神经元网络的训练，取得了成功，并且2012年在ImageNet挑战赛中深度学习的方法夺得了第一，并一举超过了传统的机器学习方法10个百分点，这是它的第一个影响。就是说，它的识别的准确率提高了10个百分点，我们知道现在的算法都是在60%、70%，最好的是70%、80%，结果他一下就到了84%，一下就引起了轰动，13年开始各行各业都来关注这个算法，开启了一个新的时代。

这个网络第一年出来之后，后面很多大的公司和大学就开始对这个网络来进行改进，包括程式也参加。我们看到这几年的发展，12年同样的一套数据误差率从16.4%一直发展到15年误差只有3.57%，这个时候我们可以看到它的发展，现在一个用的比较多的就是101，当然现在各种各样的网络，包括对抗网络等很多一些新的网络系统。这些都是计算机领域里面的发展，为我们人类对人工智能的发展起了非常大的作用。

对于我们遥感来说，我们首先都想，都是图像，就是说既然能够在图像里头能够达到这样的精度，那我们的遥感是不是也可以用？所以很多是跟它相似的，一个是目标识别，我们的遥感的目标识别比它的概念要复杂一些，可能一个就是立交桥，一个就是机场，像这些东西可能比它复杂，但是我如果有足够的样本，是不是也可以用来识别？还有一个就是计算机领域里头的方法可以用来语义分割，用来图像分类，包括实体的分割，我们做了很多研究，像牧羊人能够把羊和人都分割出来，我们能不能把房屋，把物体提取出来？这就是我们当时想的用人工智能的一些方法来做的意图。

所以我们在遥感里头很快的就开始引进了这些方法，应该说我们中国的速度或者说我们这个领域的速度，引入人工智能来做遥感图像解译的速度大概和美国差不多。我的团队当时承担了一个973，大概在13年就开始做遥感的一些研究，目前来说主要是做7个方面的研究，一个是基础方面的研究，也就是说我们要有一个样本数，大家知道要有一个很大的样本，样本怎么来标注，我们要有一个我们遥感的样本；第二个就是网络的结构和模型设计，我们刚开始没有想到自己做一个网络结构，我们可以用现有的网络或者是我们看到的像刚才讲的像对抗网络的一些变种，我们能不能在这里面做一些设计，很多人做这个工作。另外就是一些典型的应用，我现在把它归纳起来大概是这5个方面的应用：第一个就是目标与场景的检索，第二个是目标的检测，第三个是地物分类，第四个是变化检测，第五个是三维重建，三维重建现在还是很少人在做。

我们首先来看一下样本库的设计与标注。在武汉大学13年开始我当时自己掏了十几万块钱请公司标注了一些样本，后来有一些老师也在做，我们现在做的比较大的就是我们实验室的夏老师做了100多个样本，主要是做目标和场景的样本，他最近又做大的开源的样本，做了100多万的样本，但是还远远不够。

接下来就是网络的结构与模型。我们知道，深度神经元网络它是这样一个架构，有很多层，在这些层里头有一些类型，我们刚才讲的，你可以设计100层，可以设计80层，有各种各样的设计。你还可以设计卷积，这里面还有池化函数设计和损失函数设计，我们很多人做这种应用的时候就调整参数和调整函数，然后得到一个最优效果，这是做的里面的最基础的一些研究。

当然我们算力这一块是硬件做的，我们可以不做。它的应用，一个是场景和目标检索的应用，这是肖志峰老师14年出的一个成果，我们看到，它比传统的方法一下确实提高了20%左右，都达到90%以上，当时我们深度学习的方法在遥感的问题上，就目前来说，场景和目标检测精度确实很高。

紧接着就是建筑物的提取。很多人做建筑物的提取我们可以看到，这次季顺平这个团队，能够把查全率和准确度能达到95%，不仅是建筑物，还要把建筑物的边界都提取出来，这个时候很多工作包括树的一些遮挡这些问题都要解决，所以需要大量的研究。

最后是道路的提取。道路也非常重要，我们可以提取单线的道路，可以提取双线的道路，这些都是靠深度学习的方法。这个结果也挺不错的，这是胡效云他们的团队做的。

第三个就是地物的分类。这是我们遥感最重要的一个工作，无论是地理国情的监测，还是国土二调、国土三调，一直以来我们都很难突破，都是靠人工解译的，现在我们能不能做全要素、全自动的分类？大家看到这个图是很不容易的，如果我们靠神经元网络这样做，目前的结果，这是一条道路，中间有很多坑坑洼洼，现在你要把这些数据都要能够做到能够用的话，要很多人工时间。现在我们一个学生做了一个实验，如果用多光谱来分类的话，用普通的方法，我们看到湿地森林的结果，草地、沼泽地他们的结果是挺大的，后来我们发展一维、二维、三维的神经元网络，我们可以看到，三维的神经元网络最差的是草原是70%，其它的都可以到90%，还是不错的，但是像上海这些地区，草原到了60%，像北京的水田分割出来只到了30%多，这些问题是什么问题呢？我认为最大的一个核心问题，就是我们的样本季节性的问题，因为草地和水田夏天和冬天完全不一样，如果把这些样本不加细分的都用来做训练的话，你得到的结果肯定是不行的。所以关于全要素的自动分类，目前为什么我们生产部门还不能实用的一个主要原因，就是我们还没有达到95%、97%这样的水平，能够真正放心用。那么大家可以看到这些房子，就是刚才讲的城区、水体这些应该还是相当不错，水体到了97%，城区的识别到了98%。

第四个应用就是变化检测。这一块的进展目前还不错，我想各个团队都做了很多的工作，我给大家看一下我们胡教授的团队在重庆做的这个例子。大家看这些密密麻麻的园区，上面有很多变化，这些变化怎么自动检测出来？检测出来有356个房屋，准确率要达到47.19%，这是前两年得出来的。所以现在很多城市，包括重庆和广州都在推广应用。

第五个就是三维重建。以前三维重建都没有用人工智能的方法，都是用左右相片的相关方法，但是现在因为用人工智能的方法，左右两张相片的相似性是很高的，这时候找重名点是可以做的，但是有一个问题就是它的投影立体面是很大的，所以一定要考虑投影的问题，所以我们要找到影像在三维重建的时候，在人工智能的同名点的时候，这是一些几何的应用，但是这些是属于先进的知识怎么用到人工智能里面去，用到神经元网络里面去，是一个比较难的题目。这是做的一些结果，包括在天津、广州，也做了三维重建的一些结果。

大家可以看到，现在人工智能确实在很多方面取得了很多的进展，但是也面临着很大的一些挑战。这些挑战，首先就是样本库，我们的样本库还远远不够，我们差至少一个数量级。第二个，我们的样本区域性缺少，特别是我们一些行业部门保守，不愿意提供样本，当然有一个保密问题，最近我们广东省希望跟我们做深度合作，我一直呼应他们，他们也愿意把广东省所有的数据拿过来做训练。第二个很大的问题，就是现在我们做人工智能的一些研究学者都是用计算机领域的方法，他的样本很少，因为他只要识别一个目标像不像就行了，而我们要把目标提取出来，这个时候我们用他的方法就存在很多问题，我们都要把样本切成固定块，另外我们看到很多样本库里连季节也没有，也没有实像的信息，也没有地区的信息，3月份的东北跟3月份的广东相差其实很大的，东北所有的森林都还没有长起来，南方就已经郁郁葱葱，这个时候它的纹理结构就相差很大，所以这个我们样本库基本不考虑。第三个就是我们样本库都是全色或者RGB的，缺少高光谱、红外、SAR遥感影像的样本。第四个就是缺少三维目标样本库。

接下来是关于网络。我们知道，网络从HIT出来以后，很多公司包括谷歌，包括百度、华为都在推他们的网络，华为他们也刚刚推出来一个网络，但是这些网络都是主要是围绕他们计算机领域来做图像识别的，对我们遥感图像识别里面有几个问题：一个是多种类型的数据的学习，它主要是学习RGB的数据；第二个，它的数据量放不进去，拿我们一幅影像放到那个里头去学就不动了，我们觉得必须要把它切割成一小块一小块来学习，这是通道的问题。另外一个，我们能不能把知识融入进去。

所以我们在去年申请到一个重大研究计划的项目，就是专用的遥感样本库和专用的网络架构，这是去年申请的，主要做4个方面的问题：标注规范，标注的方法，以及支持一个工具，我们要在网上来标注，数据库管理，或者数据库发布，希望打造一个全球的最有影响的样本数据库。所以我们也希望在座的各位加盟到我们的样本库里头，我们样本库叫珞珈。

我们要用智能的一些设计方法，要能够做目标的检测、要素的提取、以及三维重建，要能够解决这些问题。这个网络里头，我们还有一个想做尝试的，就是从理论上做发展，我们拿一个神经元网络发展不知道能做成什么样，我们现在希望能够把理论框架，就是哪一个元素、哪一个参数能起什么作用，我们希望做可行性和可靠性分析，这个事由一个搞地学的博士来做。第二个我们要把地学知识能够牵进去，这样就形成了一个我们针对遥感的一个专用网络，这个也希望大家能够合作。

目前的进展是这样的。样本库的进展，我们各种各样的样本都要能够兼容，同时要把多光谱、高光谱、红外线这些体系都要加入进去。

这是5个大的方面，一个场景识别，一个目标识别，一个地类分类样本识别，一个是变化检测样本，还有一个是三维多视重建样本，这是几个样本库的设计。

现在的样本库我们找到开源的256万个样本，大量的样本在刚才讲的目标和场景的检测和目标的识别，变化检测的也有一些，三维重建这个方面的比较少。

接下来就是专用网络。专用网络现在根据我前面讲的，我们现在的专用网络这个内存是可以拓展的，无论多大的影像都要能够进行。第二个是通道，你可以到100个通道，也就是说100个通道的高光谱都可以进去，整个网络都可以直接来支持这个事。

这里面的架构，一个就是专用的核心架构，各种各样的硬件要支持。第二个就是各种隐形或者终端表示层，计算机领域我们现在有一帮年轻教授参与进来了，这是核心层。第二个就是遥感的地学知识如何牵进去，多渠道内存如何拓展。另外一个就是数据源，像这些都能够加进去。最后我们有一个前端的交付，就是支持现有的编程语言，另外我们支持可视化的编程。

这是现在的一些核心结构，包括核心操作的算法，已经设计一个框架出来了。包括底下的框架式计算，都已经计算出来的。目前我们用金字塔的一个方法，能够把大的影像放入到一个深度学习的网络里头。

再一个重要测试，这也是我们这次做的通过工作流编程，做深度神经元网络这些架构的时候，不需要人再在程序里编程，而是通过拓载的方式建立这个图，然后运行这个模型，我们就可以得出一个网络架构出来了。

最后一个就是知识。我们一开始说统计学习，或者是说基于专家学习知识库的方法，和现在神经元网络的发展，这两条路并行，很少有交叉，希望我们在地学领域里头率先把地学知识和图谱能够牵到网络里面去，这样形成一些地学知识。我们把实地的专题信息分类以后放进去，这样效果就好得多，大家融合知识来进行网络的研究。

下面我简单介绍一下目前的进展，因为工作还在做，9月份我们会跟华为发布一个初稿，但是希望今年底能够把架构和网络库发布出来。

现在我们已经做了一个光学影像。这里面对于以前的我们可以看到车辆的这些进展提高不大，但是对树木、低矮植被这方面的进展要大一点。还有一些，现在已经用小样本用在SAR图像识别里头，我们现在可以看到这个结果要好一些，这是现在做的一些初步实验。

高光谱，我们现在做一些农业作物类型的识别。这里头做了一些实验，可以看到现有的精度比我们这个方法稍微有一些提高，这是高光谱的应用。

最后我简单做一个小结。人工智能特别是深度学习的方法已经在遥感的目标与场景识别、信息提取、地物分类、变化检测、三维重建等方面已经取得重要进展，但是都还在实验室。我可以这么说，因为很多的生产单位实际上都没有得到一些应用，包括我们现在一些大的公司，华为也好，还有阿里，都说我们现在深度学习做得很好，能够解决遥感的问题，我们那几年遥感的部门也很自信，最后也没有太大的实用化。

所以我们觉得还是有一定难度的，特别是解决分类的问题，还存在很大的挑战。一个是扩大样本库，这个还远远不够；第二个是多样性和区域性的样本，另外我们希望设计一个专用的神经元网络，很多人不理解或者反对我们做这个网络，说不是一个大学做的，但是我们认为，如果武汉大学不牵头做，就没有人做专用的遥感网络，所以我们要试一下，如果做一个专用的遥感网络是不是比现在的通用网络有比较大的提高。这是我们现在的想法，当然我们希望建立一个大的社区，一起来解决这个问题。

谢谢大家！