分享
Scan me 分享到微信

刘经南:大数据时代的泛在测绘与位置服务

从信息本身来说,信息技术革命经历了架构化时代、数字化时代、网络化时代,下面即将进入智慧化时代,标志就是移动互联网、云计算、物联网和大数据。因此,全球信息化已经迈进了大数据时代,全球90%数据是近两年产生的。

  3sNews讯 以“应用北斗 光彩中国”为核心主题的第二届中国卫星导航与位置服务年会今日将在北京国际会议中心拉开帷幕。开幕式结束后,武汉大学原校长、中国工程院刘经南院士首先为大家作报告。

  以下为刘院士讲话文字实录:

  各位来宾,这是我自己对大数据的理解。我将从以下几方面进行演讲:一、大数据时代的背景和影响。二、空间信息与位置大数据类型和特性。三、测绘与位置服务重大数据的问题和挑战。四、测绘与位置服务中的大数据应用和机遇。五、测绘与位置服务中的大数据研究方法。六、思考与结语。

  一、大数据时代的背景和影响

  大数据时代的概念,追根溯源,最早提出的是未来学家托夫勒,1980年第三次浪潮中将大数据作为第三次浪潮的华彩乐章。正式表明进入大数据时代的是美国的奥地利科学家舍恩伯格,把大数据的影响分成三个层面,分别是管理变革、商业变革和思维变革,成为社会的基础设施、战略资源,价值巨大,大数据未来,即通过相关关系收集更多的数据点。让大家接受不精确性,可以更好的预测未来,更好的理解和洞察社会、世界生活。

  有的科学家提出科技革命的周期和经济的波动周期息息相关,第一次机械化引起了英国18世纪后期到19世纪中期的经济持续发展,电子化引起了19世纪末到20世纪初经济的持续发展。信息化引起了20世纪后半叶和20世纪前的发展,第三次将是什么呢?有的人提出可能就是大数据。

  从信息本身来说,信息技术革命经历了架构化时代、数字化时代、网络化时代,下面即将进入智慧化时代,标志就是移动互联网、云计算、物联网和大数据。因此,全球信息化已经迈进了大数据时代,全球90%数据是近两年产生的。大数据这个关键词全球迅速升温,图中蓝线代表云计算,红线代表大数据,2011年前云计算达到了高峰,大数据提的很糟,但是一直处在低速发展的阶段,今年跟云计算已经接近,并且有超过的趋势。

  Gartner技术炒作周期曲线,大数据正处在膨胀的通胀期,进入成熟阶段估计还需要5-10年,云计算已经炒作过了,即将进入低谷,然后开始向成熟期发展。大数据成为各国关注的战略资源,奥巴马政府去年3月29号发布了《大数据研究和发展计划》,6大部门投资2亿美金,今年4月中国发布了报告,大数据作为国家七大研究领域之一,两百多个专家耗时一年进行了大数据的研究,成立了专门的研究委员会,联合国也提出《大数据促发展》报告。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分。

  大数据的定义域内涵,因为危机百科的定义,大数据的聚合,这些数据集的规模和复杂程度超出目前数据库管理软件和传统数据处理技术在可接受的时间下的获取、管理、检索、分析、挖掘和可视化能力。大数据的内涵:规模大,一般大于TB级,而且类型及结构复杂,不是当前的数据管理、存储、处理软件和硬件体系在可接受的时间内解决的,显然,大数据只是计算机网络或者互联网上产生和运转的数据。大数据是高容量、高速率、高度多样的信息资产,需要研究新的数据处理方式,强化决策支持、观点发现和过程的优化。

  数据之间的内部关系是什么,过去强调是关系数据,有继承关系、因果关系等等,现在大数据之间更多的是数据之间某种关联的或者相关的关系,但是由于这种关联和相关使得海量数据隐含着更准确的事实,研究发现,大数据可显著提高机器学习算法的准确性。如果样本达到无穷大,或者基本上接近全体数据,以后的处理就不是依赖于随机采样,现在是随机采样,用小样代表母体,这是有偏差的,可以直接从数据中发现问题。另外,过去我们说云计算里面有软件即服务、平台即服务、基础设施即服务,大数据时代提出数据即服务,DAAS,正在被广泛接受,对数据在权声明周期中的价值加以利用,通过对高价值数据实时发掘、处理和聚合,还能创造新的价值,有时一条微博就具有颠覆性的价值。

  大数据有两种来源:一种物理世界的数据,天文观测、气象观测、生命观测等等,再一个是人类社会数据,来自人类社会活动产生的数据,入射角网络数据、金融贸易活动数据、经济产业数据、军事安全数据、车辆交通数据、通讯信息数据、视频监控数据等等。现在世界上都把大数据特征归纳为四个,也有归纳为五个特征的,我采用五个特征的归纳方式:巨量性,快变性,每分钟Google有200万次查询,多模性,数据的模式很多,有不同的形式,有文本的,有图像的,有音频的、视频的等等,不确定性,由于数据量大,采取的方式很多,又是非标准采集,所以数据有不确定性,真伪难辨,总的来说,大数据是个“金矿”,但是耽搁数据的含金量很低,低值性。

  大数据与数据库的区别,一般是GB级量的数据,数据库最多到TB级,数据里一般是结构化数据,高质量数据,而且数据的输入是经过顶层设计的,数据库得到的信息和解决方案都是确定性的,大数据是PB级以上数据,有噪声,有冗余,是非结构化的,不是顶层设计的,是自上而下的,分布式的,不能得到确定解,最多得到一个比较满意的解,我们现在要接受满意解这种概念。在数据库阶段体现的是数据工程,现在体现的是数据思维。大数据里面含“金矿”,最重要的是要实现大数据的智能,通过大数据智能,要解决大数据智能问题,要通过一些新的计算方法,包括群体智能、社会计算等,用大量数据加简单逻辑方法就能解决复杂问题。

  大数据的科学、技术和应用问题,大数据的来源,大数据再大,来源也就是这么几个:政府数据源、行业数据源、企业数据源、社会群体包括个人的数据来源。这么多数据,我们要对数据进行感知,要对这么多数据进行综合融合和表达,还要进行存储、管理,里面有“金矿”,我们要挖掘出来,还要进行推断和决策,这些决策需要大家能够理解,这是技术问题。科学问题,到底复杂到什么程度?怎么样描述这个复杂程度?对于这么复杂的东西,我们有什么新的计算理论?数据的谱系分类怎么样,过去叫做数据库数据工程,现在形成了数据科学,过去先有科学再有技术、再有工程,现在反过来了,慢慢提升为数据科学。当然,最大的是应用问题,我们要解决大数据的应用,数据的资源化和共享化,如果数据都在单位里不拿出来,那就不能发挥作用。数据和产业会形成数据产业,有数据本身的生态和数据产业的生态问题,需要我们去解决。

  大数据研究层面和内容,有研究平台层的,有研究系统层的,有研究算法层的,有研究应用层的。同时,大数据不仅是一个概念,而且向产业化进军,正是由于向产业化进军,才会形成巨大的效益,过去有数据库产业,现在有数据中心产业,全球现在有几千个数据中心,中国也有九百多个数据中心,数据中心占有很大数据,进一步发展为数据产业,从事数据的收集、整理、流通、服务及相关软硬件的研发、制造的总称,包括内容产业、服务产业和软硬件研发产业。大数据的需求非常广泛,卫星测绘也是大数据需求的一个方面,还有金融、地质勘探等等。

  大数据时代带来的影响,首先,科学上的影响,图灵奖获得者Jim Gray基于e-Science的思路提出大数据是科学研究的第四范式,是从计算密集型科研发展到以大数据为基础的数据密集型科研方法。几千年以来,通过科学实验发现很多问题,以牛顿、爱因斯坦为代表的是模型归纳,近几年通过仿真也可以发现很多问题,以后通过数据密集型的计算发展为一个新的研究方法。对社会的冲击,可以改变政治与政府,比如2009年至今美国政府全面开放40万联邦政府原始数据,大数据已经成为美国国家创新的战略、国家安全战略、国家IT产业发展战略以及国家信息网络战略的交叉领域、核心领域。美国最近开放了气象数据,向世界开放,根据气象数据,成立了很多增值气象服务公司,使得增值气象服务一下变成美国时髦产业,对农业、对小区预报气象,什么地点、什么时间下多少毫米的雨,下什么类型的冰雹,刮什么样的台风等等。另外,被重塑的价值与思维,21世纪数据的价值有可能等同于20世纪的石油,大数据研究使得人们降低了对因果关系的渴求,而关注相关关系。只需要知道是什么,而不需要知道为什么。在经济上,可以产生新的数据分析与互联网、云计算、车载行业进行紧密结合,形成一批新的经济体,包括专门掌握数据源的企业、专注数据分析技术的企业,还有提供数据中间服务的企业,以及相关的产业联盟,会产生一些新的职业,可以产生数据分析师、数据科学家等等。而且会产生新的产值,TMR(透明度市场研究)最新发布的《大数据市场:2012-2018年全球形势、发展趋势预测》报告显示,2012年全球大数据市场值为63亿美元,到2013年将达到483亿美元,大数据产业将为零售业增加60%的净利润,大数据产业将为制造业减少50%的产品研发等成本。在个人地理信息方面,为服务商带来超过一千亿美元的收入,为用户带来超过七千亿美元的价值。

  位置服务与泛在测绘,位置服务的质量要求,连续、广域实时、快速、位置精度合适、位置信息丰富,满足实时连续广域服务的空天地一体化时空基准基础设施,这种位置服务能力可实现泛在测绘,现在的测绘就是泛在测绘,所以就不区分测绘和泛在测绘了。泛在测绘的概念,指用户在任何地点、任何时间为认知环境与人的关系而创建和使用地理信息活地图的活动,强调人、环境等信息的自然属性和社会关联,过去的测绘不强调人,只有地图、只有数据,没有人在里面,现在的测绘强调人与环境的关系。测绘手段也不同,“泛在”采集,利用感知设备和传感网络,每个人都是位置数据提供者,也是位置服务的受众。测绘对象:所感兴趣的人的状态及其变化或所关心环境、事件及其变化。人的数量及其群体需求、兴趣的复杂和多变,与人类相关的环境的复杂和多变是泛在测绘产生大数据的根本缘由。测绘与位置大数据包含物理世界大数据又含人类社会大数据。我

  二、空间信息与位置大数据类型和特性

  泛在测绘与大数据,有大数据的五个特点,但是也有自身的特点:时空特征,表示现象发生的时间点及持续的时间长度、所处的地理位置及涉及范围,数据间的关系也非常复杂。属性特征,有不同的层次,包括与人的关系。精度特征,指测绘对象在不同需求下,随分辨率、时间响应尺度等呈现不同精度要求。位置大数据是大数据研究中的重要组成部分,不仅测绘人感兴趣,全球各行业人都感兴趣,是“金矿”中的“金矿”,麦肯锡指出,估计位置数据的等级在2009年为PB级,并以每年20%的速度增长,这还不包括来源于RFID传感网的数据。

  空间信息与位置大数据的分类,测绘与位置大数据主要分为地理数据、轨迹数据、空间媒体数据。地理数据,大家都很清楚,我不详细讲了,数据特点是体量大、比较规则化、变化缓慢,地理数据可以分为地图数据、遥感数据、大地基准数据,全国1:5万熟土数据量可以达到250GB,DOG有10TB,全国1:50万DGG约5.3TB,DOG约350TB。遥感数据,有光学影像数据、雷达激光扫描数据等等。大地基准数据,包括时间基准数据、重力基准数据,如果我们国家将来要搞精确的重力场,我们国家中粮格网覆盖网将达到1TB,各类重力卫星数据,全球性多重覆盖。空间基准数据的规模,空间基准数据视频,GNSS一个基准站1秒采样率一天的数据大约是50-80MB,以全国3000个基准站计算,则总数据规模为180GB-240GB。气象模型参数数据,电离层和大气层参数,全球性多重覆盖。

  第二类,位置数据里包含的第二类数据是轨迹数据,通过GNSS、RFID等测量手段以及网络签到等方法获得的用户活动数据,包括个人轨迹数据、群体的轨迹数据、交通轨迹数据、物流数据等。特点是:数据体量大、信息碎片化、准确性低。可以用文本模式描述,有半结构化的轨迹数据,附带其他的用户信息和社会语义。

  第三类,空间媒体数据,以前不在我们的视野里,现在必须纳入到我们的视野中来,而且现在很多单位已经开始用了,包含空间位置与时间因标记的数字化文字图象图形、声音、视频影响和动画等媒体数据,主要来源于移动社交网络、微博、微信等新兴互联网应用。数据来源混杂、非结构化为主,数据异构性大,实时性非常强。有通讯数据、社交网络数据,比如FACEBOOK注册用户超过10亿。搜索引擎数据,可以为地图提供服务,为2亿多手机用户提供地图服务,数据有不同的特性,测绘数据真实性比较好,是比较真实的,价值、速度方面也是不错的。

  三、测绘与位置服务重大数据的问题和挑战

  测绘地理信息数据于那些行业或领域的数据密切关联,测绘与气象、测绘与海洋、测绘与环境都有密切的关系,测绘与经济也有密切的关系,与交通流、与人流的关系,与物流、与信息流的关系,资金流,也是与时间有关的。测绘与经济、社会也有很多关系,比如感知疾病流行时空规律。

  四、测绘与位置服务中的大数据应用和机遇

  五、测绘与位置服务中的大数据研究方法

  六、思考与结语

  位置服务需求进入了环境认知、个性需求、社群行为监测分析、地理国情全面、实时、协同性和公众监测的新时代,也就是产生和使用大数据时代。地理国情泛指国家和公众利益需求的地理要素的现状、历史、未来和变化发展趋势。会推进社会经济建设、政治建设。

  由于时间关系,有些内容讲不了了,我就讲到这儿。

  谢谢大家!

  (此为报告人现场发言速记记录,未经报告人本人审核。)

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开