很多谈论“大数据”的观点着眼点在其数据量之大,如每天有多少个GB甚至TB的数据被制造出来,但怎么样存放和访问是存储硬件巨头们的事情,并且他们做的是如此的好,以至于我们根本不必担心自己的数据无处可放——只要你肯出钱就行。“大数据”的“大”更多体现在数据的高维度上,当一个数据的属性超过数十项乃至上百项时,想要了解不同属性间的相关性或挖掘出数据间潜在的模式就非常的困难,这正是“大数据”的意义所在;但在很多PPT中,对于这么关键的内容往往只能看到几个干瘪的字眼“分析、挖掘”,至于到底怎么样来分析和挖掘,使用什么样的工具,有什么样的技巧,实现了什么价值,这些我从未见过。
另一个问题是在地理信息应用的大客户群——电子政务领域——有那么多需要分析的大数据吗?为了了解相关问题,我曾经问过不同的人群:从卖存储和负载均衡设备的售前工程师、不同信息中心的技术人员到相关业务系统的开发工程师,他们给我的答案是:海量存储和负载均衡是现在的一种标配形式,市级层面的电子政务应用几乎没有遇到过访问量激增以至需要负载均衡的情况。而在地理信息应用中,我们的层次也大多处于“底图共享”阶段,离真正的数据挖掘和分析还很远:包括数据、方法和应用场景都还没有准备成熟。
如果作为一种技术理念和研究方向,这些演讲和PPT内容倒也无可厚非。然而恶劣的是,有些企业则是已经开始兜售由全套开源产品组成的所谓“大数据分析平台”,从Hadoop、HDFS、Hbase、Hive到R,能想到的概念和名词全部砌在一起,似乎他们已经完美地实现了基于大数据的空间数据存储和分析流程,将用户忽悠的一愣一愣,但在现实中你却从未找到过他们分析的一个数据实例。这些无法落地的行为已经在丧失一个企业的节操,说多了,反感自然就来了。(文丨蒋波涛)

{{item.content}}