相信很多人都有过这样的经历,个人还好,对于企业,特别是某些行业,非结构化数据增长速度极快。例如,通信运营商和媒体面对着无穷无尽的社交信息,而制造业和基础设施运营商则因物联网和传感器的发展而采集了多样化的设备信息,这些信息,虽然有价值,但却未被使用到,这就是“暗数据”。
“暗数据”是大数据中的一类,“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。
“暗数据”一词最早由Gartner公司提出,是企业在正常业务流程中产生的信息资产,但一般不用于其他目的(例如分析,业务关系等)。就像宇宙中的暗物质,它们代表了宇宙中90%以上的物质含量,但自身不发射电磁辐射,也不与电磁波相互作用。“暗数据”的存在也会消耗比它能带来的价值更高的费用,比如存储等。
这些暗数据,没准哪一天你会用到它,所以你一直保存着它,却一直束之高阁,食之无味,弃之可惜。比如医疗保险机构的暗数据,如果进行恰当的归类和存储,未来就有发挥价值的一刻,暗数据当存储到一定量的时候,并且和其他信息综合分析时,就能挖掘到它所反映的行业间的交叉信息,比如零售 、医疗、金融或者公共服务领域。一个企业或机构的暗数据,很可能成为另外一个企业或机构的高价值数据,在隐私和安全性的障碍被清除后,就是暗数据价值爆发之时。比如医疗机构的一些不常用到的信息,将成为零售或者金融机构的金矿。如果加以充分利用,暗数据将成为企业的第三类资产,变作创造价值的源泉。
今年的双十一来势凶猛,双十一开始后第一分钟内,支付宝的交易额就达到了1.17亿元,交易笔数接近34万笔。随后是交易额数字的持续刷新,最终全天成交额350亿。这一天产生的暗数据也不少,它们存在于用户在活动期间关注、浏览、加购物车、收藏等行为的信息中;消费者抢到的红包、领到的优惠券等相关信息中;物流配送位置信息、银行交易信息等等所有的这些内容,有的是被分析的有价值数据,也有更多的是大家意识到有价值,但短时间内还无法利用只能存储的“暗数据”。
如果按数据类别两两或者三者关联,加以分析形成信息资产,如果全部加以整合利用,就能爆发出暗数据的更大价值。比如一些暗数据可以揭示一个用户的兴趣改变,或购买习惯的渐变,这是真正的价值。
当然,发现和使用暗数据有很高的风险,因为试图利用它可能会浪费时间和精力,如果用得不好,则将一无所获。这需要本身具有强大的处理数据的能力,暗数据需要的是强大数据库管理工具的支撑,目前,还只有“高大上”的企业才能很好地利用暗数据。(文丨《3S新闻周刊》专栏作者 许泳)

{{item.content}}