分享
Scan me 分享到微信

大数据时代势不可挡 让沉睡的数据说话

“大数据”时代的脚步悄然而至,高校也身在其中。在高教学会信息化分会青委会日前举行的一次技术论坛上,一直专注于数据分析与挖掘工作的清华大学信息化技术中心袁芳做的一个报告引起了与会者的共鸣:《如何在大数据时代掘宝?》

   大数据时代的使命

  2012年,美国发起的“大数据”研究吸引了全球的目光。奥巴马称:“通过提高我们从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全并改变教学研究。”透露出美国进行大数据研究的重要目标之一——教育。

  为了推动大数据的研究,美国联邦政府的部门和机构宣布新的2亿美元的投资,“提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。”

  “大数据”时代的脚步悄然而至,高校也身在其中。在高教学会信息化分会青委会日前举行的一次技术论坛上,一直专注于数据分析与挖掘工作的清华大学信息化技术中心袁芳做的一个报告引起了与会者的共鸣:《如何在大数据时代掘宝?》她认为,高校也正面临着大数据所带来的挑战与机遇。“随着互联网应用的丰富,每个学生和老师每天都在生产着各种各样的数据,当数据量达到一定级别后,就可以进行很有意义的分析挖掘工作。”她认为,海量数据的分析将对教育信息化产生深刻的影响和冲击。她觉得,“高校也要关注大数据技术的研究和应用,智谋未来。”

  大数据时代势不可挡。相关人士表示,未来的十年将是一个“大数据”引领的智慧科技时代。随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络由此产生的数据及增长速度将比历史上的任何时期都要多,都要快。

  目前,几乎所有的高校都在进行数据中心的扩建因为这两年数据的发展与前几年比较已经不是一个数量级,以往数据中心的空间已经无法适应当前快速发展的要求。“目前我校数据资源正以每年30%到50%的速度在增长。”中央财经大学信息网络中心主任叶新恩说。

  在北京师范大学,校务管理信息系统数据有500~600G,校园卡系统日记1TB~2TB,校园网日记数据大约有1TB。“从存储购买量的增长来看,2011年学校大约增加存储400TB,尤其是一些理科科研单位,如气候气象数据,遥感影像数据等存储量很大,其他教学类资源存储量也非常大。”北师大网络与信息中心主任刘臻说。

  在清华大学,目前电子校务系统的运行业务数据大致有1.5 亿条,这还并不包括系统日志、校园卡交易等流水数据,换算到存储量的话,大致是7~8T的样子,其中并不包括视频等流媒体数据。

  另外,非常关键的是,高校当今数据库里的内容不仅是多,而且结构已发生了极大改变,大量的数据是非结构化数据。据统计,全球结构化数据增长速度约为32%,而非结构化数据增速高达63%。这个趋势在高校亦然。

  袁芳认为,对于传统的结构化的数据,由于已经达到一定数量,以关注其应用为主,而对于正在生长的海量的非结构化数据,则要关注怎么收集、用什么方式有效管理。“学校正在掌握着越来越多活的数据,这为我们提供了新的方向——寻找某个规律背后的原因。”她说。

  复旦大学信息化办公室主任宓詠认为,从沉淀的数据中发现有价值的信息,深入挖掘、综合利用、转化为知识,才是信息系统真正价值的体现,而这方面可拓展的空间几乎是不可限量的。从管理的角度来看,如何充分利用信息系统中的数据,是系统实施之后最重要的工作,也是长期的工作。

  数据挖掘前的准备

  数据挖掘,也称为数据库中的知识发现,是从数据库中的数据抽取隐含的、未知的和潜在有用的信息(如知识规则、约束和规律等) 的非平凡的过程。确切地讲,数据挖掘是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。

  国外高校教学管理中, 数据挖掘已成为提高教学管理质量与水平的一种有力工具。如美国学校能够以85%的精确度去预测学生的升学率, 从而把注意力集中在辍学风险比较大的学生身上。而在国内, 数据挖掘在各领域的运用与实践尚不普遍, 不少的企业或部门仍处于观望与考虑之中, 在高校教学管理中的应用更是有待于人们去深入地研究。

  从海量数据中寻找出有意义的规律,并为高校未来的发展提供决策上的支撑,使高校迈入“智慧”的校园,是信息化数据挖掘的最终目标。

  “要实现很好的数据分析,需要有两个前提条件:一是足够的数据量;二是数据必须是可用的、真实的,这就需要数据质量的保证。”袁芳说。

  但是目前普遍存在的问题是数据质量不高。许多高校的数据分析、利用仍停留在初级水平,数据很难被发掘利用也反映了在系统建设和使用过程中的数据不准确、不精确、不一致等诸多质量问题。

  宓詠表示,目前的数据工作主要存在以下几个方面的问题。

  第一,数据整合做得不深入。现在,整合是大势所趋,是高校信息化建设必须面对的挑战。一方面,随着信息化应用的深入和普及,各业务间出现了大量的数据交换需求;由于时间积累、建设方式多样和系统耦合度因素,数据交换呈网状结构,随着需求的增加,授权越来越复杂,亟需对现有信息或数据进行整合,提高信息资源的利用率。另一方面,随着非结构化数据的增多,需要对业务类的结构化信息和资源办公类的非结构化数据整合。

  第二,标准化的挑战。目前,信息系统中的业务数据定义不清、概念混淆,程序设计时控制和校验不严,系统使用时数据输入偏差等原因,导致数据质量问题很多。业务数据标准化程度低,不仅导致数据质量问题,也给数据集成带来了很多麻烦。

  第三,数据的利用率很低。“数据如果仅仅是保存并沉睡在系统中,那么其质量问题很难暴露出来,只有被使用时,问题才会逐渐显现。”

  他表示,要想提高数据质量,首先需要把好数据输入的源头、保证输入的数据符合要求,其次通过技术手段控制数据输入的格式、标准和要求。

  此外,需要指出的是,数据质量并非单纯的技术问题。很多时候,数据的真实性有待商榷。比如,同一所高校不同部门针对同一项目给出的数据不一致。

  事实上,数据质量不仅是一个技术问题,更是一个管理问题。业务部门需要利用数据来处理业务工作,意味着要为数据完整性、完备性、准确性给出定义和语义层次上的解释。解决数据质量问题往往要耗费较多资源及增加管理成本,因此还需要管理层在数据质量和所花费的代价两方面进行平衡。总之,数据质量问题不单单是一个技术问题,更需要来自管理和技术两方面的协同努力。

  宓詠认为,优秀的数据管理体制应当是:数据不再仅仅属于各业务系统, 管理部门仅对数据真实性、有效性负责。 师生不再面对众多业务系统,而是更好地使用数据、受益于数据。而且要统筹规划,把不同用户群分开,设置教师个人数据中心——教师综合服务以及学生个人数据中心——学生综合服务的模式。这样,把面向师生的应用服务与管理业务分开。

  数据分析能做什么

  数据挖掘被信息产业界视为数据库技术的前沿,数据库技术的新应用领域。它在数据仓库、决策支持、市场策略和金融预测等领域具有广泛的应用前景。全世界排名前列的大型和超大型公司95 %以上都建立了数据仓库和应用了数据挖掘技术。

  那么,高校怎么去做数据挖掘?宓詠总结认为,对于高校信息化来说,数据挖掘有三个层次:一是为了信息化部门的IT运维和服务;二是学校各业务部门的管理决策;三是全校的综合数据挖掘与分析。

  袁芳表示,要进行数据分析,首先必须有充足的有质量的数据。之所以说现在做数据挖掘的时机是成熟的,是因为高校尤其是一些大型高校拥有大量的教学、管理、科研等数据,这为从各个层面进行数据分析提供了信息基础。此外,最近几年移动互联网技术、微博等SNS网站的推出,使学校拥有了很多可用的、有价值的海量数据。这也意味着,要进行信息挖掘,必须充分扩展应用,才有可能掌握更多的数据。

  目前,进行数据挖掘的高校基本都是信息化做得很好、规模较大的学校,其主要原因是他们有充足的数据量。此外,也有人力来做这部分的工作。

  在数据分析中,去年非常著名的是,通过对最近几年清华和北大本科生的所属地域对比分析发现,来自农村的学生所占比例相比10年前大大落后。这些数据从一定层面上反映出深刻的社会问题,值得全民关注。

  总体来看,目前高校对信息数据的挖掘主要集中在几个方面:一、针对网络系统运行所做的数据分析;二、针对教学教务管理所做的支持;三、针对特定学生的分析;四、针对科研所做的数据分析支持。

  比如,华东师范大学对校园网站数据进行分析,从而改善用户体验。他们在数据分析后发现,“Chrome、Firefox、Safari等浏览器一直被认为是冷门。但从华东师范大学的访问数据可以看到,这些浏览器仍然占有10%以上的浏览份额。我们根据这些浏览器一一进行兼容性测试,确保页面在以上占比较高的环境下能够正常显示。”

  浙江大学通过对资产的归纳、整理,最终形成权威、全面的资产数据,并基于资产数据提供数据查询和分析服务。这些数据分析的成果已经被真正地应用起来,能够帮助教务处更好地利用教室、实验室等资源。

  复旦大学则对特定的学生进行数据分析,并且得到一些非常有价值的数据。比如,他们对来自不同区域的学生进行分析,分析结果认为,学生成绩受不同地区基础教育发展状况的影响较大。从平均绩点看,来自东部地区、中部地区、西部地区学生的成绩呈递减趋势。在中部和西部地区,城镇学生成绩优于农村学生,东部地区则相反。分析认为,出现这种情况或与学生所受基础教育相关:在中、西部地区,城镇的基础教育资源和水平明显高于农村;而在东部地区,农村和城镇教育资源和水平相对均衡,不少农村学生在基础教育阶段反而可能学得更深。

  此外,他们对保送生的教学情况进行了分析。 分析得出,自主选拔录取学生的平均绩点总体高于保送生,内地新疆班、内地西藏班、预科生、留学生、港澳台学生学习成绩较差。根据现有保送生政策,除少数省级优秀学生外,大多数保送生是学科竞赛获奖者,他们在基础教育阶段偏科较严重,还有个别保送生为退役优秀运动员,基础也较为薄弱,因此不少保送生在入校后出现学习困难的情况。而经历过“复旦水平测试”和高考双重选拔的自主招生录取学生,各项基础都比较扎实,总体成绩相对稳定。

  “在数据分析中,目标要很明确。”清华大学袁芳说。清华正在做一些学生成长类的数据分析。比如,针对进校时成绩很优秀的一批学生,追踪其在大学四年的各种数据,观察其成长路径,或者对毕业时表现很优秀的学生进行追溯。“数据分析是一项非常系统的工作,涉及到很多社会学的内容。”

  清华大学对数据分析做了四个境界的界定:一是基于一个统一、权威的数据,提供综合查询;二是做一些固定的统计分析,固定报表;三是做一些灵活的统计分析,针对热点情况进行分析;四从大量数据中找出规律,发现出一些可以帮助大学未来发展的战略。

  光明的未来

  对于数据分析的前景,大部分认为:前景非常好,但挑战很多。袁芳认为,数据分析存在两个方面的关键因素。首先,业务和技术的紧密结合非常重要。业务需求是所有数据分析的目的,做数据分析要先挖掘出分析什么,拥有了需求,高校才能有针对性地对数据进行分析,把数据深层次的价值挖掘出来,让它们为决策服务。

  在微博上一些人讨论,在数据分析中“明确目的、收集数据、整理数据、分析数据、数据可视化、数据报告”这几个步骤最重要的部分是什么?袁芳回复说,前四个步骤缺一不可,要有需求,需求决定了素材和路径。她打了一个比方:“好比做菜,得知道吃什么,才去买原材料,拿回来清理干净,再加工,才有得吃。最苦的是清理,费力不讨好;最有价值的是加工。”

  然而,数据挖掘的“需求”在高校一直是个很困惑的问题。香港中文大学资讯科技服务处处长梁光汉就说:“我们都说做数据挖掘是为了给领导做决策使用,但是领导的需求是什么?我们不知道。但由于我们没有一种好的形式展现给领导看,原来数据挖掘可以帮助我们做这个,所以领导也就看不到数据挖掘的前景了。”

  这是一种很被动的情形。“我们一样也面临这个问题,也无法突破这样的怪圈。只好先假设一些目标,做一些我们认为有意义的分析,然后把结果给业务部门看,期待着他们会发现,原来数据挖掘可以帮助他们实现这样的功能。那么,也许可以启发出他有别的需求。反正就是尽自己可能变被动为主动。”袁芳说。

  其次,数据分析对于技术人员的要求很高,要求他们不仅精通技术,也要熟悉校园网业务。

  在技术方面,基于数据挖掘的未来前景,挖掘工具也越来越多。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。通用工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。

  此外,还有一个非常重要的是:高校对数据挖掘机制方面的理顺。华东师范大学信息化办公室主任沈富可说:“关于数据挖掘,国内的院校研究也已起步,但尚停留在学术研究层面,高校内鲜有带有行政管理职能的院校研究机构成立,其功能定位、研究范畴和研究方法与国外院校研究相比,尚有较大差距。其研究人员多是高等教育学专业背景的人员,虽从美国引进、传播了院校研究的概念,并尝试推动了院校研究的实践,但数据分析作为现代院校研究的基础和重要内容,尚未引起我国大多数致力于院校研究的学者的重视。

  他认为,数据分析作为推动高校未来发展的一项很有战略眼光的事业,应当从整个管理体制中完善。这一点,我们可以从国外大学中得到一些借鉴。以美国纽约大学为例,其数据管理体制中有两个重要角色:数据管理员(Data Steward)和院校研究办公室。他们的数据分析是由院校研究办公室自上而下地开展工作,院校研究办公室直接从学校数据仓库获取数据,信息化部门密切与之配合,双方协同确保学校数据的准确性和完整性。他认为我国高校在数据挖掘方面也可以参考这一机制。

  “数据分析也需要不断地迭代升级,不断地实战试错,才能留下宝贵的财富。”相关人士说。

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开