禹天建 绘

李克强总理在今年的政府工作报告中指出:“实施大数据发展行动,加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进‘互联网+’。”当前,发展教育大数据已成为推进我国当前教育领域深化改革和创新发展的战略选择。

党的十九大报告提出,努力让每个孩子都能享有公平而有质量的教育。在教育领域实施大数据发展行动中,好的教育大数据怎样才能挖掘出来,又该进行怎样的分析处理?大数据怎样为教育助力使其更加公平优质?对此,记者对相关专家和从业人员进行了深入采访。

访谈嘉宾:

戚万学 曲阜师范大学党委书记、中国教育大数据研究院院长

甘健侯 云南师范大学民族教育信息化教育部重点实验室常务副主任

方海光 首都师范大学教育技术系教授、远程教育研究所所长

李 超 学堂在线总裁

好的教育大数据怎样才能挖掘出来

记者:当前,“大数据”成了一个时髦名词。好的教育大数据是什么样?教育数据数量越多越好吗?

戚万学:大数据之“大”,我们一般理解为“数量”规模之大,通常数据样本量越大,越有利于对数据进行多维的聚类、聚合、聚集分析,更有利于“扫描”和“透视”看似毫无价值、毫无关联数据之中的相关性、逻辑性直至规律性,从而可以进行评价和趋势预测。大数据之“大”,还有一种理解是处理技术的“大”。对于教育大数据而言,需要数据的不断累积和增多,同时也需要相应大数据挖掘分析技术不断提高。教育大数据的价值在于帮助决策,一般而言,好的教育大数据要具备精确、完整、可靠性、视觉化呈现、存取性高等特征。

甘健侯:教育大数据之“大”并非只是数量之大,更为强调的是数据蕴含的“价值”之大。实质上,教育大数据并不是越多越好。对于数据科学家来说,重要的不是得到最多的数据,而是看通过哪些数据可以得出真正有价值的结果。教育大数据大致分为教学资源类大数据、教育教学管理大数据、教与学行为大数据、教育教学评估大数据四类。教育大数据并非包括所有数据,因为教育活动过程中也会产生大量无意义的“噪声”数据,需要根据教育的应用目的进行数据过滤和“清洗”,为后期深度挖掘和分析做准备。因此,好的教育大数据一定是科学、客观、准确、有用的,要把数据与人的差异化有机结合起来。

方海光:教育大数据并非越多越好,教育大数据要能服务教育发展、具有教育目的性,而非盲目地囊括一切数据。教育大数据是以业务应用导向为评判标准的,即应用是检验教育大数据的唯一标准。好的教育大数据可以在提升教育质量、促进教育公平、实现个性化学习、优化教育资源配置、辅助教育科学决策等方面发挥重要作用。

记者:教育大数据丰富多样、种类繁多,在海量的教育数据中,怎样挖掘出好的教育大数据?

戚万学:教育过程中每分每秒都在产生大量丰富、复杂且多样的信息,这些信息必须经过深入的挖掘才能转化成可以运用的教育数据。如何挖掘教育大数据一直是摆在教育研究者与政府面前的重要课题,也是一个难题。好的教育大数据是凭借数据挖掘者敏锐的洞察力与先进的挖掘技术来获得的。好的教育大数据必须有好的理念、好的问题意识、有趣的研究设计,然后才是好的挖掘技术。在数据挖掘过程中,应该避免唯技术化和工具化倾向。

李超:大数据挖掘不能离开教育实践,无论是在线教育还是课堂教学,我们都不能为了抓数据而去抓数据,而要从贴近教师的教学需要、满足学生的学习需要出发,真正以学习者为中心去获取大数据。非结构化的教育数据如图片文本,需要通过充分利用好现在的信息技术手段,通过人工智能、模式分析、行为分析的了解和认知科学的发展、教育技术的最新理念,把它们转换成结构化的教育数据。更关键的是要能够把这些非结构化数据,通过模型在教育过程中去指导、帮助教师以及指导整个系统开发,然后再去获取数据优化模型,通过往复的过程以后,可以真正实现科学化指导。

甘健侯:好的教育大数据需要对教育数据进行深度挖掘。这个过程中需要综合运用数学统计、机器学习、数据挖掘和人工智能等多交叉领域的技术和方法,对教育大数据进行处理和分析。通过数据建模,发现学习者学习结果与学习内容、学习资源和教学行为等变量的相关关系,来预测学习者未来的学习趋势,促进学习者有效学习的发生。

方海光:好的教育大数据也是重要的教育资源之一。为使数据资源物尽其用,当前最需要的就是挖掘能够促进共建共享的教育大数据。共建共享不仅有利于加速教育大数据产品的应用和开发,也有利于降低成本优化体验。对于半结构化或非结构化的数据,可以采用自然语言理解、模式识别等人工智能手段进行信息抽取,还可以通过专家人为地进行协同标签处理,这样可以将其转化为结构化数据。对于杂质较多的数据,可以在数据挖掘时进行数据清洗。对于实时产生的数据可以使用自动获取效率优先的方式来采集数据。

丰富多样的教育大数据如何处理

记者:在云存储和云计算的基础上,如何利用信息技术等手段对非结构化和半结构化教育数据进行有效处理?

戚万学:非结构化数据转化为结构化数据,是大数据产生效力的重要途径。常见的教育大数据,都是非结构化的类型,能直接进行数据分析的结构化数据反而较少。举例而言,教师的教学视频、学生的作业等都属于非结构化的数据。要解决非结构化数据带来的挑战,就是利用信息技术进行数据转化。在数据分析方面,目前已经有相当成熟的分析方式,包括传统统计学的回归分析、类别分析和决策树等,真正面临的挑战反而是数据的清洗及去敏的处理,关键是确保数据与数据产生者之间的匿名性,即在经过数据清洗后,无法通过数据去辨识出该数据所属者的信息。如此,才能确保学生个人的信息不外流,符合一般教学及研究的伦理守则。

李超:在教育大数据的挖掘和分析上,在整个教育教学过程中,现有的手段能够收集到的信息还不够。在大量占有这些数据的时候,我们一定要利用人工智能或者最新的神经网络深度学习等技术,基于实践数据去进行处理总结和分析,同时要把这些结果和总结分析反哺到教育过程中去。

甘健侯:教育数据的处理可分为教育数据的获取与抽取、教育数据的存储与管理、教育数据的分析与挖掘三个阶段。在云存储和云计算的基础上,传统关系数据库无论从描述能力上还是从管理数据的规模上,都无法应对非结构化和半结构化的数据管理要求,因此如何利用信息技术建立有效的非结构化和半结构化教育数据管理平台是关键。首先,针对半结构化和非结构化数据存储和分析的需求,建立统一的数据模型。其次,利用云存储和云计算,构建分布式与并行处理模型和架构,支持高度并行化与可扩展性,从而保证教育大数据的高效处理。再其次,支持查询语言与数据可视化功能,满足用户对教育大数据进行访问与分析的接口需要,以提升教育数据处理的有效性。

方海光:目前,人们对半结构化和非结构化数据的个体表现、一般性特征和基本原理尚不清晰,这些都需要通过多学科交叉来研究和讨论。但是,人们可用开源信息技术平台收集半结构化和非结构化数据。由于大数据所具有的半结构化和非结构化特点,基于教育大数据的数据挖掘所产生的结构化的“粗糙知识”(潜在模式)也伴有一些新的特征。这些结构化的粗糙知识可以被决策者的主观知识过滤处理并转化,生成半结构化和非结构化的智能知识。人类和数据的协同加工过程,反映了教育大数据研究的新思路。

记者:在教育大数据的挖掘及分析处理上还面临哪些挑战?如何解决?

甘健侯:教育本身是个复杂的系统工程,其结构非常复杂,涉及教育教学资源、教育教学管理、教与学行为、教育教学评估等多方面的大数据,因此,教育大数据的挖掘和分析处理上还面临一些挑战:缺乏统一的数据规范;结构性的教育大数据短缺、数据分析模型有待验证;非结构化的数据处理技术尚不成熟。对此,我的建议是,一是遵循顶层设计,制定统一规范;二是注重全过程多维度数据采集,建立科学准确的数据分析模型;三是善于使用新方法和新工具,深化挖掘模型、分析方法与教育教学的融合。

方海光:教育大数据最主要的问题是缺乏相应的方法论指导。虽然许多学校和教师都能够意识到教育大数据的重要性,但对其在教育当中如何应用却并不清楚,因此才带来了数据采集缺乏全面性、数据分析缺乏针对性、结果应用缺乏有效性等问题。因此,我们应组织教育学、管理学、计算机科学、数据统计学等多学科的研究人员成立专门的教育大数据研究机构,集中优势力量破解教育大数据应用推广过程中存在的热点、难点问题,同时结合教育发展的战略需求,开展前瞻性研究,使其成为国家教育大数据发展的智库。

大数据怎样助力因材施教

记者:大数据对学习过程和教学反馈带来了哪些改变?可以为个性化教育提供哪些帮助?

戚万学:大数据的细致性以及精准性,使得教师和其他教育工作者可以深入地了解与掌握学生的学习过程。教师可以通过大数据中每个学生学习轨迹的分析,结合他们的个性特点,分析其独特的学习需求,在网络教学系统的帮助下推送适合每个学生发展的学习材料或学习建议,开展因材施教。可以说,大数据具有促进教师从教学者向指导者角色转变的潜能。

甘健侯:大数据对学习过程和教学反馈主要带来了以下改变:第一,形成数据驱动教学范式。大数据技术可以全程记录学习者的学习过程,深度挖掘数据背后反映的教学意义与价值,并以可视化的方式清晰呈现,从而有效支持教师精准地“教”,进而指导学生更精益地“学”。第二,大数据技术改变了教学的反馈方式、反馈形式和反馈途径,使教学反馈更具有准确性、时效性、过程性、全面性、智能化和科学性。第三,使基于大数据的学习分析技术成为教育技术的新范式,关注每个学习者的个性发展,实现真正意义上的个性化学习,促使教育回归本质。

方海光:在教育大数据的支持下,教师逐步由教学者转变为帮助每个学生个性化学习与发展的指导者。传统的学习管理系统将升级为智慧学习平台,能够持续采集学习者的学习行为数据,并进行智能分析,依据学习者模型推送适合的学习资源,准确诊断、评价学习过程与结果,给学习者提供最适合的学习建议,实现每个学生的个性化发展,这从根本上提高了学习效果。

李超:有了大数据的支持,我们改变了过去传统的教师和学生之间交互的方式,把整个交互过程变得更加实时有效,让原来不敢说话的学生能够发表观点,教师也能够时刻掌握课堂的进展。我们在个性化教育领域做了大量努力,包括混合式教学、在线教育与课堂教学之间如何有效连接起来等,帮助教师给远方的学生提供有效指导,同时给学生之间进行有效的交流提供充分的工具。

记者:教育大数据与当前人们常说的数字教材、智慧校园、智慧课堂之间是什么样的关系?大数据在提高教育质量方面可以起到哪些促进作用?

李超:教育大数据和数字教材、智慧校园、智慧课堂之间的关系,其实是互为叠加、互为补充、互为反哺的。数字教材是从教育实践中形成的数字化教材,通过数字化教材,大量的学习数据和学生行为可以被采集到。智慧课堂实际上是在数字教材设计上,结合了传统和在线课堂的最佳实践。智慧课堂更加有效地支撑了我们获取数据和应用数据。智慧校园其实是一个更大的范围,能够让学生在学习和生活等各个方面通过数字平台进行连接。所有这些大数据都是数据支持,支撑学校更好地为学生提供良好的教学体验服务。

方海光:教育大数据是发展智慧教育最重要的基础,是实现智慧教育的数字教材、智慧校园和智慧课堂应用的重要支撑手段之一。教育大数据是智能化学习环境的基础,更是实现智能教育的大系统、大平台、大资源的重要特征之一,将是我国教育信息化2.0的突出应用。教育大数据对数字教材的价值是实现了教材、课程和课堂的贯通,使得三方面应用实现了一体化。教育大数据对智慧校园的价值是实现了学生多应用场景的连接,使得学生的学习、健康、生活、娱乐和个性成长连接在一起。教育大数据对智慧课堂的价值是实现课堂信息的闭环反馈,通过数据评估反馈,让每个学生通过不同学习路径更接近学习目标。

记者:大数据在提高教育质量方面,还面临哪些挑战?如何应对?

甘健侯:要想真正发挥大数据在教育领域的应用水平,促进教育质量的提升,一方面要在正确的理念支持下应用大数据,保证数据获取渠道更加多元化和更畅通,另一方面要加强大数据人才的培养,推动教育大数据技术的研发与应用。培养一批懂得大数据,具有大数据收集、处理和分析大数据技能,并且善于研究大数据、深挖大数据的人才,这对于教育大数据发展至关重要。

方海光:隐私和伦理道德限制是教育大数据应用过程中不可回避的问题。教育机构在将学生的个人教育记录数据交付给第三方机构用于教育数据挖掘和学习分析应用开发的时候,必须注意规避相应的政策和法律规定,也要避免第三方未经授权将教育大数据作为资源进行商业行为。另外,通过教育数据挖掘和学习分析所作出的预测和推荐,将会大大增加学生活动的透明性,这也将会带来一系列的社会伦理道德问题,值得相关研究和教育机构重视。

大数据怎样推动教育均衡发展

记者:大数据在促进教育均衡发展方面可以起到什么样的作用?

戚万学:教育大数据是促进教育均衡发展的重要力量和有效途径。大数据在促进教育均衡发展方面大有可为:一是借助大数据技术推进教育资源共享,突破教育资源区域、城乡等发展不均衡的现状,逐步实现教育资源配置均衡发展;二是借助大数据技术,加强教育欠发达地区教育信息化建设;三是通过大数据技术助力教育决策,实现教育“精准扶贫”。

李超:教育大数据实际上是教学与学习过程体验的最佳教学总结,也是对变化着的学习者的需求不断地进行抽象和总结优化的过程。所以,教育大数据的应用对于促进教育均衡发展有非常显著的作用。例如,学堂在线和清华大学在线教育办公室共同推出的雨课堂,现在使用的课件其实就是整合了优秀教师在课堂中的教学实践,可以使更多的人、更多的课堂来使用。而更多的人在使用雨课件的过程中产生的数据,又可以支撑教师更好地优化课程。

甘健侯:教育大数据既有共时的也有历时的。共时数据指的是在同一时期所获得的大规模数据,比如统测、中考分数或者教育财政拨款收支分布等,将班级或者学校的单一数据与总体数据均量进行比较,可以更加全面地呈现班级和学校的教育质量、教育投入等情况。更重要的,对数据进行相关分析能够更好地发现教育规律,并帮助相关政策的制定,进而推进教育均衡。历时数据指的是针对同一指标在不同时期的数据观测,比如同一个学生英语学科的平时成绩和期末成绩的所有数据,从小学到大学的数据等,这些数据能够帮助教师针对学生个体更好地制订学习计划,其核心要义就是实现对学生个体的教育均衡。

方海光:应用教育大数据技术,可以准确把握区域教育发展动态和影响其均衡发展的关键因素,全面推进区域教育的均衡发展。此外,还可以通过教育大数据实现跨业务的共享和优化,实现高位的资源优化效果。通过建立连续的制度化的区域教育发展数据采集机制,可以全面跟踪了解所有学生的在校学习情况以及毕业后的工作情况,进而更加客观地评价区域教育质量,根据评估结果动态调整区域教育体系,比如专业调整、课程计划调整、培养方式的调整等,实现教育与社会需求之间更加无缝的对接,帮助每一个学生获得成功。

记者:教育大数据在促进教育均衡发展方面,还面临哪些挑战?

方海光:我国目前大数据相关的技术资源还略显薄弱,区域间技术资源分布不均,很多地方教育机构缺乏必要的大数据应用的基础设施建设。例如,有些学校没有学生信息系统、在线教育平台,也就无法为教育数据挖掘和学习分析提供基础数据,这将是我国在大数据教育应用方面所面临的首要问题。

戚万学:当前面临的困难是,现有技术无法应对海量的教育大数据,并且缺乏统一的大数据技术标准。部分地区和学校办学思想、管理理念等较为封闭,对自己掌握的数字化教育资源不愿意开放共享。而且,当前缺乏统一的资源共享平台,缺乏统一的调配和管理,在大数据知识产权保护方面的立法也相对滞后。

甘健侯:教育大数据的重中之重是出台教育大数据的统一标准,规范所有教育数据管理平台都必须提供的数据指标。除了以往的年终统计数据外,还应该关注学习过程中的具体数据。有了统一标准,各区域教育大数据管理平台可以有效对接相关数据,实现数据间的跨平台融合。同时,由于缺乏教育大数据相关技术人才,还应加快教育大数据相关人才的培养进程。

《中国教育报》2018年04月17日第4版 版名:新闻·深度