- 相关推荐
浅谈数据集市技术在高校信息管理中的应用
论文关键词:数据仓库:数据集市;AnlaysisServices(分析服务工具);OLd(联机分析处理)
论文摘要:高校各类信息系统积累了大量的数据,亟待一种方法对其进行整合以更大限度的发挥其作用,文章针对高校特点提出了自底向上先建立数据集市,再集成为数据仓库的解决方案,并针对西华师范大学学院利用SQLcSver2000建立了数据集市。
1引言
计算机技术已经在高校教学管理工作中广泛应用,各种类型的信息管理系统在高校各部门都已建立,如学生管理系统、教务管理系统、教师信息系统等等,它们的开发和应用大大提高了工作效率。但是,各类信息资源分散在各个不同的部门,缺乏统一的管理和组织,虽然积累了大量的数据信息,可是功能只是局限于查询等初级的应用,不能实现一些高级应用如:OLAP分析、数据挖掘等。对这些数据信息,巫待一种方法对其进行整合以更大限度的发挥其作用,这种方法就是建立数据仓库。
自顶向下开发数据仓库能最大限度地减少集成问题,是很好的开发方案。然而,数据仓库项目庞大、结构复杂、物力投人大、开发周期长,并且很难使整个组织的共同数据模型达到一致,从而缺乏灵活性。所以,高校数据仓库的建设应该采取渐进式、分阶段、分步骤的策略一自底向上首先设计、开发独立的面向一个院、系、部门数据集市,待成功后再建立所有院、系、部门的数据集市,最后集成为数据仓库。这种方式灵活性大、花费又低,并且能快速见效,更适合高校的实际情况。
2数据仓库的建立
对高校数据仓库建立我们设计如下实现步骤(图1):
(1)定义一个高层次的整体数据模型,在不同的主题和可能的应用之间,提供全局范围的、一致的、集成的数据视图。无论数据集市提供何种功能,都是数据仓库的组件,要保证数据的组织、格式和架构在整个数据仓库内保持一致。表的设计、更新机制或维度的层次结构如果不一致,可能会使数据无法在整个数据仓库内重新使用,并可能导致由相同的数据生成不一致的报表。
(2)基于上述相同的整体数据模型,并行地实现独立的院、系、部门数据集市和校级部门数据集市。
(3)构造分布式数据集市,通过网络中心服务器集成不同的数据集市。
(4)集成为一个多层数据仓库,这里,多层数据仓库是所有仓库数据的唯一管理者,数据则分布在一些依赖的各院、系、部门数据集市中。
(5)建立C/S模式通过网络中心服务器为广大的教学管理人员、教师、学生提供服务。开发OLAP分析和数据挖掘等高级的应用,为高校教学管理提供决策支持。
3数据集市实例设计
本文以西华师范大学计算机学院为研究对象,利用SQL Server 2000及Analysis Services构造了一个面向院、系、部门的数据集市。
3.1数据集市模型的设计
在决策分析时,需要从多个方面来分析一个主题,这就要求数据集市以多维数据集的方式来组织数据,以简化OLAP分析,提高查询性能。本文采用了雪花模型一将星型模型的维表进行分解,分解成多个具有层次关系的维表,建立多维数据集。分解维表的过程也就是对维表进一步标准化的过程。雪花模型是标准化的维表,粒度较低,增加了应用程序的灵活性,易于实现动态SQL生成,便于以后进行数据挖掘等高级应用(图2)。
3.2建立数据准备区
数据准备区是数据中间存储区,在这里从数据源中析取数据,将数据转换为常用格式,检查一致性和引用完整性,并装人数据集市数据库。使用独立于数据源的数据准备区将原始数据同数据集市数据隔离开,可以提高数据集市的效率,保护数据集市的完整性,并且不影响数据集市执行支持客户端访问等主要功能。本文为数据准备区创建单独的数据库,包含创建数据表、视图、索引,还包含从源数据系统中析取数据的进程,如数据转换服务(DTS)包,以及关系数据库中常用的其它元素。
3.3清理和转换数据
对于构建数据集市或OLAP分析、数据挖掘等高级应用,都需要数据的正确性、一致性、完整性。而现有数据存在很多的问题,如:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值等等。所以数据必须进行清理及格式化,并转换为数据集市架构。本文把数据驻留在数据准备区完成清理和转换,并且验证数据的一致性,将数据转换成常用格式以及合并代理键。在实际转换中很多的数据需要执行手工操作协调数据的不一致或解决二义性文本字段输人项。每次需要手工操作时,要试着确定一种方法来消除在以后的数据转换操作中的手工步骤。这样能够修改源数据系统以消除起因,或者能建立自动化进程将未解决的数据留待以后手工异常处理,从而,大批的数据就可以装人数据集市而不会因手工干预而耽搁。典型的数据转换如:将多个名称字段组合成一个字段;将日期字段划分成单独的年、月、日字段;将数据从一个表示法映射到另一个,如从TRUE到1和F人LSE到0;创建并应用维度表记录的代理键。SQL Server 2000中提供Transact一 SQL查询、DTS包、ActiveX脚本等工具可以有效地协助转换数据。
3.4 OLAP(联机分析处理)
OLAP是实现对数据高效率访问分析的一种技术。它有很多优点,如:直观的多维数据模型使用户很容易就能选择、浏览和研究数据;分析查询为研究复杂的业务数据关系提供了强大功能;对频繁查询的数据预先进行计算,可以非常快地响应特殊查询。数据集市基于多维数据模型,该模型将数据看作数据立方体形式,进行OLAP分析。数据立方体由维和事实定义,允许以多维的形式对数据建模和观察。但是数据立方体由于可视化技术的限制,大多在理论上研究,很少有软件能较好的实现。在Analysis Services使用了多维数据集的概念,代替数据立方体,在表现的形式上采用了嵌套表的形式以利于编程实现。多维数据集仍是把数据组织成多维,每维包含由概念分层定义的多个抽象层,纬度指分析的角度,度量值指分析的对象。利用Analysis Services的多维数据集浏览器,我们可以很方便的实现上卷、下钻、切片和切块、旋转等OLAP操作(图3)。
3.5多维数据集角色定义和权限分配
角色是Analysis Service。保护多维数据集内对象和数据安全的主要方法,它可以在多维数据集的不同粒度级别上定义安全性。基于需要,管理员可以在维度成员级别或数据单元级别上保护数据的安全,利用多维数据集角色定义哪些用户或用户组可以访问和查询多维数据集内的数据,如限制学生只能查阅自己的成绩,不能查阅其他同学的成绩。
3.6元数据的管理
元数据是关于数据属性和数据结构的信息,也指用以界定对象(如多维数据集或维度)设计的信息。有了元数据,用户就可以很快找到所需要数据或确认这些数据是否在数据集市中,从而更有效的利用数据集市。Analysis Services可以自动生成元数据,并通过SQL Server2000 Meta Data Services对其进行管理。
3.7在web上建立OLAP数据透视
向用户提供数据访问能力的Web应用程序,客户端可以使用Web浏览器,而不必安装、配置和维护特殊的应用程序。我们通过FrontPage组件建立直接在web上的应用。“插人/组件/office数据透视表”,通过Microsoft OLE DB Provider for OLAP Services 8 .0可以创建对应于任何ODBC兼容数据源的。LAP数据透视表视图,通过“MS FrontPage:业务分析模式”结合“数据透视表属性工具箱”建立分析模式,用户可以在Web浏览器上,调整字段列表、数据属性、显示格式,以便以最合适分析角度的方式进行分析[’]。
3.8数据的更新
一些数据会不定时的更新,如经费开支,但是这些日常性的变化不需要存人数据集市,我们可以把数据更新的部分存人数据准备区。对于新生人校、学生毕业、的、教师的晋级等,一般每学期末才会,所以,我们的数据集市只需要在每学期末更新和整理一次。
4结论与展望
本文利用SQL Server 2000及Analysis Service建立了面向学院级的数据集市。通过运行,系统较好的解决了学院管理中的许多问题,充分显示出数据仓库管理的灵活、便捷和稳定等特点。这种结合高校特点,通过数据集市集成为数据仓库的方法,最终可以发展成为高校管理决策支持的有力工具。
【浅谈数据集市技术在高校信息管理中的应用】相关文章:
数据挖掘技术在CRM中的应用03-22
数据挖掘技术在企业知识管理中的应用03-19
研究数据融合技术及其在林业中的应用03-18
探析数据融合技术及其在林业中的应用03-18
浅析数据融合技术及其在林业中的应用03-19
浅谈RTK技术在公路测量中应用问题03-19
浅谈CAD技术在工程设计中的应用03-18
浅谈安全技术在电子商务中的应用03-27
谈数据挖掘技术在电子商务中的应用03-21