大数据整合平台是一套etl(extract-transform-load)工具,能够实现将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,帮助教师与学生更高效、简便地将数据从业务系统迁移到数据分析数据库,并实现对数据的清洗、修改、计算、集成等处理,培养学生掌握数据迁移、整合的技能,达到与企业需求一致的效果。
大数据整合平台采用b/s架构,基于j2ee、web services、internet等技术,具有很强的跨平台性,部署简便,维护简单,容易使用。支持数据管理、运维视图、接口管理、调度管理、系统管理等功能。在实施过程中进行开发过程的规范化、代码自动化、代码和质量可控化、调度管理统一化、监控可视化。也可与第三方etl工具(如datastage)实现互补,增强其开发过程自动化、统一调度、全局监控等功能。
大数据整合平台采用图形化的操作界面,具有良好的易用性。支持oracle、sql server所有数据类型、字段级的操作、记录级的操作、表级的操作、视图级的操作、支持触发器、时间戳等增量抽取方式、对源数据库中存储过程的远程调用、按照调度方式实现数据同步(同步周期最小为秒级)、支持通用接口,如odbc或数据库本地接口等。
(1) 大数据整合平台特点
a. 图形化界面:主要采用拖拽操作方式,并通过流程化的方式将各部分组件连接起来,便于学习、规范数据整合流程。
b. 数据转换过程灵活:除了选择、过滤、分组、连接、排序这些常用的功能外,还有灵活且强大的java表达式、正则表达式、java脚本、java类等功能。
c. 支持多种数据源类型:一方面,支持关系型数据库、hbase、mongodb等类型的nosql数据源;另一方面,支持excel、access等小型的数据源。
d. 系统兼容性强:可在window、linux、unix多种系统运行,并保证数据抽取高效稳定。
e. 可拓展性强:在不修改程序主体(或者程序运行平台)的情况下对软件功能进行扩展与加强,满足多方面需求。
(2) 大数据整合平台功能
a. 数据管理:主要定时采集数据,或者手工触发获取采集数据;远程服务器的主动推送文件;断点续传和数据完整性校验等。主要功能有数据采集、数据分发、数据抽取、数据清洗、数据转换、数据装载等。
b. 运维视图:针对在视图配置管理模块中已配置的报表运算流程,结合运算引擎产生的过程日志,在本模块通过可视化的流程图,来监控业务流程处理情况。主要功能有报表视图管理、数据采集分发管理、etl视图管理、接口热点视图管理等。
c. 接口管理:标准规范的数据访问接口,拥有接口访问权限的第三方业务系统可以通过本接口,使用数据查询服务来访问数据中心内的报表。主要接口模块有数据访问web service接口、数据访问socket接口、数据访问http接口、数据导出http界面接口、访问验证服务、资源访问控制、数据查询服务等。
d. 调度管理:负责对数据整合的具体作业进行统一管理与调度。主要功能有作业定义、作业预处理、作业命令发送、作业命令接受、作业唤起等。