北京久其金建科技有限公司
当前位置:
久其金建ETL数据抽取与整合技术白皮书
    发布时间: 2017-07-02 21:26    

1. 概述
数据抽取、转换和加载(Extraction-Transformation-Loading),是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。久其ETL数据集成工具是一套对异构数据源进行提取、转化、清洗和加载的数据集成工具。

1.概述
  数据抽取、转换和加载(Extraction-Transformation-Loading),是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。久其ETL数据集成工具是一套对异构数据源进行提取、转化、清洗和加载的数据集成工具。

ETL与数据仓库关系示意图
2.数据集成与ETL过程自动化
  数据集成是把不同来源、格式、特点性质的数据通过ETL过程在物理上有机的整合进行集中性存放,形成规范的数据存储。
  在数据集成的过程中,整个流程被切分成许许多多的处理任务:
  (1)数据抽取:将数据从业务系统中抽取出来
  (2)数据转化/清洗:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。
  (3)数据质量检查:对来源数据和清洗后的数据进行检查,保证加载后的数据的一致性和正确性。
  (4)数据加载:将清洗后的数据加载到数据仓库中。
  而在ETL过程中,还需要对过程进行自动化。一个完整的ETL过程自动化是指对数据从数据源到数据目的的各个处理任务(如抽取、转换、清洗、异常处理、加载等任务)的运行进行有条不紊的组织,使其自动运行下去的一个闭合的处理逻辑。
图2数据集成与ETL过程自动化示意图
  久其ETL将数据集成流程模型分为数据流和控制流两个部分。
  数据流是将数据流组件组合的一套按照一定逻辑组成的从源到目标的完整的数据处理过程,数据流的执行过程改变了数据流的内容和形式。
  控制流可以被认为是一个简单的工作流模型,由若干个任务构成,这些任务存在依赖和先后关系。目前支持顺序,条件,循环三种逻辑。控制流是将这些任务组织在一起的粘合剂,其本身并不改变数据的内容。任务之间通过转移确定先后关系,并且在转移上设定条件来达到调度整个流程的目的。
  数据流除了本身可以独立运行处理数据外,还可以作为一个任务在控制流中进行调度。
3.主要功能
  3.1设计一个ETL数据流
  一个基本的数据流,至少应该包括一个输入适配器和一个输出适配器。输入适配器与输出适配器通过数据连接与外部的数据源进行关联。目前久其ETL数据集成工具支持的数据连接主要包括:
  数据库连接----支持所有主流关系型数据库,并可通过代理模式访问不同网络数据
  CI数据连接----久其CI是久其经典的网络版报表管理软件。通过CI数据连接使ETL与CI报表软件进行交互
  BI数据连接----与久其BI商务智能软件进行交互
  EFDC数据连接----是久其提供的面向主流财务核算软件的财务数据提取组件
  文本数据连接----支持各种平面文本文件
  SMTP数据连接----支持邮件系统,是ETL与邮件服务器进行交互
  文件数据连接----支持除平面文本文件之外的其他多种文件扩展
  FTP服务器连接----用于ETL与FTP服务器进行文件传输
  SAP BW服务器连接   支持与SAP BW接口的服务器进行连接
  3.2给数据流增加复杂转换规则
  在ETL过程中,数据绝不是简单的从源直接流向目标,而是需要通过一些复杂的转换规则,最终将清洗后的数据加载到目标中去。
  3.3监控数据流中的数据质量
  在进行ETL的过程中,需要对数据的提取、转换和加载的数据质量进行监控以保证入库的数据的一致性和准确性。利用久其ETL数据集成工具中的数据校验任务,配合相应的控制文件,可以方便的对源数据进行监控。
  3.4输出错误日志及错误重定向
  在ETL过程中,可能存在物理硬件方面,网络,操作系统,程序以及数据本身上的问题,导致数据加载不能成功完成,系统提供了完备的日志管理功能,方便用户进行查看和处理。
  3.5将数据流作为独立作业放入控制流调度
  在实际的BI项目实施中,需要将许多数据流和其他一些任务协调配合起来才能够实现整个数据的抽取整合和加载。这些都可以在ETL中作为一 个任务在控制流中进行调度。同时,数据流本身也可以作为一个单独的任务在控制流中进行调度。
  3.6 ETL自动化与数据质量保证
  ETL自动化与数据质量保证的全过程包括了源数据的校验、数据抽取到ODS、ODS数据的完整性校验、ODS数据的入库以及数据质量报告的生成。通过ETL控制流与数据流,结合ETL自动调度功能,将数据的抽取转换和数据的质量保证结合起来。
  3.7数据接口中心
  通过提供的ETL通用接口,可以将ETL服务作为数据接口中心,开放提供给第三方厂商。对接收到的异构数据进行清洗、转换后最终加载到本地服务的数据仓库中,实现第三方厂商与本地服务的数据互通。除此之外,实施人员还可以对接口进行授权的分配以及接口的启用/禁用设置,用于对第三方厂商访问接口的控制。
4.产品特色
  (1)界面易学易用,执行引擎效率高,流程定制所见所得:One-step配置界面实现常用的数据的抽取、转换、质量检查和加载全过程一步到位;内嵌久其工作流引擎,支持分支,合并,流转,状态转移等工作流的基本特征
  (2)多数据源和目标支持:支持数据库、文本、Hadoop集群及其他业务系统在内的多种数据源和数据目标
  (3)丰富的数据转换清洗适配器:内置了多种数据流适配器如表关联适配器、过滤适配器、计算字段适配器等,可以处理大部分的数据操作。对于复杂场景,还提供了API扩展接口
  (4)内置强大的公式引擎:内置六大类近百个函数支持,包括字符串操作、数值运算、日期计算、数据容错、模糊匹配、二进制处理等操作
  (5)通过自定义脚本及命令行扩展系统功能:支持Javascript脚本语言或操作系统命令行来扩展对数据的处理,如发送邮件
  (6)结构化的异常处理机制
  (7)强大的流程调度支持:支持定时触发、依赖触发、状态触发和文件触发等各种调度模式
  (8)与久其其他产品平台的整合:内置久其其他产品的数据适配器,方便与久其产品整合集成
  (9)跨防火墙数据提取:内置可穿透防火墙的数据传输工具
  (10)Hadoop集群支持:支持与Hadoop集群交换数据,也可以调度久其基于Hadoop数据处理的“易平台”的数据处理任务
5.运行环境
  服务端运行环境:支持Windows、Unix、Linux等操作系统,支持Tomcat、Weblogic、WebSphere、JBoss等中间件部署,支持ORACLE,SQLSERVER等多种数据库。Java虚拟机要求使用1.5以上。客户机浏览器支持IE6.0以上。
  客户端运行环境:支持Windows等多种操作系统。Java虚拟机要求使用1.5以上。