常用ETL工具对比
目前市场上主流的ETL工具有,IBM公司的DataStage大数据etl工具有哪些、Informatica公司的Powercenter、免费ETL工具Kettle等等。
1、Datastage
DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。他的优点如下:
具有多种数据源的连接能力,包括目前市场上的大部分主流数据库,并且具有优秀的文本文件和XML文件读取和处理能力。
特点
使用场景或者益处
说明
软件安装和升级
软件安装和升级的便捷程度
图形安装,安装步骤较为复杂
处理性能
数据的加工效率
并行运行能力,ETL Job的控件大多数都支持并行运行,此外DataStage企业版还可以在多台装有DataStage Server的机器上并行执行,这也是传统的手工编码方式难以做到的。这样,DataStage就可以充分利用硬件资源。而且,当你的硬件资源升级的时候也不用修改已经开发好的ETL Job,只需要修改一个描述硬件资源的文件即可。并行执行能力是DataStage所能处理数据的速度可以得到趋近于线性的扩展,轻松处理大量数据。
元数据管理
与业务系统的集成
元数据信息不公开
抽取的容错性
错误还原和断点功能
没有真正的RECOVERY机制
操作便捷性
开发和运维的便捷性
全图化开发,无编码
健壮的安全性
用户权限管理体系
只提供两个角:Developer和Operator
语言支持
多种字符集支持
datastage几乎支持目前所有的编码格式
2、Informatica
Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter包括4个不同版本,即:标准版,实时版,高级版,云计算版。同时,它还提供了多个可选的组件,以扩展Informatica PowerCenter的核心数据集成功能,这些组件包括:数据清洗和匹配、数据屏蔽、数据验证、Teradata双负载、企业网格、元数据交换、下推优化(Pushdown Optimization)、团队开发和非结构化数据等。
特点
使用场景或者益处
说明
软件安装和升级
软件安装和升级的便捷程度
完全图形化安装,无需额外安装平台软件,且不需修改系统内核参数
处理性能
数据的加工效率
可并行运行多个Session提高性能
可使用分区写目标数据,速度大大提高
可建立多个PowerCenter Server, 并发运行多个Session和workflow,这样充分地利用多CPU和系统资源
结合streaming和文件交换区的技术,优化地利用硬盘和内存的资源
Session支持多线程和管道技术(piepline)
元数据管理
与业务系统的集成
元数据资料库可基于所有主流系统平台的关系型数据库(Oracle、DB2、teradata、Informix、Sql server等)产品均支持多CPU的各主流系统平台,以适应不同客户的特定需求
抽取的容错性
错误还原和断电功能
抽取出错的恢复(RECOVERY),可实现断点续传的功能
操作便捷性
开发和运维的便捷性
全图化开发,无编码,操作性,被TDWI连续七年评为“数据仓库最佳实践”奖
健壮的安全性
用户权限管理体系
多范围的用户角和操作权限(只读、操作和设计等)
权限可以分到用户或组
使用细致的锁(Lock)
语言支持
多种字符集支持
支持编码格式十分丰富
3、Kettle
Kettle是一款国外开源的etl工具,纯java编写,可以在Window、Linux、Unix上运行,绿无需安装,数据抽取高效稳定,提供丰富的sdk,并开放源代码,便于二次开发包装。
特点
使用场景或者益处
说明
软件安装和升级
软件安装和升级的便捷程度
绿安装,直接使用
处理性能
数据的加工效率
使用JDBC,性能与Datastage、Informatica相比要差很多,适合于数据量较小的ETL加工使用
元数据管理
与业务系统的集成
无元数据管理
抽取的容错性
错误还原和断电功能
无RECOVERY功能
操作便捷性
开发和运维的便捷性
全图化开发,无编码,操作简单
健壮的安全性
用户权限管理体系
简单的用户管理功能
语言支持
多种字符集支持
支持常见的编码格式