值得考慮的七大優秀ETL工具
譯文【51CTO.com快譯】如今,各個行業與組織能夠訪問到的數據越來越龐大、且越來越復雜。不過,我們需要對這些海量的信息進行有效的處理和分析,進而發掘出那些隱藏在“噪聲”中的數據洞見。目前,當屬ETL(提取、轉換、加載,三個首字母縮寫)方法最為常見。它是指:我們需要先從諸如數據庫、文件、以及電子表格之類的數據源中提取信息,然后對其進行轉換,以符合數據倉庫的標準,最后將它們加載到集中式的數據倉庫中。
作為數據倉庫分析與轉化的重要組成部分,ETL往往需要依賴合適的工具來實現。目前市場上此類工具可謂林林總總。本文將為您篩選出七大頂級、八大補充ETL軟件工具,在逐一介紹其特點和社區得分的基礎上,最后給出各種適用的場景。
1. Xplenty
作為基于云端的ETL和ELT(提取、加載、轉換)數據的集成平臺,Xplenty可以輕松地組合多個數據源。該平臺提供了一個簡單、直觀的可視化界面,可用于在大量數據源和目標之間建立管道。
目前,Xplenty包裝了上百種流行的數據存儲和SaaS(軟件即服務)應用,其中包括:MongoDB、MySQL、PostgreSQL、Amazon Redshift、Google Cloud Platform、Facebook、Salesforce、Jira、Slack、以及QuickBooks等。
Xplenty的優勢在于:可擴展性、安全性和出色的客戶支持。例如,Xplenty具有一項稱為“字段級加密(Field Level Encryption)”的新功能,可允許用戶使用自己的加密密鑰,對數據字段進行加密或解密。同時,Xplenty也能遵守HIPPA、GDPR和CCPA等法律法規。
目前,在G2網站(譯者注:知名的軟件與服務評價平臺)上有93位評論者為Xplenty給出了4.4顆星(滿分為5顆星),并將其稱為ETL工具領域的“領先者”之一。作為其中的一名評論者,Kerry D.聲稱:“該工具非常實用,它使得代碼的開發與支持變得迅速且高效。”
2. Talend
Talend Data Integration是一個開源的ETL數據集成解決方案。Talend平臺不但能夠與本地和云中的數據源相兼容,而且包括了數百個預構建(pre-built)的集成。
雖然對于一般用戶而言,Talend的開源版本足以夠用,但是較大型的企業用戶則會選用其付費版本的數據管理平臺。畢竟,付費版里包含了用于設計、生產力管理、監空、以及數據治理的各種工具和功能。
Talend在G2上的平均得分為4.0顆星,并在Gartner的《數據集成工具魔力象限》報告中被評為“領先者”。作為其中的一名評論者,Jan L.認為:Talend是一個強大的、具有清晰易用界面的通用數據集成工具。
3. Stitch
Stitch是一個開源的ELT數據集成平臺。與Talend類似,Stitch也提供了付費的服務版本,應用于更高級的用例、以及更多的數據源。有趣的是,Talend于2018年11月收購了Stitch。
Stitch平臺通過提供自助式的ELT和自動化的數據流水線,來簡化流程。鑒于Stitch的ELT工具不會自動執行任意轉換。因此,Stitch團隊建議,轉換一旦被添加到數據倉庫內部,就應在原始數據之上添加各種分層。
G2上的評論者為Stitch給出了諸如高性能之類的正面評價。一位評論者稱贊Stitch為“定價簡單、提供內部工作流、且開源易用”。當然,Stitch也存在著一些小的技術問題,以及缺乏對小眾數據源的支持。
4. Informatica PowerCenter
Informatica PowerCenter是用于ETL任務的成熟、且功能豐富的企業級數據集成平臺。當然,PowerCenter只是Informatica云數據管理工具套件中的一種。
作為企業級、且與數據庫類型無關的解決方案,PowerCenter以其高性能、以及能與許多不同數據源(包括各種SQL和非SQL數據庫)相兼容而著稱。而Informatica PowerCenter的缺點在于:售價過高,且對于小型組織而言,可能由于較難學習與掌握,進而帶來技術障礙。
盡管存在著上述缺點,Informatica PowerCenter還是在G2上斬獲了4.3顆星,同時被譽為數據集成軟件領域的“領先者”。作為其中的一名評論者,Victor C.認為PowerCenter是自己曾用過的、功能最強大的ETL工具。當然,他也抱怨PowerCenter的速度過慢,且無法與Tableau和QlikView等可視化的工具進行很好的集成。
5. Oracle Data Integrator
作為Oracle數據管理生態系統中的一部分,Oracle Data Integrator(ODI)是一個全面的數據集成解決方案。顯然,該平臺是Hyperion Financial Management和Oracle E-Business Suite(EBS)等其他Oracle產品用戶的合適選擇。ODI既具有本地版本,又提供了Oracle數據集成平臺云。
與其他工具不同的是,Oracle Data Integrator只支持ELT任務,而不支持ETL。而用戶對此褒貶不一。同時,由于大部分外圍功能都已經包含在了其他Oracle軟件之中,因此ODI比其他各種工具更為簡單。
目前,Oracle Data Integrator在G2上的平均得分為4.0。作為其中的一名評論者,Christopher T.認為,雖然ODI是眾多選項中最強大的一款工具,但是需要經過必要的培訓,方可上手。
6. Skyvia
Skyvia是一款可用于大數據集成、遷移和備份的云平臺。用戶可以用它來為包括Redshift、BigQuery和Azure在內的數據倉庫,創建數據管道。Skyvia的最大亮點是:它通過提供無代碼式的數據集成向導,以方便新、老ETL用戶使用。
Skyvia在G2的用戶群中備受歡迎,其評分為4.8。作為其中的一名評論者,David K.認為:即便知識有限,他們仍然可以使用由Skyvia提供的直觀且靈活的連接工具,在多渠道零售業務中同步庫存。
當然,在使用Skyvia作為ETL工具之前,請事先注意如下三個方面:
- Skyvia主要專注于ETL的提取和加載階段,其轉換功能比較有限。
- 與其他ETL工具相比,Skyvia提供的集成和連接器數量較少。
- 有用戶抱怨在遇到技術問題時,其客戶支持在效率上存在問題。
7. Fivetran
作為基于云端的ETL解決方案,Fivetran支持與Redshift、BigQuery、Azure和Snowflake等數據倉庫的數據集成。Fivetran的最大優勢在于提供了豐富的數據源陣列,其中包括約90種SaaS源,以及添加用戶自定義集成的能力。
目前,Fivetran在G2上斬獲了4.2星。許多用戶對其簡單性和易用性贊許有加。作為其中的一名評論者,Daniel H.認為:Fivetran可以提供快速、可靠的文檔連接,并能夠直接連接到新的連接器上。
當然,針對Fivetran從連接器的數量更改為基于消費的嶄新定價模式,有用戶提出了異議。同時,也有少數用戶在技術和客戶支持方面遇到過問題。他們認為:Fivetran是一個黑匣子,當出現問題時,不但很難自行診斷,而且難以獲取熱線支持。
其他值得參考的8種ETL工具
8. Striim
Striim為大數據任務提供了一個實時的數據集成平臺。用戶能夠以約20多種不同的文件格式,集成各種數據源與目標,其中包括Oracle、SQL Server、MySQL、PostgreSQL、MongoDB和Hadoop。由于Striim符合GDPR和HIPAA等數據隱私法規,因此用戶可以使用SQL或Java定義預加載式的轉換。
Striim平臺主要缺點是:它無法包含任何SaaS源或目標,也不允許用戶添加新的數據源。此外,Striim的用戶群并不大,目前G2上只有1條評論。
9. Matillion
作為一個云端的ETL平臺,Matillion可以將數據與Redshift、Snowflake、BigQuery和Azure Synapse相集成。用戶可以通過界面上的簡單點擊或在SQL中的定義,在Matillion中創建數據轉換。
與Striim類似,與前面討論的其他工具相比,Matillion僅支持約40種SaaS數據源。雖然它在G2處獲得了4.2顆星,它的基于虛擬機的時間,而非實際工作量、或正在使用的計算資源的定價模式,讓部分評論者們表示不認可。
10. Pentaho
由Hitachi Vantara提供的Pentaho(也稱為Kettle)是一種可被用于數據集成和分析的開源平臺。用戶既可以選擇Pentaho的免費社區版本,又可以購買其企業版的商用許可證。與Xplenty類似,Pentaho具有易用的界面,即使是ETL的新手,也可以使用它來構建穩定的數據管道。當然,Pentaho也存在著諸如:模板和技術有限等缺點。
目前,Pentaho在G2上的平均得分為4.3顆星。不過,有用戶抱怨:由于在日志記錄中缺乏針對錯誤的詳細注釋,因此他們很難識別錯誤的真正原因。
11. AWS Glue
可用于大數據分析任務的AWS Glue,是由Amazon Web Services提供的完全托管式的ETL服務。作為一種端到端的ETL產品,AWS Glue不但減輕了ETL的工作負載,而且能夠與AWS生態系統中的其余部分,進行良好的集成。
值得注意的是,AWS Glue是無服務器的。這意味著Amazon會自動為用戶配置服務器,并在工作負載完成后將其關閉。AWS Glue通過提供作業調度、以及開發者端點(developer endpoints)等功能,方便易用地測試各種AWS Glue腳本。
目前,AWS Glue不但在G2平臺上獲得了3.9顆星,而且在X2上被評為ETL工具領域的“領先者”(類似Xplenty)。我們未將其列為前面7大頂級ETL工具的原因在于,它不如其他工具靈活,并且通常更適合那些已經處于AWS生態系統內的用戶。
12. Panoply
作為一個自動化的自助式云端數據倉庫,Panoply旨在簡化數據集成的過程。那些標準的ODBC/JDBC連接、Postgres連接、以及AWS Redshift連接的等數據連接器,都可以與Panoply兼容。此外,用戶也可以將Panoply與前面提到的Stitch和Fivetran等ETL工具相連接,以進一步擴展其數據集成的工作流。
在G2上,Panoply已獲得了4.4顆星。作為一名評論者,Stacie B認為:Panoply的最大優點是能夠輕松地從多個來源導入數據,并能快速地設置程序,與實現數據的加載。
Panoply未被入選七大頂級ETL工具的理由在于:Panoply既是數據倉庫,又是ETL解決方案。因此,如果您已經正在使用其他類型的云端數據倉庫,并且不打算進行更換的話,則沒有必要選用Panoply。
13. Alooma
作為一種云端數據倉庫的ETL數據遷移工具,Alooma的主要賣點在于,它自動化了大部分數據管道,以方便用戶去關注技術細節,而非結果。
2019年2月,谷歌收購了Alooma,并將其注冊僅限于Google Cloud Platform的用戶。這意味著任何使用其他數據倉庫(如Redshift或Snowflake)的客戶,都將無法使用該工具。
盡管如此,Alooma在G2上仍收獲了4.0顆星的好評。其中的一名評論者認為:雖然Alooma通過其代碼引擎功能提供了各種靈活性,但是其某些關鍵性的工具棧服務尚未成熟。
14. Hevo Data
作為一個ETL數據集成平臺,Hevo Data具有上百種預構建的連接器,可用于連接諸如Redshift、BigQuery和Snowflake等各種數據庫,云端存儲和SaaS源。用戶可以使用Python在Hevo Data中自定義預加載的轉換。
Hevo的最大局限性在于,它無法添加自己的數據源,以建立新的連接。此外,Hevo Data的用戶群較小,目前在G2上只有6條評論。
15. FlyData
作為一個實時數據復制平臺,FlyData的最大優勢在于:它僅與Amazon Redshift數據倉庫相兼容。也就是說,如果您是Redshift的“骨灰級用戶”,那么可以直接使用這款為Redshift量身定制的工具。不過,如果您正在使用其他的數據倉庫方案,或者想要保持靈活性,并避免被供應商鎖定的風險,那么FlyData就不太適合了。此外,FlyData僅適用于諸如Amazon RDS、Amazon Aurora、MySQL、Percona、PostgreSQL和MariaDB等,少數數據源(其中并無SaaS平臺)。
優秀ETL工具的用例
由上可見,沒有兩款ETL軟件工具是完全相同的,它們各有自己的優、缺點。為了讓您能夠為自己的業務需求,找到最佳的ETL工具,下面我們來討論每種工具最適合的應用場景。您可以據此進行綜合評估與選用。
- Xplenty:適用于日常處理ETL和(或)ELT的任務需求,滿足非技術人員直觀的拖放界面,以及那些需要多種預構建的集成、且重視數據安全性的項目。
- Talend:適用于偏好開源解決方案的公司,以及需要多種預構建集成的項目。
- Stitch:適用于那些偏好開源的方案,簡單的ELT流程,但不想進行復雜轉換的用戶。
- Informatica PowerCenter:適用于具有大量預算,且對性能要求苛刻的大型企業。
- Oracle Data Integrator:適用于現有的Oracle客戶,以及需要處理ELT任務的公司。
- Skyvia:適用于采用無代碼解決方案,且不需要執行大量轉換的項目。
- Fivetran:適用于需要各種預構建集成,以及通過多個數據倉庫來滿足靈活性的用戶。
- Striim:適用于需要遵守GDPR或HIPAA,且不需添加新的數據源(尤其是SaaS)的項目。
- Matillion:適用于希望使用簡單的點擊界面,以及有限數據源的公司。
- Pentaho:適用于采用了開源ETL工具的項目。
- AWS Glue:適用于現有的AWS用戶,以及需要完全托管式ETL方案的公司。
- Panoply:適用于需要結合使用ETL和數據倉庫方案的項目。
- Alooma:適用于現有的Google Cloud Platform用戶。
- Hevo Data:適用于需要將Python添加到自己的數據轉換任務中,但不需要添加新的數據源的項目。
- FlyData:適用于只需要使用Redshift作為數據倉庫的公司。
如您所見,在為自己的團隊確定最佳ETL軟件工具時,您需要了解項目的特點和使用場景,通過試用與研究,方能發現最佳選擇。
原文標題:Top 7 ETL Tools for 2021,作者: Abe Dearmer
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】