Sqoop,用來將關系型數據庫和Hadoop中的數據進行相互轉移的工具,可以將一個關系型數據庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中,也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型數據庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapReduce 作業(極其容錯的分布式并行計算)來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。
Oozie是用于Hadoop平臺的一種工作流調度引擎,提供了RESTful API接口來接受用戶的提交請求(提交工作流作業),當提交了workflow后,由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業),然后向Oozie提交Workflow,Oozie以異步方式將作業(MR作業)提交給Hadoop。這也是為什么當調用Oozie 的RESTful接口提交作業之后能立即返回一個JobId的原因,用戶程序不必等待作業執行完成(因為有些大作業可能會執行很久(幾個小時甚至幾天))。Oozie在后臺以異步方式,再將workflow對應的Action提交給hadoop執行。