簡介 · 大數據

[TOC] # 為什么需要工作流調度系統 * 一個完整的數據分析系統通常都是由大量任務單元組成： shell腳本程序，java程序，mapreduce程序、hive腳本等 * 各任務單元之間存在時間先后及前后依賴關系 * 為了很好地組織起這樣的復雜執行計劃，需要一個工作流調度系統來調度執行；例如，我們可能有這樣一個需求，某個業務系統每天產生20G原始數據，我們每天都要對其進行處理，處理步驟如下所示： 1. 通過Hadoop先將原始數據同步到HDFS上； 2. 借助MapReduce計算框架對原始數據進行轉換，生成的數據以分區表的形式存儲到多張Hive表中； 3. 需要對Hive中多個表的數據進行JOIN處理，得到一個明細數據Hive大表； 4. 將明細數據進行復雜的統計分析，得到結果報表信息； 5. 需要將統計分析得到的結果數據同步到業務系統中，供業務調用使用。 # 工作流調度實現方式簡單的任務調度：直接使用linux的crontab來定義；復雜的任務調度：開發調度平臺或使用現成的開源調度系統，比如ooize、azkaban等 # 常見工作流調度系統市面上目前有許多工作流調度器在hadoop領域，常見的工作流調度器有Oozie, Azkaban,Cascading,Hamake等 # 各種調度工具特性對比下面的表格對上述四種hadoop工作流調度器的關鍵特性進行了比較，盡管這些工作流調度器能夠解決的需求場景基本一致，但在設計理念，目標用戶，應用場景等方面還是存在顯著的區別，在做技術選型的時候，可以提供參考 ![](https://box.kancloud.cn/8728971a7a5fbd472e31465bda362310_1171x877.png) # Azkaban與Oozie對比對市面上最流行的兩種調度器，給出以下詳細對比，以供技術選型參考。總體來說，ooize相比azkaban是一個重量級的任務調度系統，功能全面，但配置使用也更復雜。如果可以不在意某些功能的缺失，輕量級調度器azkaban是很不錯的候選對象。詳情如下： * 功能兩者均可以調度mapreduce,pig,java,腳本工作流任務兩者均可以定時執行工作流任務 * 工作流定義 Azkaban使用Properties文件定義工作流 Oozie使用XML文件定義工作流 * 工作流傳參 Azkaban支持直接傳參，例如${input} Oozie支持參數和EL表達式，例如${fs:dirSize(myInputDir)} * 定時執行 Azkaban的定時執行任務是基于時間的 Oozie的定時執行任務基于時間和輸入數據 * 資源管理 Azkaban有較嚴格的權限控制，如用戶對工作流進行讀/寫/執行等操作 Oozie暫無嚴格的權限控制 * 工作流執行 Azkaban有兩種運行模式，分別是solo server mode(executor server和web server部署在同一臺節點)和multi server mode(executor server和web server可以部署在不同節點) Oozie作為工作流服務器運行，支持多用戶和多工作流 * 工作流管理 Azkaban支持瀏覽器以及ajax方式操作工作流 Oozie支持命令行、HTTP REST、Java API、瀏覽器操作工作流 # Azkaban介紹 Azkaban是由Linkedin開源的一個批量工作流任務調度器。用于在一個工作流內以一個特定的順序運行一組工作和流程。Azkaban定義了一種KV文件格式來建立任務之間的依賴關系，并提供一個易于使用的web用戶界面維護和跟蹤你的工作流。它有如下功能特點： * Web用戶界面 * 方便上傳工作流 * 方便設置任務之間的關系 * 調度工作流 * 認證/授權(權限的工作) * 能夠殺死并重新啟動工作流 * 模塊化和可插拔的插件機制 * 項目工作區工作流和任務的日志記錄和審計