ML 提倡使用 Pipeline,一般翻譯為流水線,以便將多種算法更容易地組合成單個流水線或工作流程。
<br/>
一個 Pipeline 在結構上會包含一個或多個 Stage,每一個 Stage 都會完成一個任務,如數據處理、數據轉化、模型訓練、參數設置,或數據預測等,其中兩個主要的 Stage 為 **Transformer** 和 **Estimator**。
<br/>
**Transformer** 主 要 是 用 來 操 作 一 個 DataFrame 數 據 并 生 成 另 外 一 個DataFrame 數據,比如決策樹模型、一個特征提取工具,都可以抽象為一Transformer。
**Estimator** 則主要是用來做模型擬合,用來生成一個 Transformer。這些 Stage有序組成一個 Pipeline。與 Pipeline 相關的概念有: DataFrame、Transformer、Estimator、Parameter 等。