<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                # 構建生產機器學習基礎設施 > 原文: [https://machinelearningmastery.com/building-a-production-machine-learning-infrastructure/](https://machinelearningmastery.com/building-a-production-machine-learning-infrastructure/) [Midwest.io](http://www.midwest.io/) 于2014年7月14日至15日在堪薩斯城召開。 在會議上,Josh Wills在一個題為“[從實驗室到工廠:構建生產機器學習基礎設施](https://www.youtube.com/watch?v=IgfRdDjLxe0)”的演講中,就如何構建生產機器學習基礎設施進行了討論。 Josh Wills是Cloudera數據科學高級總監,正式參與Google的廣告拍賣系統。 在這篇文章中,您將了解構建生產機器學習基礎架構所需的知識。 &lt;iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/IgfRdDjLxe0?feature=oembed" width="500"&gt;&lt;/iframe&gt; ## 數據科學 Josh稱自己為數據科學家,負責對數據科學家所做的更為切實的描述。最好表達為推文: > Data Scientist(數據科學家):在統計學方面比任何軟件工程師都要好的人,在軟件工程方面比任何統計學家都要好。 > > - Josh Wills(@josh_wills) [2012年5月3日](https://twitter.com/josh_wills/status/198093512149958656) 他說,有兩種類型的數據科學家,第一種是擅長編程的統計學家。第二個是一個聰明的軟件工程師,并參與了有趣的項目。他說他自己就是第二類數據科學家。 ## 學術不是工業機器學習 Josh還將學術機器學習與工業機器學習區分開來。他評論說,學術機器學習基本上是應用數學,特別是應用優化理論,這就是它在學術環境和教科書中的教學方式。 工業機器學習是不同的。 * **系統來自算法**。在學術機器學習中,準確性優先考慮,而不是長時間運行。在工業中,速度越快越好,速度越慢就越合理,這意味著準確性往往會退居二線。 * **目標函數很亂**。學術機器學習就是優化目標功能。不存在清潔的目標函數,并且通常存在許多需要帕累托多目標方法的沖突函數(對其中一個進行改進而不會對其他函數產生負面影響)。 * **一切都在改變**。系統很復雜,沒有人理解所有這些。 * **了解 - 優化權衡**。提出假設,測試和改進系統的過程。理解通常比更好的結果更重要。實驗推動了解。 ## 工業機器學習框架 Josh評論說這是工業機器學習的黃金時代。他說這是因為可用的工具以及正在進行的共享和協作的數量。 他接觸了 [Oryx](https://github.com/cloudera/oryx) ,Cloudera在Apache Hadoop之上使用他們的工業機器學習平臺。 Josh在他們的博客文章“[構建風險機器學習系統](http://nerds.airbnb.com/architecting-machine-learning-system-risk/)”中談到Airbnb分享其工業機器學習系統的細節。他發現airbnb構建一個分析模型離線存儲它作為PMLL文件并上傳它在生產中運行的事實。 Josh還談到了Etsy的工業機器學習系統[猜想](https://github.com/etsy/Conjecture),在博客文章“[猜想:Hadoop中的可伸縮機器學習與燙傷](http://codeascraft.com/2014/06/18/conjecture-scalable-machine-learning-in-hadoop-with-scalding/)”中描述。在他們的系統中,離線準備模型并以JSON格式描述,然后轉換為PHP代碼以在生產中運行。 Josh指出這些系統中的共性是將數據管理為鍵/值對。他還指出,他所謂的“分析模式”離線模型的準備以及那些用于生產或“生產模式”的模型的轉變。 ## 特色工程 Josh說,他目前的熱情是[特色工程](http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/ "Discover Feature Engineering, How to Engineer Features and How to Get Good at It"),這是工業機器學習的黑暗藝術。實際上,他在演講結束時發表了輕率的評論,人們喜歡最喜歡的算法,所使用的算法并不重要,并且所有的辛勤工作都在于特征工程。 Josh說,與生產模式相比,分析模型中數據的使用方式非常低效。 模型的分析準備可以離線訪問星型模式,以匯集所需的所有數據。生產數據只能訪問用戶或觀察。他的問題是如何將在線使用的線路轉換為在線使用而不費力(并且目前沒有使用kludges)。 他說他探索了一種失敗的DSL方法,但發現了數據模型的核心問題。他說,所需要的是根據固定屬性和重復屬性對用戶實體進行建模。用戶實體存儲為非規范化,并且諸如事務和日志(重復屬性)之類的用戶數據存儲在數組中。他以JSON格式給出了一個示例,并將其稱為超新星模式。 [![Supernova Schemas](https://img.kancloud.cn/53/83/53837dff4a1584fda2eaeccdb6767e0c_300x176.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/Supernova-Schemas.png) Supernova Schema 來自Josh Wills 2014年7月在Midwest.io的演講 ## 摘要 這是一個引人入勝的演講,并提醒我們,從像Cloudera,Airbnb和Etsy那樣的大型工業機器學習系統的討論中可以學到很多東西。 您可以在這里完整地觀看演講:“[從實驗室到工廠:構建生產機器學習基礎設施](https://www.youtube.com/watch?v=IgfRdDjLxe0)”。 您可以在 [@josh_wills](https://twitter.com/josh_wills) 的Twitter上關注Josh,并在 [Linkedin](https://www.linkedin.com/pub/josh-wills/0/82b/138) 上查看他的背景。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看