<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                # 處理機器學習的大數據文件的7種方法 > 原文: [https://machinelearningmastery.com/large-data-files-machine-learning/](https://machinelearningmastery.com/large-data-files-machine-learning/) 將機器學習算法探索并應用于太大而無法放入內存的數據集非常常見。 這導致了以下問題: * 如何加載我的多千兆字節數據文件? * 我嘗試運行數據集時算法崩潰;我該怎么辦? * 你能幫我解決內存不足錯誤嗎? 在這篇文章中,我想提供一些您可能想要考慮的常見建議。 ![7 Ways to Handle Large Data Files for Machine Learning](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2017/05/7-Ways-to-Handle-Large-Data-Files-for-Machine-Learning.jpg) 處理機器學習的大數據文件的7種方法 [Gareth Thompson](https://www.flickr.com/photos/evo_gt/12267202894/) 的照片,保留一些權利。 ## 1.分配更多記憶 某些機器學習工具或庫可能受默認內存配置的限制。 檢查是否可以重新配置工具或庫以分配更多內存。 一個很好的例子是Weka,你可以[在啟動應用程序時將內存作為參數](https://weka.wikispaces.com/OutOfMemoryException)增加。 ## 2.使用較小的樣本 您確定需要處理所有數據嗎? 隨機抽取一些數據,例如前1000行或100,000行。在為所有數據擬合最終模型之前,使用此較小的示例來解決您的問題(使用漸進式數據加載技術)。 我認為這對于機器學習來說是一種很好的做法,可以讓您快速抽查算法和結果。 您還可以考慮對用于擬合一種算法的數據量進行靈敏度分析,與模型技能進行比較。也許有一個自然的收益遞減點,您可以將其用作較小樣本的啟發式大小。 ## 3.使用具有更多內存的計算機 你必須在你的電腦上工作嗎? 也許你可以訪問更大的計算機,內存更多。 例如,一個好的選擇是在像Amazon Web Services這樣的云服務上租用計算時間,該服務為機器提供數十GB的RAM,每小時不到一美元。 我發現這種方法在過去非常有用。 看帖子: * [如何使用亞馬遜網絡服務上的Keras開發和評估大型深度學習模型](http://machinelearningmastery.com/develop-evaluate-large-deep-learning-models-keras-amazon-web-services/) ## 4.更改數據格式 您的數據是否以原始ASCII文本存儲,如CSV文件? 也許您可以通過使用其他數據格式來加速數據加載并減少使用內存。一個很好的例子是像GRIB,NetCDF或HDF這樣的二進制格式。 有許多命令行工具可用于將一種數據格式轉換為另一種不需要將整個數據集加載到內存中的數據格式。 使用其他格式可以允許您以更緊湊的形式存儲數據,以節省內存,例如2字節整數或4字節浮點數。 ## 5.流數據或使用漸進式加載 是否所有數據都需要同時存在于內存中? 也許您可以使用代碼或庫來根據需要將數據流或逐步加載到內存中進行訓練。 這可能需要可以使用諸如隨機梯度下降之類的優化技術迭代地學習的算法,而不是需要存儲器中的所有數據來執行矩陣運算的算法,諸如線性和邏輯回歸的一些實現。 例如,Keras深度學習庫提供此功能以逐步加載圖像文件,稱為 [flow_from_directory](https://keras.io/preprocessing/image/) 。 另一個例子是Pandas庫,它可以[以塊](http://pandas.pydata.org/pandas-docs/stable/io.html#iterating-through-files-chunk-by-chunk)加載大型CSV文件。 ## 6.使用關系數據庫 關系數據庫提供了存儲和訪問非常大的數據集的標準方法。 在內部,存儲在磁盤上的數據可以批量逐步加載,并且可以使用標準查詢語言(SQL)進行查詢。 可以使用免費的開源數據庫工具,如 [MySQL](https://www.mysql.com/) 或 [Postgres](https://www.postgresql.org/) ,大多數(全部?)編程語言和許多機器學習工具可以直接連接到關系數據庫。您也可以使用輕量級方法,例如 [SQLite](https://www.sqlite.org/) 。 我發現這種方法在過去對非常大的表格數據集非常有效。 同樣,您可能需要使用可以處理迭代學習的算法。 ## 7.使用大數據平臺 在某些情況下,您可能需要求助于大數據平臺。 也就是說,一個專為處理非常大的數據集而設計的平臺,允許您在其上使用數據轉換和機器學習算法。 兩個很好的例子是帶有 [Mahout](http://mahout.apache.org/) 機器學習庫的Hadoop和帶有 [MLLib](http://spark.apache.org/mllib/) 庫的Spark。 我相信,如果您已經用盡上述選項,這是最后的選擇,只是因為這會給您的機器學習項目帶來額外的硬件和軟件復雜性。 然而,存在數據非常大且以前的選項不會削減數據的問題。 ## 摘要 在這篇文章中,您發現了一些在處理機器學習的大型數據文件時可以使用的策略。 您是否知道或嘗試過其他方法? 在下面的評論中分享。 你嘗試過這些方法嗎? 請在評論中告訴我。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看