<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                合規國際互聯網加速 OSASE為企業客戶提供高速穩定SD-WAN國際加速解決方案。 廣告
                # 項目焦點:使用 Mahout 和 Konstantin Slisenko 進行堆棧交換群集 > 原文: [https://machinelearningmastery.com/project-spotlight-stack-exchange-clustering-using-mahout-with-konstantin-slisenko/](https://machinelearningmastery.com/project-spotlight-stack-exchange-clustering-using-mahout-with-konstantin-slisenko/) 這是一個項目焦點,Konstantin Slisenko 是程序員和機器學習愛好者。 ## 你能介紹一下自己嗎? 我的名字是 Konstantin Slisenko,我來自[白俄羅斯](http://en.wikipedia.org/wiki/Belarus)。我畢業于[白俄羅斯國立信息學和無線電電子學](http://www.bsuir.by/index.jsp?lang=en)。我目前正在修讀碩士課程。 [![Konstantin Slisenko](img/f56c3ffce7e1d763cbc059c83b5c3365.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/konstantin-slisenko.png) Konstantin Slisenko 我是一名 Java 開發人員,在 JazzTeam 公司工作。我喜歡學習新技術。我目前對大數據和機器學習很感興趣。我喜歡參加會議,結識新的有趣的人。我也喜歡旅行和騎自行車。 ## 你的項目叫什么,它做了什么? 我的項目是 [stackoverflow.com](http://stackoverflow.com/) 網站的數據集群。 目標是對 stackoverflow 問題和答案進行分組。分組后,您可以看到堆棧溢出數據的常見圖片以及問題之間的關系。如果您想進行市場調查或撰寫有關特定問題的文章(或活動手冊),這可能會有所幫助。 [![Stackexchange clustering using Mahout Tags](img/82e009380c84081b07654cb0038a03a1.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/Stackexchange-clustering-using-Mahout-tags.png) 使用 Mahout 標記進行 Stackexchange 聚類 我有改進的想法,例如標記“熱門”主題,考慮用戶評級等,以便將更多數據添加到公共圖片中。我也在考慮訓練分類器。當我們獲得更新數據并希望將此更新放入系統時,這可能會有所幫助。 ## 你是怎么開始的? 首先,我對 [Apache Hadoop](http://hadoop.apache.org/) 產生了興趣。在我制作了一些 Hadoop 程序之后,我開始研究它的基礎架構并了解 [Apache Mahout](https://mahout.apache.org/) 。 我開始深入研究并應用一些示例:準備數據,運行算法,查看輸出。有一天,我發現了 [Frank Scholten](https://github.com/frankscholten) 關于 stackoverflow 聚類的資料。你可以[觀看他](http://vimeo.com/43903965)的有趣演示。 [Mahout in Action](http://www.amazon.com/dp/1935182684?tag=inspiredalgor-20) 也提到了這個話題。 我現在使用 Frank 的代碼作為基礎并應用我自己的改進和調整。數據處理包括以下步驟: 1. Stackexchange 源數據采用 XML 格式。 Hadoop 作業用于提取文本。 2. 然后我使用自定義 Lucene 分析器處理文本數據:刪除停用詞,應用 Porter Steamer 等。 3. 然后我使用 TF-IDF Mahout 實用程序對文本進行向量化。 4. 對于聚類,我現在使用 Mahout 的 K-Means 算法,但我想在將來嘗試其他算法。 5. 在此之后,我將結果存儲在面向圖形的數據庫 Neo4j 中,并使用 HTML 和 JavaScript 對它們進行可視化。 所有可視化都可以在這里找到:[使用 Mahout](http://clustering.slisenko.net:8080/stackexchange-web) 進行 Stackexchange 聚類。 ## 你做了哪些有趣的發現? 群集質量取決于您執行數據準備的方式。在此步驟中,您必須非常注意應刪除的停用詞。 [![Stack Exchange Clustering using Mahout by Konstantin Slisenko](img/bea95becffcd97609771221e9ba400ef.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/Stack-Exchange-Clustering-using-Mahout.png) 使用 Konstantin Slisenko 的 Mahout 堆棧交換群集 [K-Means 聚類](http://en.wikipedia.org/wiki/K-means_clustering)算法要求您設置聚類 K 的初始數量。我想動態地進行 K 計算。出于這個原因,我打算找到另一種算法。 ## 你想在項目上做什么? * 使用發布日期來確定現在“熱門”的主題。 * 嘗試其他一些聚類算法,并動態計算簇數。 * 基于集群數據構建分類器。 * 應用更多不同的可視化。 * 應用群集評估來說明哪些群集“好”哪些群集“壞”。 * 對群集數據應用一些索引搜索。 * 我正在考慮 Apache Mahout 貢獻 - 提供可視化集群數據的實用程序。 ## 學到更多 * 項目:[使用 Mahout 進行 Stackexchange 聚類](http://clustering.slisenko.net:8080/stackexchange-web) * [GitHub 上的項目源代碼](https://github.com/kslisenko/big-data-research/tree/master/Developments/stackexchange-analyses) * [康斯坦丁在 Google+](https://plus.google.com/104628548674452019199) 上分享了機器學習和大數據資源的有趣鏈接 * [康斯坦丁的博客](http://www.slisenko.net/) 感謝康斯坦丁。 **你有機器學習方面的項目嗎?** 如果你有一個有趣的機器學習方項目并且有興趣像康斯坦丁一樣被描述,請[聯系我](http://machinelearningmastery.com/contact/ "Contact")。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看