<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                # 分布式計算 ## [為何分布式計算?](https://radimrehurek.com/gensim/distributed.html#why-distributed-computing "永久鏈接到這個標題") 需要構建一個語料庫的語義表示,這個語料庫是數百萬個大型文檔并且它將永遠存在?您可以使用幾臺閑置的機器嗎??[分布式計算](https://en.wikipedia.org/wiki/Distributed_computing)試圖通過將給定任務拆分為幾個較小的子任務來加速計算,并將它們并行傳遞到多個計算節點。 在gensim的上下文中,計算節點是由其IP地址/端口標識的計算機,并且通過TCP / IP進行通信。整個可用機器集合稱為*集群*。分布非常粗糙(進行的通信不多),因此允許網絡具有相對較高的延遲。 > 警告 * 使用分布式計算的主要原因是使事情運行得更快。在gensim中,大多數耗時的東西是在NumPy內部的線性代數的低級例程中完成的,與任何gensim代碼無關。?**為NumPy?****安裝快速**?[BLAS(基本線性代數)](https://en.wikipedia.org/wiki/Basic_Linear_Algebra_Subprograms)?**庫可以將性能提高15倍!**因此,在開始購買這些額外的計算機之前,請考慮安裝一個針對您的特定計算機優化的快速線程BLAS(而不是通用的二進制分布式庫)。選項包括供應商的BLAS庫(英特爾的MKL,AMD的ACML,OS X的vecLib,Sun的Sunperf,......)或一些開源替代品(GotoBLAS,ALTAS)。 * 要查看您正在使用的BLAS和LAPACK,請鍵入您的shell: `python -c 'import scipy; scipy.show_config()'` ## [先決條件](https://radimrehurek.com/gensim/distributed.html#prerequisites "永久鏈接到這個標題") 對于節點之間的通信,gensim使用[Pyro(PYthon遠程對象)](https://pypi.python.org/pypi/Pyro4),版本> = 4.27。這是一個用于Python中的低級套接字通信和遠程過程調用(RPC)的庫。Pyro4是一個純Python庫,因此它的安裝非常簡單,只需將* .py文件復制到Python的導入路徑上: `pip install Pyro4` 您不必安裝Pyro來運行gensim,但如果不這樣做,您將無法訪問分布式功能(即,所有內容都將始終以串行模式運行,此頁面上的示例不適用)。 ## [核心概念](https://radimrehurek.com/gensim/distributed.html#core-concepts "永久鏈接到這個標題") 與往常一樣,gensim努力尋求一個清晰明了的API(見[功能](https://radimrehurek.com/gensim/intro.html#design))。為此,*您無需在代碼中進行任何更改*,以便在計算機集群上運行它! 您需要做的是在開始計算之前在每個集群節點上運行一個[工作](https://radimrehurek.com/gensim/distributed.html#term-worker)腳本(見下文)。運行此腳本告訴gensim它可以使用該節點作為從屬程序將某些工作委托給它。在初始化期間,gensim中的算法將嘗試查找并奴役所有可用的工作節點。 * Node 一個邏輯工作單位。可以對應單個物理計算機,但您也可以在一臺計算機上運行多個工作程序,從而生成多個邏輯節點。 * Cluster 通過TCP / IP進行通信的幾個節點。目前,網絡廣播用于發現和連接所有通信節點,因此節點必須位于同一[廣播域內](https://en.wikipedia.org/wiki/Broadcast_domain)。 * Worker 在每個節點上創建的進程。要從群集中刪除節點,只需終止其工作進程。 * Dispatcher 調度員將負責協商所有計算,排隊(“調度”)個人工作給工人。計算永遠不會直接與工作節點“交談”,只能通過此調度程序。與worker不同,集群中一次只能有一個活動調度程序。 ## [可用的分布式算法](https://radimrehurek.com/gensim/distributed.html#available-distributed-algorithms "永久鏈接到這個標題") * [分布式潛在語義分析](https://radimrehurek.com/gensim/dist_lsi.html) * [分布式潛在Dirichlet分配](https://radimrehurek.com/gensim/dist_lda.html)
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看