<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                # Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因 > 原文: [http://highscalability.com/blog/2007/11/19/tailrank-architecture-learn-how-to-track-memes-across-the-en.html](http://highscalability.com/blog/2007/11/19/tailrank-architecture-learn-how-to-track-memes-across-the-en.html) 是否曾經覺得 Blogsphere 擁有 5 億個頻道卻沒有任何信息? Tailrank 通過每小時索引超過 2400 萬個 Web 日志和源來查找互聯網上最熱門的頻道。 這是每月 52TB 的原始博客內容(不浪費),并且需要連續處理 160Mbit 的 IO。 他們是如何做到的? 這是 Tailrank.com 創始人兼首席執行官 Kevin Burton 的電子郵件采訪。 凱文(Kevin)好心地花時間解釋了他們如何擴展索引整個博客圈。 ## 網站 * [Tailrank](http://tailrank.com/) -我們跟蹤博客圈中最熱門的新聞!* [Spinn3r](http://spinn3r.com/) -您可以用自己的行為來專門研究博客蜘蛛,而不用創建自己的行為。* [凱文·伯頓(Kevin Burton)的博客](http://feedblog.org)-他的博客結合了政治和技術話題。 兩者總是很有趣。 ## 平臺 * 的 MySQL* 爪哇* Linux(Debian)* 阿帕奇* 烏賊* PowerDNS* 存儲。* 聯合數據庫。* ServerBeach 托管。* 用于工作分配的工作計劃系統。 ## 面試 * **您的系統是干什么的?** Tailrank 最初是一個 memetracker,用于跟蹤博客圈中正在討論的最熱門新聞。 我們開始收到大量要求許可我們的爬蟲的請求,大約 8 個月前,我們以 Spinn3r 的形式發貨了。 Spinn3r 是自包含的搜尋器,適用于希望索引完整徽標和消費者生成的媒體的公司。 與 Spinn3r 相比,Tailrank 仍然是一個非常重要的產品,我們正在開發 Tailrank 3.0,該產品應在將來推出。 目前沒有 ETA,但正在積極研究中。 * **您的系統面臨哪些特定的設計/架構/實施挑戰?** 我們面臨的最大挑戰是,我們必須處理和保持分布式系統中的數據一致的龐大數據量。 例如,我們每月處理 52TB 的內容。 必須在高度可用的存儲體系結構中對其進行索引,以便出現正常的分布式數據庫問題。 * **您是如何應對這些挑戰的?** 我們花了很多時間來構建可以擴展和處理故障的分布式系統。 例如,我們構建了一個名為 Task / Queue 的工具,該工具類似于 Google 的 MapReduce。 它具有集中式隊列服務器,可將工作單元交給發出請求的機器人。 它對于爬蟲非常有效,因為速度較慢的機器以較低的速度獲取工作,而更現代的機器(或性能更好的機器)要求以較高的速度工作。 這樣可以輕松解決網絡異構的??主要分布式計算謬論之一。 任務/隊列足夠通用,我們可以實際使用它在系統頂部實現 MapReduce。 我們可能會在某個時候將其開源。 現在它有太多觸角纏繞在我們系統的其他部分中。 * **您的系統多大?** 我們每小時索引 2400 萬個 Weblog 和提要,并以大約 160-200Mbps 的速度處理內容。 在原始級別上,我們以大約 10-15MBps 的速度連續寫入磁盤。 * **您提供多少份文件? 多少張圖片? 多少數據?** 現在數據庫大約是 500G。 我們預計隨著我們擴大產品范圍,它的增長將遠遠超過 2008 年。 * **您的增長率是多少?** 主要是客戶功能請求的功能。 如果我們的客戶想要更多數據,我們會將其出售給他們。 我們計劃在 2008 年擴展集群,以索引網絡和消費者生成的媒體的較大部分。 * **您的系統的體系結構是什么?** 我們將 Java,MySQL 和 Linux 用于我們的集群。 Java 是用于編寫搜尋器的出色語言。 庫的支持非常牢固(盡管 Java 7 在添加閉包時似乎將成為殺手))。 我們將 MySQL 與 InnoDB 結合使用。 盡管看起來我最終花費了 20%的時間來解決 MySQL 錯誤和限制,但我們大多數還是對此感到滿意。 當然,沒有什么是完美的。 例如,MySQL 確實是為在單核系統上使用而設計的。 MySQL 5.1 版本在修復多核可伸縮性鎖定方面更進一步。 我最近在博客中寫道,這些新的多核計算機實際上應該被視為 N 臺計算機而不是一個邏輯單元:[分布式計算謬誤#9](http://feedblog.org/2007/09/23/distributed-computing-fallacy-9/) 。 * **您的系統如何設計以進行擴展?** 我們使用聯合數據庫系統,以便我們可以在看到更多 IO 的情況下分配寫負載。 我們已經在許多基礎架構中以開源形式發布了很多代碼,并且這些代碼也可能會以開源形式發布。 我們已經開放了很多基礎架構代碼:* http://code.tailrank.com/lbpool-與數據庫連接池一起使用的負載均衡 JDBC 驅動程序。* http://code.tailrank.com/feedparser-Java RSS / Atom 解析器,旨在優雅地支持所有版本的 RSS* http://code.google.com/p/benchmark4j/-與 Windows 的 perfmon 等效的 Java(和 UNIX)* http://code.google.com/p/spinn3r-client/-用于訪問 Spinn3r Web 服務的客戶端綁定* http://code.google.com/p/mysqlslavesync/-克隆 MySQL 安裝和設置復制。* http://code.google.com/p/log5j/-Logger 門面,它支持 printf 樣式的消息格式,以提高性能和易于使用。 * **您有多少臺服務器?** 到目前為止大約有 15 臺機器。 我們花了很多時間來調整我們的基礎架構,因此它非常有效。 也就是說,構建可擴展的爬蟲并不是一件容易的事,因此確實需要大量硬件。 我們將在 2008 年將 FAR 擴展到此范圍之外,并且可能會擊中 2-3 機架機器(約 120 箱)。 * **您使用什么操作系統?** 通過 Debian Etch 在 64 位 Opteron 上運行的 Linux。 我是 Debian 的忠實粉絲。 我不知道為什么更多的硬件供應商不支持 Debian。 Debian 是山谷中沒人談論的大秘密。 Technorati,Digg 等大多數大型 Web 2.0 商店都使用 Debian。 * **您使用哪個 Web 服務器?** Apache 2.0。 Lighttpd 也看起來很有趣。 * **您使用哪個反向代理?** 大約 95%的 Tailrank 頁面由 Squid 提供。 * **您的系統如何部署在數據中心中?** 我們使用 ServerBeach 進行托管。 對于中小型創業公司來說,這是一個很好的模型。 他們將箱子放在架子上,維護庫存,處理網絡等。我們只需購買新機器并支付固定的加價。 希望 Dell,SUN 和 HP 以這種方式直接出售給客戶。 現在一個。 我們希望將冗余擴展為兩個。 * **您的存儲策略是什么?** 直接連接的存儲。 我們每盒購買兩個 SATA 驅動器,并將它們設置在 RAID 0 中。 我們使用廉價數據庫解決方案的冗余陣列,因此,如果單個計算機出現故障,則會在另一個盒中復制數據。 便宜的 SATA 磁盤決定了我們的工作。 它們便宜,商品且快速。 * **您的網站是否有標準 API?** Tailrank 每頁都有 RSS feed。 Spinn3r 服務本身就是一個 API,我們有關于該協議的大量文檔。 研究人員也可以免費使用它,因此,如果您的任何讀者正在攻讀博士學位并通常從事研究工作,并且需要訪問我們喜歡的博客數據以幫助他們。 我們已經有使用 Spinn3r 在華盛頓大學和馬里蘭大學(我的母校)的博士學位學生。 * **您使用哪個 DNS 服務?** PowerDNS。 這是一個很棒的產品。 我們僅使用 recursor 守護程序,但它是 FAST。 雖然它使用異步 IO,所以它實際上并不能在多核盒子上的處理器之間擴展。 顯然,有一種破解方法可以使其跨內核運行,但這并不是很可靠。 AAA 緩存可能已損壞。 我仍然需要研究這個。 * **您欣賞誰?** 唐納德·克努斯是男人! * **您如何考慮將來更改架構?** 我們仍在努力完善完整的數據庫。 MySQL 容錯和自動升級也是一個問題。 <cite>MySQL 故障 容忍度和自動升級也是一個問題。</cite> 當數據庫對您如此重要時,您應該將其像已存在可行替代品的任何其他基礎結構商品一樣對待: 吞咽困難,然后小便達到最佳狀態。 “最好”在旁觀者眼中,因此我將其留給讀者。 中文 memeTracker 網站: [http://www.onejoo.com/](http://www.onejoo.com/) 監視超過 500 萬博客,論壇和新聞。 您如何使用 InnoDB 支持全文搜索? -伊沃 [http://www.web20friends.net](http://www.web20friends.net) 嗨,伊沃 我們不在 innodb 上使用全文本搜索。...實際上,我們將數據快照加載到 myisam 中,并將其用于全文本搜索。 對于小型文檔集,MySQL 全文搜索在某種程度上是可取的。 tailrank feedparser Wiki 為何以票證的形式充滿色情鏈接? [http://code.tailrank.com/feedparser/report/6](http://code.tailrank.com/feedparser/report/6) 現在,世界上大多數參與計算環境的名人都在使用 MYSQL。 我猜它是從它自己的體系結構中獲得流行的。 ----- [http://underwaterseaplants.awardspace.com“](<a rel=) >海洋植物 [http://underwaterseaplants.awardspace.com/seagrapes。 htm“](<a rel=) >海葡萄... [http://underwaterseaplants.awardspace.com/seaweed.htm”](<a rel=) >海藻
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看