# 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
> 原文: [http://highscalability.com/blog/2012/7/30/prismatic-architecture-using-machine-learning-on-social-netw.html](http://highscalability.com/blog/2012/7/30/prismatic-architecture-using-machine-learning-on-social-netw.html)

*關于 [Prismatic](http://getprismatic.com/) 的體系結構的帖子改編自與 Prismatic 程序員 [Jason Wolfe](http://w01fe.com/berkeley/)* 的電子郵件對話。
您今天應該在網上閱讀什么? 任何一個完全現代的人都必須每天解決這個難題,通常使用一些神秘的方法來判斷他們的許多供稿中的重要內容:Twitter,RSS,Facebook,Pinterest,G +,電子郵件,Techmeme,以及無數其他信息來源。
Prismatic 的 Jason Wolfe 慷慨地同意使用機器學習,社交圖譜,BigData,函數式編程和內存實數等性感詞來描述其徹底的現代解決方案,以回答“讀什么” 及時飼料加工。 結果可能更加隱秘,但是這或類似的事情將是我們如何面對尋找隱藏在無限深的信息池中的有趣主題和故事的挑戰。
關于 Prismatic,有兩點很突出。 他們想讓您知道 Prismatic 是由一個由四名計算機科學家組成的小組組成的,其中三名來自斯坦福大學和伯克利分校的非常強大的年輕 PHD。 半危險的方法不會起作用。 他們正在為解決信息過載問題帶來大腦力量。 但是這些 PHD 還是程序員,他們從事網站,iOS 編程以及性感的 BigData / ML 后端編程等所有工作。
使 Prismatic 作為一種體系結構令我興奮的一件事是,將來需要一遍又一遍解決的問題是將機器學習實時應用于大量的社會中介信息流 。 保密性使他們無法對自己的機器學習技術說太多話,但是我們的確在幕后高峰。
正如您所期望的,他們在做事上有些不同。 他們選擇了 Clojure(一種可編譯為 Java 字節碼的現代 Lisp)作為他們的編程語言。 這個想法是使用函數式編程來構建細粒度,靈活的抽象,這些抽象被組成來表達特定于問題的邏輯。
一個功能強大的例子是它們的圖形庫,他們在各處使用它們。 例如,可以描述計算圖以為每個用戶創建等效于低延遲,流水線化的 map-reduce 作業集。 另一個示例是使用子圖以模塊化方式緊湊地描述服務配置。
鑒于對功能闡述的關注,他們避免使用諸如 Hadoop 之類的大型框架,而是選擇了一個更小,更可靠,更易于調試,更易于擴展且更易于理解的代碼庫。
對 Prismatic 方法的批評是要取得成果需要很長時間的培訓。 首先,他們說開始獲取優質的內容根本不需要花費很長時間。 其次,我要補充一點,開始使用 Long Sight 考慮這些類型的系統。 基于 ML 的推薦器將從兒童期開始接受培訓,并將與您一生保持在一起。 您頭腦中的可擴展數字模擬物將同時充當信息守衛和邊鋒。
在 [Tech Crunch 文章](http://techcrunch.com/2012/06/07/in-the-studio-prismatics-bradford-cross-wants-to-reinvent-social-news/)中,Prismatic 創始人 Bradford Cross pithily 將 Prismatic 描述為“圍繞復雜的系統構建,該系統可提供大規模,實時,動態的個性化信息重新排名, 很好地將主題分類和歸類為本體。” 現在,讓我們看看該系統是什么樣的...
## 統計資料
* 每天都會從 Twitter,Facebook,Google Reader 和網絡上獲取并分析成千上萬種社交信號,并分析成千上萬的新新聞文章,博客文章和其他共享內容。
* 在用戶注冊 Prismatic 的幾秒鐘內,就提取并分析了他們足夠的歷史活動,以提供非常可靠的主題和發布者建議。 消化了他們的社交網絡以尋找似乎分享最相關內容的朋友。 用戶在 Prismatic 上進行的每個交互也是一個學習的機會。
* 在訪問家庭供稿后的十分之幾秒內,通過將用戶興趣模型與所有這些內容進行匹配,生成了最有趣的故事的供稿。
* 每周為用戶提供數百萬的文章展示次數
## 平臺
* 托管在 EC2 / Linux 上。
* 99.9%的后端管道和 API 服務器是用 Clojure 編寫的,Clojure 是一種現代 Lisp,可以編譯為 Java 字節碼。
* 所有繁重的工作都發生在 JVM 內部。
* MongoDB
* 的 MySQL
* S3
* 發電機
* 專注于構建自定義代碼以有效解決特定問題。
## 數據存儲和 IO
* 系統不是圍繞每個服務在數據庫或分布式文件系統之間讀取和寫入實時數據的典型體系結構,而是圍繞數據設計系統。
* 大多數數據通過后端管道從一項服務流向另一項服務,而沒有任何磁盤往返。
* 在管道的最后,API 機器嚴重依賴于自定義的內存數據結構,這些數據結構會定期快照到磁盤。
* 通過使數據盡可能靠近 CPU,大多數 API 請求幾乎沒有 IO 即可得到服務。 這樣可以以非常低的延遲提供提要,從而使 API 機器保持 CPU 綁定,并可以輕松擴展以更輕松地處理更多用戶。
* 使用了許多現成的存儲解決方案:MongoDB,MySQL 和 Amazon 的 S3 和 Dynamo。 每一個都經過仔細選擇,以匹配要存儲的數據的大小,訪問模式和其他特征。
## 服務
* 從較高的層次上看,該體系結構分為大約 10 種不同的服務類型,大致分為 5 種不同的類別:數據攝取-后端; 入職; API-面向客戶; 其他服務-面向客戶; 批處理和其他服務。
* 每個服務被設計為執行一種操作,可以以特定方式進行水平擴展,并且通常受到一種或兩種特定資源類型(IO,CPU,RAM)的限制。
* 經濟因素偏向于大型機器,因此服務是單身人士,但沒有重大瓶頸會阻止水平擴展的預期。
## 數據提取-后端
* 每天都會創建大量有趣的內容(新聞文章,博客文章,其他網頁等),并且 Prismatic 希望盡可能多地了解它。
* 對于每個內容,必須知道誰在共享它,以及他們在說什么,以便可以在文章旁邊顯示相關評論,從而可以向用戶顯示由其朋友或具有相似品味的人共享的內容。
* 此過程的第一步是攝取和分析內容和社交數據。 采集管道的頂部是輪詢器:
* RSS 輪詢器在供稿中循環查找新文章
* Twitter 和 Facebook 輪詢器連接到相應的 API,并從用戶及其朋友那里獲取評論/推文。
* 這些服務非常簡單,并且大多數都是無狀態的。
* 唯一的真實狀態和有趣的部分是弄清楚已經看到的內容,并智能地確定接下來要輪詢的內容的優先級。
* 實際上,最困難的問題之一是在每次社交互動流入管道的其余部分之前,先確定其內容是什么。 這很困難,因為人們可能會共享同一篇文章的許多版本(縮短的鏈接,移動版本和常規版本等)。
* 從這里,RSS 條目和評論/共享/推文(具有正確規范的 URL)流入障礙,在障礙中確定實際獲取和分析的內容。
* 垃圾郵件和其他垃圾將在稍后的版本中消除,但是最好的偉哥垃圾郵件文章是不會浪費更多的周期的文章。
* 進行剪切的 URL 傳遞到獲取/分析管道
* 此階段的 URL 進入獲取/分析管道。 這是許多魔術開始發生的地方。
* 保留一個 URL 隊列,每個 URL 都通過一個“圖”運行,該“圖”依次詳細說明 URL,獲取其 HTML,應用機器學習算法提取文章文本,識別最佳圖像,提取發布者,并標記適用的標簽 主題等等。
* 為了使這些算法能夠快速運行,適合內存并且性能良好,已經進行了大量的工程設計。 處理所有 URL 本身的問題當然令人尷尬地是并行的。
* 提取階段的末尾是 doc master,其工作是接收有關它們的精心撰寫的文章和社交環境(隨著時間的推移不斷滴入),進行匹配,將文章(以在線方式)聚集到故事中 集群,確定當前有效的文檔集,并管理 API 機器的索引。
## 入門-后端
* 入職是吸收有關新用戶的數據,因此可以在注冊該應用后的幾秒鐘內為他們提供出色的個性化體驗。 這有兩個主要組成部分:
* 根據用戶在 Twitter,Facebook 或 Google 閱讀器上的活動,為用戶找出建議的主題和發布者,
* 分析用戶的社交圖譜,以推斷出哪些朋友的分享是他們喜歡文章的最有力信號。
* 這些服務令人尷尬地是并行的,這次是跨用戶的。 除了有效的社交圖分析的復雜性(Prismatic 不想說太多)之外,關鍵是如何將這些服務調整為具有非常低的延遲和合理的吞吐量:
* 例如,對于活躍于 Twitter,Facebook 或 Google Reader 的用戶,可以在 15 秒或更短的時間內計算出一百多個準確的主題和發布者建議。 這足夠快,可以在用戶 OAuth 登錄后開始計算建議,并且通常在用戶完成創建帳戶(選擇句柄和密碼)并進入演練時就可以使用個性化建議。
* 在這 15 秒內,發生了很多事情:
* 用戶最近的帖子可在 Twitter 和 Facebook 上獲取,他們喜歡的文章可在 Google Reader 上獲取,等等。 這本身可能需要 10 秒鐘或更長時間才能完成。
* 標識用戶,她的朋友等共享的多達一千個左右唯一 URL 的集合。
* 這些流進入獲取/分析管道的版本中,在該版本中,所有 URL 都使用上述相同的 ML 堆棧進行提取和詳細說明
* 該分析的結果被匯總,后處理并保存到 DynamoDB 和 S3
* 此過程的延遲確實很關鍵,因此這些過程無法串行執行-必須盡可能地進行流水線化和并行化。
* 吞吐量也很重要,因為該過程非常繁瑣,并且在進行大量注冊時,需要花費大量精力來降低延遲。 這正是 Prismatic 的流處理和聚合庫真正發揮作用的地方,它為每個用戶(并行供多個用戶)使用接近全容量的低延遲,流水線化的 map-reduce 作業集提供了等效的性能。 機。
## API-面向客戶
* API 機器中包含了 Onboarding 和 Data Ingest 服務。
* 除了實際的提要生成過程外,不會說太多,只是它是一個復雜且高度優化的過程,該過程具有許多階段,這些階段與用戶的“指紋”相匹配,并針對索引進行查詢,檢索,排序和分頁生成的提要。 幾百毫秒。
* 從系統角度來看,這里的主要設計目標/挑戰是:
* 必須將最新文章編入索引,并且可以用于生成低延遲的提要
* 該索引非常大(許多 GB),并且必須實時更新,以便用戶可以找到重大新聞
* 用戶應在各臺計算機之間實現負載平衡,并且響應負載而將新計算機啟動(并關閉)相對容易和快速。
* 產生良好的用戶供稿不僅需要索引-我們還需要用戶的“指紋”-他們的興趣,社交關系,他們最近看過的文章等等。
* 該指紋非常大,并且隨著用戶查看站點上的內容并與之交互而不斷變化。
* 前幾個問題的解決方案涉及 doc-master。
* doc-master 機器會整理我們當前的文檔集,對文檔進行預處理,然后每隔幾分鐘就會將一組準備好的索引文件寫入 S3。
* 當新的 API 機器啟動時,它首先讀取這些文件并將其轉儲到內存中,從而為其提供索引的近乎最新的副本。
* doc-master 還向所有實時 API 機器實時發布用于索引更改(文檔/注釋添加和刪除,故事集群更改等)的命令。
* 當一臺新機器出現時,它會重放最近幾分鐘的更改歷史,以使索引保持最新狀態。
* 機器所需的其他一般狀態(非特定于用戶的狀態)也將從 S3 讀取到內存中并定期刷新,或者如果數據較大且訪問頻率較低,則存儲在發電機中。
* 剩下的問題是如何有效地為用戶提供提要,而又不會產生 IO 成本以及在每個請求上獲取和更新指紋的延遲。
* 這里的方法是使用將用戶綁定到 API 機器的粘性會話
* 用戶首次登錄時,他們的數據都將在過期的刷新回寫緩存中全部加載到內存中
* 在整個用戶會話中,此數據保留在內存中,并用于生成其供稿
* 在整個會話過程中,所有用戶操作均通過此同一 API 機器
* 會話到期或計算機關閉時,每隔幾分鐘就對指紋中次要部分的更新進行批處理并刷新到冗余存儲中
* 更重要的更新是同步完成的,或者至少使用直接寫緩存進行。
* 在整個會話過程中僅讀取一次用戶指紋就需要付出很高的 IO 費用,這筆費用會在(通常)相對大量的 Feed 點擊,頁面,文章點擊,共享等用戶所獲得的費用中攤銷,并且 限制此數據的回寫次數。 當一臺計算機宕機時,數據將被刷新并將用戶轉移到另一臺計算機上-在最壞的情況下,對于某些用戶而言,幾分鐘的非關鍵數據將會丟失,這對于簡單性和可伸縮性的好處是值得的 。 始終可以通過以后的原始事件日志上的批處理作業來彌補此損失。
## 其他服務-面向客戶
還有其他一些單獨的面向客戶的服務:
* 公共提要-對未登錄的用戶進行主題和發布者提要的智能緩存,根據需要從常規 API 獲取它們,并允許對每個提要的多個年齡進行分頁。
* 身份驗證-處理帳戶創建,登錄等。 通常是 SQL 數據庫前面的薄層,用于存儲需要定期快照和備份的關鍵用戶數據。
* URL 縮短器
## 批處理及其他服務
* 機器語言培訓,數據歸檔和事件跟蹤/分析的其他服務。
* MongoDB 用于存儲服務器指標和用戶分析,主要是因為它支持一個很好的低麻煩的故事,用于發送不同形狀的原始事件,維護正確的索引以及保持在線匯總計數。
## 圖庫
* 這是一種很好地聲明式描述計算圖的方法,它發揮了 Clojure 的優勢。 圖只是 Clojure 映射,其中的鍵是關鍵字,而值是關鍵字函數,這些關鍵字函數采用由映射中的其他函數計算的值以及外部參數。
* 它在各處使用。 例如,文檔分析管道是一個圖形,其中文檔的每個詳細說明都可能取決于之前的內容(例如,確定文檔的主題取決于是否已提取其文本); 新聞提要生成過程是一個由許多查詢和排名步驟組成的圖形; 每個生產服務本身就是一個圖,其中每個資源(例如數據存儲,內存索引,HTTP 處理程序等)都是可以依賴于其他資源的節點。
* 這樣可以輕松地執行以下操作:
* 以模塊化方式(例如,使用子圖)緊湊地描述服務配置
* 產生圖表,描繪出流程或服務的依賴性
* 測量諸如文檔分析之類的復雜計算中每個節點上發生的計算時間和錯誤,或諸如 API 之類的復雜服務的每個資源上的活動
* 在不同的線程(或理論上甚至是機器)上智能地調度此類計算的不同節點
* 通過使用模擬替換圖表中的幾個節點(例如偽造存儲空間)等,輕松編寫我們整個生產服務的測試。
## 基于文檔和用戶的機器學習
文檔和用戶是 Prismatic 應用 ML(機器學習)的兩個領域:
### 文件 ML
* 給定一個 HTML 文檔:
* 了解如何提取頁面的主要文本(而不是側邊欄,頁腳,注釋等),標題,作者,最佳圖像等
* 確定相關功能(例如,文章的主題,主題等)
* 其中大多數任務的設置非常典型。 使用其他機器上的大批作業對模型進行訓練,這些機器從 s3 讀取數據,將學習到的參數文件保存到 s3,然后在攝取管道中從 s3 讀取(并定期刷新)模型。
* 流出系統的所有數據都可以反饋到該管道中,這有助于了解更多有趣的內容,并隨著時間的推移從錯誤中學習。
* 從軟件工程的角度來看,Prismatic 編寫的最有趣的框架之一是“ flop”庫,該庫實現了最先進的 ML 訓練和推理代碼,看起來與精美的普通 Clojure 代碼非常相似,但是可以編譯(使用 宏的魔力)到低級數組操作循環,這些循環與 Java 一樣接近金屬而無需借助 JNI。
* 與相應的 Java 相比,該代碼可以緊湊和易于閱讀,并且執行速度基本相同。
* 創建[快速運行的故事群集組件](http://blog.getprismatic.com/blog/2012/4/17/clustering-related-stories.html)付出了很多努力。
### 用戶 ML
* 猜測用戶對社交網絡數據感興趣的內容,并使用應用內的顯式信號(+ /刪除)完善這些猜測。
* 使用顯式信號的問題很有趣,因為用戶輸入應該很快反映在其提要中。 如果用戶連續從給定的發布者中刪除了 5 篇文章,請立即停止向他們展示該發布者的文章,而不是明天。 這意味著沒有時間在所有用戶上運行另一個批處理作業。解決方案是在線學習:立即根據用戶提供給我們的觀察結果更新用戶模型。
* 用戶交互事件的原始流已保存。 這樣可以在以后發生機器故障或類似情況時通過原始數據上的松散寫回緩存丟失任何數據,從而在以后的原始事件中重新運行用戶感興趣的 ML。 在線學習中的漂移可以得到糾正,并且可以計算出更準確的模型。
## 得到教訓
* **查找您的故事**。 請仔細考慮整個管道以及流經該管道的所有數據。 使用針對特定問題的解決方案來應對可伸縮性挑戰。 每個服務都內置了自己的擴展故事,并且這些服務以一種通信方式進行通信,應該可以輕松地擴展每個組件,而又不會給其他組件帶來太多壓力。 相反,從圍繞 Hadoop 作業構建的系統開始,將所有數據以原始格式存儲在分布式數據庫/文件系統中,Prismatic 會講一個不同的故事。
* **尷尬地發現并行的機會并加以利用**。
* **在用戶等待**的同時并行工作。 例如,入職流程會吸收有關新用戶的數據,以便可以在注冊該應用后的幾秒鐘內為他們提供出色的個性化體驗。
* **使用函數式編程**構建細粒度,靈活的抽象。 這些抽象構成為表達特定于問題的邏輯。
* **避免使用大型,整體式框架**,例如 Hadoop。 這樣就產生了一個較小的代碼庫,在所有條件相同的情況下,它更不容易出錯,更易于理解并且更易于擴展。 之所以建立自己的庫,僅僅是因為開源代碼的許多功能都被鎖定在整體框架中,并且在某些問題中斷或無法擴展時,不容易重用,擴展或調試。
* **合適的人對于使這一切都至關重要。 當前的后端團隊由三位 CS 博士組成,他們從事從 ML(機器語言)算法到低級系統工程到 Web 和 iPhone 客戶端代碼的所有工作。**
* **所有代碼都盡早投入生產,**通常是通過對使構建和調試生產服務變得簡單而有趣的工具進行投資。
* **保持簡單**。 不要為簡單的東西承擔復雜的庫或框架的負擔,并且當一個簡單得多的解決方案就足夠好的時候也不要幻想。 例如,使用簡單的基于 HTTP 的消息傳遞協議,而不是流行的框架之一。 在合理的情況下,樂于為剛剛可用的托管解決方案(例如 S3 或 Dynamo)支付更多費用。
* **投資構建出色的工具和庫**。 例如,Prismatic 的“觸發器”庫使他們可以在代碼的 1/10 中編寫與 Java 一樣快的數字運算機器學習算法。 “存儲”將鍵值存儲的許多不重要的細節抽象掉,從而允許編寫用于緩存,批處理和刷新的高級抽象,這些抽象可在各種情況下在各種存儲引擎中工作。 “圖形”使編寫,測試和監視分布式流處理服務變得輕而易舉。
* **仔細考慮每種數據類型**,不要指望找到一種適用于 IO 和存儲的千篇一律的解決方案。
## 相關文章
* [Prismatic 希望成為數字時代的報紙](http://gigaom.com/2012/05/03/prismatic-wants-to-be-the-newspaper-for-a-digital-age/)
* [棱柱形博客](http://blog.getprismatic.com/)
* [關于 Clojure 的主題演講](https://github.com/strangeloop/clojurewest2012-slides)
* [棱柱形希望創建一個新類別的社會新聞](http://bits.blogs.nytimes.com/2012/04/03/prismatic-hopes-to-offer-a-new-category-of-social-news/)
* [Prismatic 的布拉德福德·克羅斯(Bradford Cross)在工作室里想重塑社交新聞](http://techcrunch.com/2012/06/07/in-the-studio-prismatics-bradford-cross-wants-to-reinvent-social-news/ )
* [Prismatic 的軟件工程](http://blog.getprismatic.com/blog/2012/4/5/software-engineering-at-prismatic.html)
* [Prismatic 如何處理數據存儲和聚合](http://blog.getprismatic.com/blog/2012/4/9/how-prismatic-deals-with-data-storage-and-aggregation.html)
* [DataSift 架構:每秒 120,000 條推文的實時數據挖掘](http://highscalability.com/blog/2011/11/29/datasift-architecture-realtime-datamining-at-120000-tweets-p.html )
好看!
半危險=危險? 我第一次聽到這個詞。
干杯,
--rj
羅杰擊敗了我,但是:
“半危險的方法不會起作用。” 那么好吧,我想什至根本不考慮那些完全危險的方法。 = P
我每天都會使用 getprismatic.com 數周,我必須承認,現在它已成為新聞探索的一部分。 夢幻般的建筑,當我想到它們如何實時帶來如此優質的內容時,甚至讓我驚訝。
感謝您對他們的文章進行了詳細的高級介紹。 很棒的文章!
好讀! :)
這都是有點老的學校。 機器學習= 1980。
您是否考慮過將 Redis 用于內存中的數據結構? 聽起來很合適。
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓