# 擴展 Digg 和其他 Web 應用程序
> 原文: [http://highscalability.com/blog/2009/2/14/scaling-digg-and-other-web-applications.html](http://highscalability.com/blog/2009/2/14/scaling-digg-and-other-web-applications.html)
Digg 的首席架構師 Joe Stump 在 Web 2.0 Expo 上向[進行了此演示](http://www.krisjordan.com/2008/09/18/joe-stump-scaling-digg-and-other-web-applications/)。 我找不到實際的演示文稿,但是[克里斯·喬丹](http://www.krisjordan.com/2008/09/18/joe-stump-scaling-digg-and-other-web-applications/)記下了一些很棒的筆記。 這樣一來,歷史上的關鍵時刻便會永遠被意外捕獲。 喬也很友好,可以通過電話回答我的電子郵件問題。
在本篇文章的第一部分中,喬分享了一些您可能沒有讀過的永恒的智慧。 我當然會花些力氣從原始演示文稿中提取所有智慧,而傾向于簡單的規則。 然而,真正令我震驚的是 Joe 認為 MemcacheDB *將成為擴展*領域中最大的新手。 MemcacheDB 已經存在了一段時間,但我從未想到過這種方式。 好吧,在帖子結尾處,為什么喬對 MemcacheDB 感到如此興奮。
## 令人印象深刻的統計
* 世界第 80 至 100 大網站* 每月 2600 萬唯一* 3000 萬用戶。* 唯一身份流量只有該流量的一半。 流量=唯一的網絡訪問者+ API + Digg 按鈕。* 每月 20 億個請求* 13,000 請求/秒,高峰時為 27,000 請求/秒。* 3 位系統管理員,2 位 DBA,1 位網絡管理員,15 位編碼員,質量檢查小組* Lots of servers.
## 擴展策略
* 縮放是專業化。 當現成的解決方案不再能在一定規模上運行時,您必須創建滿足特定需求的系統。* Web 2.0 的教訓:人們喜歡胡扯并與世界分享。* Web 2.0 具有可伸縮性。 Web 1.0 平坦,包含大量靜態文件。 通過添加更多硬件來處理額外的負載。 Web 2.0 是高度交互的。 內容可以以極低的速率創建。* 語言無法擴展。 100%的時間瓶頸在
IO 中。 當您同時處理大量請求時,瓶頸就不是語言。 使 PHP 速度提高 300%無關緊要。 當
固定數據庫時,不要通過使用單引號而不是雙引號來優化 PHP。* 不分享狀態。 去中心化。 需要分區才能并行處理大量請求。* 向外擴展而不是向上擴展。 期待失敗。 只需添加框即可縮放并避免失敗。* 需要對數據庫驅動的站點進行分區,以在水平和垂直方向上進行擴展。 水平分區意味著將行的子集存儲在不同的機器上。 當一臺機器上無法容納的數據量更多時,將使用此功能。 垂直分區意味著將一些列放在一個表中,而將某些列放在另一個表中。 這使您無需停機即可將數據添加到系統。* 數據分為單獨的群集:用戶操作,用戶,注釋,項目等。* 構建數據訪問層,以便將分區隱藏在 API 的后面。* 帶有分區的 [CAP 定理](http://camelcase.blogspot.com/2007/08/cap-theorem.html):您只能選擇以下三個中的兩個:強一致性,高可用性,分區容限。* 分區解決方案需要非規范化,這已成為 Digg 的大問題。 非規范化意味著數據被復制到多個對象中,并且必須保持同步。* MySQL 復制用于擴展讀取。* 使用異步排隊體系結構進行近期處理。
-這種方法將處理塊推向另一個服務,讓我們將該服務調度在處理器網格上進行處理。
-與 cron 相比,它更快,響應速度更快,但與實時響應相比,響應速度卻稍慢。
-例如,發出 5 個同步數據庫請求會使您減速。 并行執行。
-Digg 使用 Gearman。 一個示例用法是獲取永久鏈接。 并行完成三個操作:獲取當前記錄,獲取固定鏈接并獲取注釋。 然后將這三個全部合并,以將合并的單個答案返回給客戶端。 它也用于網站爬網和日志記錄。 這是另一種思維方式。
-請參閱 [Flickr-先做必要的工作,然后將其余部分排隊](http://highscalability.com/strategy-flickr-do-essential-work-front-and-queue-rest)和 [Canonical Cloud Architecture](http://highscalability.com/canonical-cloud-architecture) 了解更多信息。* 瓶頸在 IO 中,因此您已經調整了數據庫。 當數據庫大于 RAM 時,磁盤會一直處于命中狀態,這會降低性能。 隨著數據庫的變大,無法再掃描該表。 因此,您必須:
-反規范化
-避免加入
-避免通過對
進行分區來跨數據庫進行大型掃描-緩存
-添加讀取從屬設備
-不要使用 NFS* 在嘗試解決問題之前,請先編號,以確保事情確實可以進行。* 圖標和照片之類的文件是使用分布式文件系統 [MogileFS](http://www.danga.com/mogilefs/) 處理的。 DFS 支持高請求率,因為文件是在網絡中分布和復制的。* 緩存永久并且明確過期。* 在基于文件的緩存中緩存相當靜態的內容。* 將可變項目緩存在 memcached 中* 在 [APC](http://us2.php.net/apc) 中緩存很少更改的項目。 APC 是本地緩存。 它不是分布式的,因此沒有其他程序可以訪問這些值。* 對于緩存,請使用[責任鏈模式](http://en.wikipedia.org/wiki/Chain-of-responsibility_pattern)。 在 MySQL,memcached APC 和 PHP 全局變量中進行緩存。 首先將 PHP 全局變量檢查為最快的緩存。 如果不存在,請檢查 APC,memcached 并上鏈。* Digg 的推薦引擎是一個最終保持一致的自定義圖形數據庫。 最終一致意味著寫入一個分區最終將寫入所有其他分區。 一次寫讀后,不必再返回相同的值,因為它們可以由不同的分區處理。 這比嚴格的一致性要寬松得多,這意味著更改必須在所有分區上同時可見。 接連進行的讀取將始終返回相同的值。* 假設每天有 100 萬人使用任何新功能,因此從一開始就使其具有可擴展性。 示例:Digg 上的“關于”頁面對主數據庫進行了實時查詢,以顯示所有員工。 只是做了一個快速的黑客出去。 然后,一只蜘蛛發瘋了,并把該地點倒了。
## 雜種
* Digg 按鈕是產生點擊量的主要關鍵。* 使用 Debian Linux,Apache,PHP,MySQL。* 選擇您喜歡開發的語言,選擇編碼標準,添加可提取的內聯文檔,使用代碼存儲庫和錯誤跟蹤器。 喜歡 PHP,Track 和 SVN。* 你和你的人民一樣好。 必須相信你旁邊的人他在做他的工作。 為了建立信任,人們可以做出
決策。 相信人們會處理它,他們會照顧好它的。 減少會議時間,因為您知道人們會做正確的事。* 完全是 Mac 商店。* 幾乎所有的開發人員都是本地的。 有些人不愿提供 24 小時支持。* 喬的做法務實。 他沒有語言迷戀。 人們從 PHP 到 Python / Ruby,再到 Erlang。 使用 vim。 從命令行開發。 不知道人們如何一直在不斷更改工具集。 這不是很有效。* 服務(SOA)分離是一個巨大的勝利。 Digg 使用 REST。 內部服務返回映射到 JSON,XML 等的原始結構。URL 中的版本是因為它不花錢,例如:
/1.0/service/id/xml。 版本內部和外部服務。* 人們不了解網站中有多少活動部件。 某些事情將會發生,并且將會失敗。
## MemcacheDB:代碼的進化步驟,性能的革命步驟
想象一下 Digg 的創始人 Kevin Rose,他在本次演講時擁有 40,000 個關注者。 如果 Kevin 每天只進行一次挖掘,則可寫 40,000。 由于最活躍的挖掘者是最緊隨其后的,因此它成為巨大的性能瓶頸。 出現兩個問題。
您無法一次更新 40,000 個關注者帳戶。 幸運的是,我們前面討論的排隊系統已解決了這一問題。
第二個問題是發生大量寫入。 Digg 有寫問題。 如果普通用戶有 100 個關注者,則一天的收入為 3 億迪格斯。 那就是每秒 3,000 次寫入,每天 7GB 的存儲以及 5TB 的數據分布在 50 到 60 臺服務器上。
如此繁重的寫入負載使 MySQL 無法用于 Digg。 這就是 MemcacheDB 的用武之地。在筆記本電腦上的初始測試中,MemcacheDB 每秒能夠處理 15,000 次寫入。 MemcacheDB 自己的[基準測試](http://memcachedb.org/benchmark.html)顯示其每秒 23,000 次寫入和 64,000 次讀取/每秒的能力。 以這些寫入速度,不難理解為什么喬對 MemcacheDB 的 digg 泛濫能力感到如此興奮。
什么是 [MemcacheDB](http://memcachedb.org/) ? 這是專為持久性而設計的*分布式鍵值存儲系統。 它不是緩存解決方案,而是持久存儲引擎,用于基于鍵值的快速,可靠的對象存儲和檢索。 它符合內存緩存協議(未完成,請參見下文),因此任何內存緩存客戶端都可以與其建立連接。 MemcacheDB 使用 Berkeley DB 作為存儲后端,因此支持許多功能,包括事務和復制*。
在您太興奮之前,請記住這是一個鍵值存儲。 您可以通過一個鍵來讀取和寫入記錄。 沒有多個索引,也沒有 SQL。 這就是為什么它可以這么快的原因。
Digg 使用 MemcacheDB 擴展了數據非規格化時發生的大量寫入。 請記住,這是一個鍵值存儲。 該值通常是一個完整的應用程序級對象,該對象可以從大量標準化表合并在一起。 歸一化引入了冗余,因為您將數據副本保留在多個記錄中,而不是在一個很好的標準化表中保留一個副本。 因此,非規范化意味著更多的寫入操作,因為必須將數據復制到包含副本的所有記錄中。 為了跟上他們的發展,他們需要一個能夠處理其寫負載的數據庫。 MemcacheDB 具有這種性能,尤其是當您將 memcached 的常規分區方案放在最頂層時。
我問 Joe 為什么不選擇一種內存數據網格解決方案? 一些原因是:* 此數據是從許多不同的數據庫生成的,并且需要很長時間才能生成。 因此,他們希望將其存儲在持久性存儲中。* MemcacheDB 使用內存緩存協議。 Digg 已經使用 memcache,因此開始使用 MemcacheDB 無疑是很容易的。 它易于使用且易于設置。* 由于它不是新的設置,因此操作人員很樂意將其部署到數據中心。* 他們已經具有內存緩存的高可用性和故障轉移代碼,因此已經可以使用。* 使用新系統將需要更多的準備時間。* 如果代碼有任何問題,您可以看一下。 全部都是開源的。* 不確定其他產品是否足夠穩定。
因此,這是代碼的進化步驟,也是性能的革命步驟。 Digg 正在考慮全面使用 MemcacheDB。
## 相關文章
* [擴展 Digg 和其他 Web 應用程序](http://www.krisjordan.com/2008/09/18/joe-stump-scaling-digg-and-other-web-applications/),作者:Kris Jordan。* [MemcacheDB](http://memcachedb.org/)* [Joe Stump 的博客](http://www.joestump.net/)* [具有與 Memcached 有關的高擴展性標簽](http://highscalability.com/tags/memcached)* [高速緩存相關標簽](http://highscalability.com/tags/caching)* [BigTable](http://highscalability.com/tags/bigtable)* [SimpleDB](http://highscalability.com/tags/simpledb)* [Anti-RDBMS:分布式鍵值存儲列表](http://highscalability.com/anti-rdbms-list-distributed-key-value-stores)* [數據庫設計的非傳統方法:碎片](http://highscalability.com/unorthodox-approach-database-design-coming-shard)的來臨* [Flickr 架構](http://highscalability.com/flickr-architecture)* [第 4 集:DIGG 首席架構師 Joe Stump 擴展大型網站](http://deepfriedbytes.com/podcast/deep-fried-bytes-episode-4-scaling-large-web-sites-with-joe-stump-lead-architect-at-digg/)
除非他們想在 RAM 上花很多錢,否則他們會感到意外。 當 RAM 與數據庫大小之比降低到 0.8 左右時,Memcachedb / Berkeley 數據庫(或基于 B-Tree 的 MySQL,PostgreSQL 或其他傳統數據庫存儲)的性能將大打折扣。
當前,寫解決方案是 Hypertable,即使 RAM 與 DB 的大小比小于 0.1,它也可以每個客戶端維持 10k 次寫/秒。
“搜索”背后的架構是什么。 我假設正在使用某種全文數據庫。 有人可以指出在 IIS / ASP.Net 環境中擴展全文本搜索的最佳方法。 我知道 SQL Server 2005 不夠好。
我正在尋找使用基于非 SQL 的后端的東西,例如 berkley db。
任何指針將不勝感激?
Web 2.0 Expo 筆記的重新組合。 喬的演講很棒! 首先請注意,指向我的筆記的鏈接似乎在 href 中包含一個
,該鏈接中斷了該鏈接。 最好! 克里斯
哇,對我來說好像他們是在爆發大家伙!
RT
www.anon-tools.us.tc
您應該看一下 SOLR(基于 Lucene 的搜索服務器)。 在 Tomcat 和 Jetty 上運行良好...都在 Windows 上運行。 [http://lucene.apache.org/solr/](http://lucene.apache.org/solr/)
搜索/數據的 XML 存儲是 ASP.net 應用程序的最佳選擇,將 LINQ 與.net 3.5 配合使用,XML 比 SQL 快得多。 而且您不必擔心整天都會向 ms-sql-s 端口發送垃圾郵件。
[http://www.keyoti.com/products/search/dotNetWeb/index.html](http://www.keyoti.com/products/search/dotNetWeb/index.html)
這些家伙有一個非常不錯的搜索引擎,但是它只能通過爬網來搜索,但是您始終可以調整其源代碼,對于應該支持的簡單網站,也可以通過 Web 控件運行
喬錄制了一個非常不錯的播客,前段時間他在談論這個話題。 你可以在找到它
[http://deepfriedbytes.com/podcast/deep-fried-bytes-episode-4-scaling-large-web-sites-with-joe-stump-lead-architect-at-digg/“](<a rel=) > [http://deepfriedbytes.com/podcast/deep-fried-bytes-episode-4-scaling-large-web-sites-with-joe-stump-lead-architect-at-digg/](http://deepfriedbytes.com/podcast/deep-fried-bytes-episode-4-scaling-large-web-sites-with-joe-stump-lead-architect-at-digg/)
涼。 謝謝。 有趣的是,這并沒有出現在我的搜索中。
“ Digg 使用 MemcacheDB 來擴展數據非規范化時發生的大量寫入。”
這是個絕妙的主意:**請勿非正規化!**
[http://kottke.org/04/10/normalized-data](http://kottke.org/04/10/normalized-data)
很棒的文章,我非常喜歡 memcache,并已在我的 [http://www.kiran.org.in'](<a rel="nofollow" href="http://www.kiran.org.in) >網站中實現了它
Todd
再次感謝您提供出色的摘要。
在仔細閱讀了所有細節之后,我覺得 Digg 必須在其基礎架構上投入大量資金才能達到這種級別的可伸縮性。
通過查看在 memcacheDB 上*不使用數據網格*的合理性,我得到的印象是,在評估此選項時沒有太多的思想投入,因為有些評論對我來說沒有意義。 例如,更改應用程序以將 mecacheDB 用作 MySQL 的應用程序需要進行重大更改。 使用數據網格,由于數據庫可以保持不變,因此更改可能會更低。 現在,我無法與成功爭論,但是,如果今天我需要擴展我的應用程序,那么在那條路線上走時將非常謹慎,尤其是在當前市場經濟條件下。
今天,有更多現成的解決方案可以完成本研究中提到的大多數事情。 這包括將應用程序分解為分布式服務,擴展數據層,與負載均衡器集成以實現動態擴展的能力(請參閱有關此方面的最新文章 [http://highscalability.com/handle-1-billion [使用記憶網格的事件日數]](<a rel=) >使用內存網格(1009)每天處理 10 億個事件。有趣的是,在過去幾周中,我們參與了幾個項目,這些項目展示了如何 您可以推動超過 10 萬次寫入/秒。我們使用 data-grid 作為前端,并保持對數據庫的異步更新。我們使用 MySQL 作為基礎數據庫,從維護的角度來看,帶來了使用標準 SQL 數據庫的優勢。 云計算還可以提供非常經濟高效的環境來實現這種級別的擴展,而不會帶來太多麻煩。
我不確定在 Digg 構建其解決方案時所有可用的替代方案是否可用,因此 Joe Stump 提出此架構是否合理。
知道喬今天是否會選擇該路線會很有趣。
請參閱 [http://natishalom.typepad.com/nati_shaloms_blog/2008/11/the-impact-of-cloud-computing-on-buy-vs-build-behaviour.html“](<a rel=) >影響 基于 Fred 布魯克斯出色的文章“ No Silver Bullets”撰寫的云計算在構建與購買行為之間的關系正如 Fred 所指出的那樣,在許多情況下,我們傾向于認為我們有專門的要求,并且最終在基礎設施建設和投資方面進行投資 經濟壓力迫使人們重新評估這些假設。
男孩,
對不起,你錯了。 您正在展示您的經驗。 處理大數據時,必須進行規范化以最大程度地減少數據集上的鎖定。 您還可以通過減少聯接來提高性能。 請記住,讀取量遠大于寫入量。
我不確定這是否相關。 假設您是 Digg,并且擁有 1 TB 的數據(可能更多,但是請在此處與我聯系)。 您可以將其分布在 40 個服務器上,每個服務器具有 24 GB 的 RAM 和 24 GB 的存儲。
根據我剛剛檢查的 HP 網站,將 DL 360 從 1GB RAM 升級到 24GB 的費用為 998 美元。 為了簡單起見,我們將其舍入到$ 1,000。 (服務器總成本不到 7,000 美元,包括 120GB RAID 1 SAS 存儲)
您最終得到的是$ 40,000 的 RAM,總計 1 TB,分布在 40 臺服務器上。 對于在服務器上花費 280,000 美元的公司來說,這不是一個壞交易。 這相當于 RAM 的服務器成本的 14%。
因此,敬請注意,低于 1.0 只是由于規劃不當或數據集過大。 (請注意,我足夠聰明地意識到 1TB 可能對于 Facebook 或 Flickr 這樣的公司來說是一個舍入誤差,但是他們的預算也相應地更大。)
我看到去年的播客,一個非常有趣的家伙,知道他的東西。
- [http://www.onlinebingoclub.co.uk/foxy-bingo/“](<a rel=) >狡猾
嗨,
我們正在處理一個項目,該項目實現了 MemcacheDB 作為持久性緩存的解決方案。 不幸的是,該產品似乎并不是所有的東西都那么光明:
1\. Get 時間平均變化為 50ms,標準差為 150ms(鍵和數據的大小小于 100bytes)
2.您 不知道 MemcacheDB 中存儲了多少數據,那里“丟失”了哪些數據,并且如果您沒有密鑰(也不能,不支持枚舉),就無法刪除信息。
3.似乎 前兩個事實是相關的(您不能刪除廢棄的項目,因此性能很差)。
4.根據產品的網站,該產品似乎已被廢棄,并且在目前的狀態下還遠遠不能管理。
最好的問候,
Moshe Kaplan。 Performacne 專家。
感謝另一篇出色的文章,從網絡上一些最繁忙的站點中看到真實的示例,這為我們提供了有關準備工作的真正有價值的信息。
我在< http://www.mrkirkland.com/prepare-for-web-application-scalability/ >的最新文章中引用了 highscalability.com。
謝謝!
柯克蘭先生
首席執行官 artweb.com
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓