# 搜索技術剖析:blekko 的 NoSQL 數據庫
> 原文: [http://highscalability.com/blog/2012/4/25/the-anatomy-of-search-technology-blekkos-nosql-database.html](http://highscalability.com/blog/2012/4/25/the-anatomy-of-search-technology-blekkos-nosql-database.html)

*這是 blekko 的首席技術官 Greg Lindahl 的來賓帖子([第 2 部分](http://highscalability.com/blog/2012/5/28/the-anatomy-of-search-technology-crawling-using-combinators.html),[第 3 部分](http://highscalability.com/blog/2012/7/9/data-replication-in-nosql-databases.html)),該網站是垃圾郵件免費搜索引擎,3 月的獨立訪問者超過 350 萬。 Greg Lindahl 是 PathScale 的創始人兼杰出工程師,當時他是 InfiniPath 低延遲 InfiniBand HCA 的架構師,該架構用于構建緊密耦合的超級計算集群。*
想象一下,您已經瘋狂到足以考慮構建搜索引擎了。 這是一項艱巨的任務:回答大多數查詢所需的最小索引大小是數十億個網頁。 要對數十億個網頁進行爬網和建立索引,就需要一個群集,其中包含幾 PB 的可用磁盤(即幾千個 1 TB 的磁盤),并且產生的索引大小約為 100 TB。
快速提供查詢結果涉及將大多數索引放在 RAM 或固態(閃存)磁盤上。 如果您可以以 3,000 美元的價格購買具有 100 GB RAM 的服務器,那么這 1,000 臺服務器的資本成本為 300 萬美元,加上每年服務器托管成本(電源/散熱/空間)約為 100 萬美元。SSD 替代方案需要 更少的服務器,但是每秒提供更少的查詢,因為 SSD 比 RAM 慢得多。
您可能會認為,亞馬遜的 AWS 云將是降低啟動搜索引擎成本的好方法。 不是,原因有四個:
1. 爬網和建立索引一直需要大量資源; 您有時無法僅通過租用大多數服務器來省錢。
2. 亞馬遜目前不出租帶有 SSD 的服務器。 將索引放入 Amazon 的 RAM 中非常昂貴,并且僅對擁有幾%市場份額的搜索引擎有意義。
3. 亞馬遜僅出租有限數量的磁盤 I / O 與內存大小與核心數量的比率。 事實證明,相對于其他所有產品,我們需要大量的磁盤 I / O,這使 Amazon 的成本效益降低。
4. 在某種集群規模下,一家初創公司具有足夠的規模經濟優勢,可以超過亞馬遜的成本+利潤率。 在發布時(2010 年 11 月),blekko 擁有 700 臺服務器,而我們目前有 1,500 臺。 這遠遠超出了收支平衡點。
## 軟件
那僅僅是硬件:我們還需要一個軟件系統來管理存儲以及對集群中 Web 爬網和索引數據的訪問。 我們的目標之一是設計一種存儲體系結構,當在搜索引擎環境中使用 Web 大小的數據集時,將為程序員帶來生產力上的優勢。
我們的目標是:
* 一種將數據存儲在類似于數據庫表的系統中
* 同一集群中的實時(查詢服務)和批處理(爬網和索引)處理
* 添加對倒排索引的直接支持的能力,該索引非常適合系統的其余部分
* 出色的程序員生產力,包括:
* 無縫集成主要實現語言的數據存儲和數據結構
* 抵抗常見的數據庫和群集數據庫問題,例如熱點和死鎖/活鎖
* 數據存儲區,可實現常規數據庫操作(如 BASE 和 CRUD),并有效地實現并協助并行編程結構(如工作隊列)。
* 支持快速完成初始批處理作業結果的周轉時間,從而使程序員可以快速發現其批處理作業做錯了什么
* 可擴展到數千個磁盤設備:
* 磁盤故障是將群集擴展到大尺寸時最常見且令人討厭的問題
* 面對故障逐漸退化
* 理想情況下,群集故障 1%只會使處理能力和存儲量減少 1%。 例如,在節點上重建 RAID 卷期間,服務器上 RAID 的使用不當會導致吞吐量降低超過 1%。 此外,磁盤故障在大型集群中非常常見,以至于我們希望在準備好一次,一周或一個月后修復多個節點之前就不需要人工干預。
* 由于可用性的原因,我們希望使用群體算法來實現盡可能多的子系統,而不是使用 Paxos 來選擇主節點。 [https://zh.wikipedia.org/wiki/Paxos_algorithm](https://en.wikipedia.org/wiki/Paxos_algorithm)
## 組合器
在傳統的數據庫系統中,對數據庫的更新是在事務中完成的,其中程序鎖定數據庫的一行或多行,進行一些更改,然后提交或中止整個事務。 大多數 NoSQL 數據庫都將事務限制為鎖定&來修改單個行,并限制可以在事務內完成的計算類型。
在 blekko 的數據存儲區中,我們嚴重依賴于稱為合并器的構造在數據庫單元級別進行處理。 組合器是對數據庫單元進行的原子操作,該操作是關聯的,最好是可交換的。 “ Add(n)”是一個簡單組合器的示例; 它將 n 加到單元格中的任何數字上。 至關重要的是,它不會將總和返回給調用方。 它只是啟動加法。
如果一堆數據庫節點想在數據庫的同一單元中加 1,而又不了解該單元的最終值是什么,則可以將這些操作組合到集群中的層次結構中,從而進行最終的磁盤操作 是一個將初始增量之和相加的操作。

加法是關聯和可交換的事實意味著我們(最終)將在此單元格的所有 3 個副本中獲得相同的答案。 組合的層次結構意味著與天真的實現相比,事務總數大大減少了,因為天真的實現每個過程都直接與單元的 3 個副本進行對話,而每個加法操作都會導致 3 個立即事務。
### 日志計數組合器
搜索引擎經常需要計算一組中的唯一項。 示例包括計算網站的鏈接數,鏈接到該網站的唯一地理區域的數量以及鏈接到該網站的唯一的 C 類 IP 網絡的數量等等。 盡管我們總是可以運行 MapReduce 作業來獲得這些項目的準確計數,但我們希望在任何時間點都知道這些計數。 保持完美的計數將需要保留大量數據,因此我們發明了一種**近似方法**,該方法僅用 16 個字節就可以對多達十億個事物進行計數,精度為±50%。
該組合器(我們稱為對數計數)以可交換和關聯的方式實現-您可以將其中兩個的位與進行組合以合并其計數。 它還具有以下屬性:如果您多次計數任何字符串,則最多只能更改一次答案。 最后一個屬性意味著它是可重新運行的,即如果在數據庫中進行了兩次相同的事務,則答案不會改變。
### TopN 組合器
搜索引擎的另一種常見操作是記住集合中最重要的 N 個項目。 這用于我們不想記住集合中的所有項目以減小尺寸的情況。 例如,我們可能希望經常將最重要的 2500 個傳入 URL 的[錨文本]( https://en.wikipedia.org/wiki/Anchor_text)訪問到我們曾經抓取過的每個 URL。
TopN 組合器可以在適合數據庫的單個單元格的有限大小的數組中表示前 N 個 URL:

隨著我們抓取新的網頁,可以對 TopN 組合器進行增量更新,并且這些更新的價格不昂貴。 可以在單個磁盤操作中讀取它,而無需索引或排序或讀取不位于前 N 個位置的 URL 的任何數據。感謝用于決定哪個 URL 最適合 N 的行列,它是可交換的 和關聯。 而且它可以重新運行。
如果我們使用時間作為排名,則可能會有其他技巧。 這使我們能夠有效地記住最近的 N 個事物或最早的 N 個事物。
到目前為止,我們已經在數據庫表中將組合器用作單個單元格。 也可以在我們程序中的變量中使用**; 它們的實現將它們存儲為字符串,讀取值需要調用“ finalize”函數。 例如,此功能將日志計數中的 16 個字節的位字段轉換為整數的近似項目數。**
### 元組合器:哈希組合器
如果數據庫中的一個單元格包含(鍵,值)對的哈希,則哈希元組合器可用于原子地僅更新一些(鍵,值)對,其余的保持不變。 這給了我們極大的自由,可以將數據庫中的列設置為對程序員有意義的列,而不必為了使原子地進行更改而必須將多余的內容提升為列。
### 減少地圖/縮小
由于我們用組合器表示數據庫表,為什么不使用組合器來改組并減少 MapReduce 作業的輸出? 然后我們可以編寫遍歷數據庫中某個表的 MapJob,然后使用組合器將其輸出寫回到數據庫中。 讓我們對網絡進行字數統計:
> “ / crawl / url”中的 foreach 行
>
> html 列中的 foreach 單詞
>
> comb_add(“ / wordcount”,word,1)
在此偽代碼中,我們遍歷表/ crawl / url 中的所有 html 文檔,對于找到的每個單詞,我們在表“ / wordcount”中增加相應的行。 編程人員不再需要考慮改組/減少步驟應以哪種**中間形式**作為輸入,或指定減少功能。
這種單詞計數方法的第二個特點是,上述功能還可以在流上下文中使用**,將新抓取的文檔的單詞計數添加到表“ / wordcount”中的現有計數。 表示 MapReduce 計算的通常方法不能在流計算中使用相同的代碼。**
第三個功能是該 MapJob 的第一個輸出在 MapJob 啟動后的幾分鐘后出現在/ wordcount 表中。 大多數 MapReduce 系統直到每個分片完成后才開始隨機播放和還原。 具有**快速,部分答案**可使程序員更快地找到其 MapJob 中的錯誤。
## 我們是否實現了所有要求?
現在,我們已經在這個本地數據存儲上擁有近 3 年的運營經驗,現在很高興回頭看看,我們基本上滿足了我們預先設定的所有要求。 在本文的初始篇中,我們僅討論了數據存儲的部分功能,但是我們在這里討論的內容已廣為人知。 我們的數據存儲區:
* 看起來像表格數據庫
* 在同一集群中支持實時和批處理
* 支持高程序員效率
在本系列的下一部分中,我們將更詳細地研究 Web 爬網,并使用組合器實現爬網程序。
這篇文章中的所有內容看起來都很簡單容易。 我希望人們不要錯過這里介紹的算法和數據庫調用的類型具有可伸縮性。 經驗法則(我剛剛完成)是只要您將數據存儲區調用的大部分都考慮為可交換的,您做對了,它就會擴展并可以期望。 我敢打賭,該系統不僅可以在水平方向上很好地縮放,而且可以在單臺機器上高效地運行,并且在垂直方向上也可以很好地縮放。 這個系統不僅是 BIG-DATA,它還是 EFFICIENT-BIG-DATA,這更重要,因為它的大小:)不錯的文章,加上 plus100 也可避免沉迷于流行詞的不必要使用:)
>快速提供查詢結果涉及將大多數索引放在 RAM 或固態(閃存)磁盤上。
僅當查詢在查詢空間之間均勻分布時,這才是正確的。 在現實生活中,查詢空間由一小部分“熱”(經常請求)查詢和一長串“冷”(很少請求)查詢組成。 因此,在從 I / O 綁定存儲中服務“冷”查詢的同時,可以在 RAM 中僅緩存一小部分索引,這對應于“熱”查詢。 這可以顯著減少索引所需的 RAM 量,同時保持良好的 qps。
搜索查詢往往有一個“長尾巴”,因此專用于僅服務于頭部的 ram 會使大多數查詢脫離緩存。 我們努力在所有查詢的 95/99%上實現目標延遲-我們在辦公室的大型狀態監視器上具有跟蹤此延遲的圖形,以及在我們掉線時會喚醒人們的操作警報。 對于主流搜索服務而言,在 50%的查詢上實現合理的延遲是不夠的。 具有 SLA 的合作伙伴也不會接受該級別的性能。
日志計數組合器上的準確性是否正確? 那么,100,000 意味著 50,000 至 150,000 之間的東西? 如果是這樣,我很好奇具有這種準確性的計數將達到什么目的。 另外,我應該首先說這看起來很酷。 是否有計劃實施后續文章,還是 Blekko 秘密調味醬過多? 謝謝。
讓我們做簡單的數學。 100Tb 索引對應于 50 x 2Tb HDD。 每個 HDD 可以執行 100 IOPS(10 毫秒隨機搜尋延遲)。 因此 50 個 HDD 可以執行 5K qps。 這意味著該應用程序可以輕松地每秒處理 5K 個“冷”索引查詢,每個查詢具有 10ms 的延遲,而無需計算從 RAM 執行的數百萬個“熱”索引查詢。 如果將 HDD 替換為 SSD,則“冷”索引查詢的性能可以輕松提高到 500K qps 甚至更高。
日志計數示例:計算到 URL 的入站鏈接數。 在 0 和 1(合格)入站鏈接之間的差值中大約有與在 128 和 256 之間相同的信號。對于像這樣的對數分布上出現的現象,用兩個作品的漸進冪中的誤差進行近似計數。
實際上,我們有一個新的組合器,該組合器在我們的系統中大部分已替換為 logcount,稱為 adapcount。 您以字節為單位指定要使用的空間量,使用的空間越多,精度越好。 因此,對于 2k,您可以有+/- 5%的值(我忘了細節)。
噢,是的,我完全忘記提及 logcount 有很多朋友,這些朋友更大,更精確。 最不精確的版本用于我們擁有大量統計數據的地方,就像我們為 180 億個網頁所保留的統計數據一樣,我們已經看到了鏈接但尚未抓取。
當第一句話包含“無垃圾郵件搜索引擎”時,我差點彎腰閱讀。 但是哎呀,我束手無策:
http://blekko.com/ws/site:bigresource.com
這是一個非常有趣的帖子。 您是否會碰巧有更多關于組合器和系統技術細節的文章/白皮書或其他資源? 聽起來很有趣:)
感謝分享
藝術
聽起來像一個有趣的小項目。
如果要為職位實施垂直搜索引擎,應該使用哪個數據庫?
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓