# HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
> 原文: [http://highscalability.com/blog/2014/1/6/how-hipchat-stores-and-indexes-billions-of-messages-using-el.html](http://highscalability.com/blog/2014/1/6/how-hipchat-stores-and-indexes-billions-of-messages-using-el.html)

*本文來自 [Zuhaib Siddique](http://www.linkedin.com/in/zuhaib) 的采訪, [HipChat ]](https://www.hipchat.com/) , 團隊聊天和即時消息的制造商。*
HipChat 始于一個不尋常的領域,您可能認為它沒有太大的希望,即企業組消息傳遞,但是隨著我們了解到那里有金 [企業群 [](http://www.developereconomics.com/still-building-consumer-apps-enterprise-pays-4x/) 。 這就是為什么 Atlassian 是 JIRA 和 Confluence 之類的工具開發者,他們 [在 2012 年收購了 HipChat](http://blog.hipchat.com/2012/03/07/weve-been-acquired-by-atlassian/) 。
在一個不經常聽到的故事中,大父母的資源和聯系實際上幫助 HipChat 進入了 [指數增長周期](https://s3.amazonaws.com/uploads.hipchat.com/10804/368466/10joz8sztfw4dfc/HipChat1B.jpg) 。 他們已達到 12 億條消息存儲標記,現在正每隔幾個月發送,存儲和建立索引的消息數量就增加一倍。
這種增長給曾經足夠的基礎架構帶來了巨大壓力。 HipChat 展示了一種常見的縮放模式。 從簡單開始,經歷流量激增,然后思考我們現在該怎么辦? 通常,使用大型計算機是最佳的選擇。 他們做到了。 這給了他們一些喘息的空間,以便弄清楚下一步該怎么做。 在 AWS 上,在某個拐點之后,您將開始使用 Cloud Native,即水平擴展。 這就是他們所做的。
但是故事有一個轉折。 除了云/ SaaS 版本之外,安全方面的考慮還推動了本地版本的 HipChat 的開發。 我們將在本周晚些時候的[帖子](http://highscalability.com/blog/2014/1/8/under-snowdens-light-software-architecture-choices-become-mu.html)中詳細討論這一有趣的發展。
雖然 HipChat 并非 Google 規模,但可以從 HipChat 中學習很多有關它們如何及時索引和搜索數十億條消息的知識,這是 IRC 和 HipChat 之類的主要區別。 在不丟失消息的情況下索引和存儲負載下的消息是挑戰。
這是 HipChat 走的路,您可以學到什么? 讓我們看看…
## 統計信息
* 每秒 60 條消息。
* 已存儲 12 億個文檔
* 4TB EBS 突襲
* AWS 上的 8 臺 ElasticSearch 服務器
* 26 個前端代理服務。 在后端應用服務器中將其翻倍。
* 18 人
* 0.5 TB 的搜索數據。
## 平臺
* **托管**:帶有 75 個實例的 AWS EC2 East 當前全部為 Ubuntu 12.04 LTS
* **數據庫**:當前用于聊天記錄的 CouchDB,正在過渡到 ElasticSearch。 MySQL-RDS 的其他所有功能
* **緩存**:Redis
* **搜索**:ElasticSearch
* **隊列/工作服務器**:Gearman(隊列)和 [Curler](https://github.com/powdahound/curler) ,(工作人員)
* **語言**:Twisted Python(XMPP 服務器)和 PHP(Web 前端)
* **系統配置**:開源 Chef + Fabric
* **代碼部署**:Capistrano
* **監視**:Sensu 和 monit 泵送警報到 Pagerduty
* **圖表**:statsd + Graphite
## 產品
* 交通非常繁忙。 在周末和節假日,這里會很安靜。 在高峰負載期間,每秒數百個請求。 聊天消息實際上并不占流量的大部分; 它是狀態信息(離開,空閑,可用),人們在連接/斷開連接等。因此,每秒 60 條消息可能看起來很低,但這只是一個平均值。
* HipChat 希望成為您的通知中心,您可以在這里與團隊合作,并從工具和其他系統獲得所有信息。 幫助使每個人都處于循環中。 特別是在遠程辦公室。
* 之所以在 IRC 上使用 HipChat 的主要原因是,HipChat 可以存儲和索引每個會話,以便以后可以搜索它們。 強調搜索,因此您可以留在 HipChat 中。 使用此功能對團隊來說是個勝利,您可以隨時返回并記住發生了什么以及您同意做什么。 它還會將消息路由到同一用戶擁有的多個設備,并在發送消息時無法訪問您的設備時進行臨時消息緩存/重試。
* 增長來自更多的客戶,但隨著更多的客戶在每個站點使用該產品,其參與度也隨之提高。 他們的 API 集成也看到了增長。
* 消息的存儲和搜索是其系統中的主要可伸縮性瓶頸。
* HipChat 使用 XMPP,因此任何 XMPP 客戶端都可以連接到系統,這對于采用是一個巨大的勝利。 他們建立了自己的本機客戶端(Windows,Linux,Mac,iOS,Android),并具有擴展功能,例如 PDF 查看,自定義表情符號,自動用戶注冊等。
* 不久前,將 Wiki 之類的工具引入企業文化幾乎是不可能的。 現在,企業級工具似乎已被接受。 為什么現在?
* 基于文本的通信現在很普遍并且被接受。 我們擁有短信,IM 和 Skype,因此現在很自然地使用聊天工具。
* 分散的工作團隊的興起。 團隊越來越分散。 我們不能只是一起坐下來聽講座。 需要記錄所有內容,這意味著組織交流被視為一項重要資產。
* 增強功能。 內嵌圖像,gif 動畫等功能使它變得有趣,吸引了更廣泛的人群。
* HipChat 具有 [API](https://www.hipchat.com/docs/api) ,該 API 使得可以編寫類似于 [IRC 機器人](http://en.wikipedia.org/wiki/Internet_Relay_Chat_bot)的工具。 示例用法用于 Bitbucket 提交。 在 10:08,開發人員 X 提交了一些代碼來修復錯誤。 它通過 HipChat 發送,并直接鏈接到代碼提交和提交日志。 全部自動化。 Bitbucket 提交擊中了 Web 鉤子,并使用其中一個插件發布信息。 插件可幫助您編寫自己的機器人。 轉到您的 Bitbucket 帳戶。 假設我有我的 API 令牌,并且每次提交時都想發布到此 API。 對于 GitHub 類似地工作。
* 從客戶端上的 Adobe Air 開始,它泄漏了內存并會關閉計算機。 因此移至本機應用程序。 痛苦,但很好。 他們在公司各個部門的所有平臺上都有用戶。 您需要成為用戶所在的地方。 希望用戶在所有操作系統上都擁有出色的體驗。 用戶是所有人,而不僅僅是技術專家。
## XMPP 服務器體系結構
* HipChat 基于 XMPP,消息是 [XMPP 節](http://xmpp.org/rfcs/rfc3920.html) 內的任何內容,可以是一行文本或日志的較長部分 輸出。 他們不想談論他們的 XMPP 體系結構,因此沒有很多細節。
* 他們沒有使用第三方 XMPP 服務器,而是使用 Twisted Python 和 XMPP 庫構建了自己的服務器。 這允許創建可擴展的后端,用戶管理以及輕松添加功能,而無需與其他人的代碼庫抗衡。
* AWS 上的 RDS 用于用戶身份驗證以及事務和 SQL 有用的其他區域。 這是一項穩定,可靠的技術。 對于本地產品,他們使用 MariaDB。
* Redis 用于緩存。 諸如哪些用戶位于哪個房間,狀態信息,誰在線等信息,因此與連接到哪個 XMPP 服務器無關緊要,XMPP 服務器本身不是限制。
* 痛點是 Re??dis 尚未聚類(尚未)。 為了實現高可用性,使用了熱/冷模型,因此從器件可以使用了。 從主節點到從節點的故障轉移大約需要 7 分鐘。 奴隸促銷是手工完成的,不是自動化的。
* 增加的負載暴露了代理服務器以及它們可以處理多少個客戶端的弱點。
* 這是一個實際的問題,因為不丟失消息是一個高度優先事項。 客戶表示不丟棄消息比低延遲更重要。 用戶寧愿遲到也不愿遲到。
* 使用 6 個 XMPP 服務器,系統運行良好。 隨著連接數量的增加,他們開始看到不可接受的延遲。 連接不僅來自客戶端,還包括支持其編程界面的機器人。
* 作為第一步,他們將前端服務器和應用程序服務器分開。 代理處理連接,后端應用程序處理節。 前端服務器的數量由活動的偵聽客戶端的數量決定,而不是由發送的消息數決定。 在提供及時服務的同時保持如此多的連接打開是一個挑戰。
* 解決數據存儲問題后,計劃將研究如何優化連接管理。 Twisted 效果很好,但是它們之間有很多聯系,因此必須弄清楚如何更好地處理它。
## 存儲體系結構
* 在 HipChat 上增長的 10 億條消息不斷增長的同時,他們突破了 CouchDB 和 Lucene 解決方案存儲和搜索消息的限制。
* 認為 Redis 將是失敗點。 以為 Couch / Lucene 就足夠了。 沒有進行適當的容量規劃,也沒有查看郵件的增長率。 增長速度超出了他們的想象,因此不應該過多地關注 Redis 而是關注數據存儲。
* 當時,他們相信通過增加更多的功能進行擴展,然后再升級到越來越大的 Amazon 實例。 他們認為,隨著這種方法的發展,這種方法只能再使用 2 個月。 因此,他們必須做一些不同的事情。
* Couch / Lucene 一年未更新,因此無法進行修改。 另一個原因的另一個原因。
* 在亞馬遜上大約有十億條消息是一個轉折點。 有了專用服務器和 200 Gig 的 RAM,它們以前的體系結構可能仍然有效,但在資源有限的云中卻無法實現。
* 他們想留在亞馬遜上。
* 喜歡它的靈活性。 只需旋轉一個新實例并進行調整即可。
* 亞馬遜的脆弱讓您發展得更好。 不要將所有雞蛋都放在一個籃子里,如果某個節點出現故障,您已經處理好了,否則某些用戶的流量將會丟失。
* 使用動態模型。 可以快速丟失實例并啟動新實例。 云原生類型的東西。 隨時殺死一個節點。 殺死 Redis 大師。 5 分鐘后恢復。 目前已劃分為所有四個美國東部可用區,但尚未跨多個區域。
* EBS 僅使您擁有 1TB 的數據。 他們碰到這個限制時還不知道這個限制。 使用 Couch,他們遇到了 EBS 磁盤大小限制的問題。 HipChat 的數據為 0.5 TB。 要進行壓縮,Couch 必須將數據復制到壓縮文件中,從而使空間增加了一倍。 在周末進行壓縮時,在 2 TB RAID 上達到極限。 不需要 RAID 解決方案。
* 無法選擇 Amazon DynamoDB,因為他們正在啟動 HipChat 服務器,這是防火墻后面的托管服務。
* HipChat Server 推動技術堆棧上的決策。 私有版本是您自己的解決方案的主機。 某些客戶無法使用云/ SaaS 解決方案,例如銀行和金融機構。 NSA 嚇壞了國際客戶。 雇用了兩名工程師來創建產品的可安裝版本。
* Redis Cluster 可以是自托管的,并且可以像 ElasticSearch 一樣在 AWS 上運行。 他們使用本地版本的 MariaDB 代替 RDS。
* 無法考慮完整的 SaaS 解決方案,因為這將是一個鎖定。
* 現在過渡到 ElasticSearch。
* 已移至 ElasticSearch 作為其存儲和搜索后端,因為它可以吃掉他們可以提供的所有數據,它具有很高的可用性,只需添加更多節點即可透明地進行擴展,它是多租戶的,可以通過分片和透明方式進行透明 復制處理節點丟失,它建立在 Lucene 之上。
* 確實不需要 MapReduce 功能。 研究了 BigCouch 和 Riak Search(看起來效果不佳)。 但是 GET 上的 ES 性能相當不錯。 喜歡刪除組件的想法,少了一件麻煩的事。 ES HA 使他們對系統的可靠性感到非常有信心。
* 與 Lucene 兼容是一個巨大的勝利,因為他們所有的查詢都已經與 Lucene 兼容,因此這是自然的遷移途徑。
* 客戶數據千差萬別,從聊天記錄到圖像,因此響應類型無處不在。 他們需要能夠快速引導來自超過 12 億個文檔的查詢數據。
* 在一個越來越普遍的舉動中,HipChat 也將 ElasticSearch 用作其鍵值存儲,從而減少了所需的數據庫系統數量,從而降低了整體復雜性。 性能和響應時間是如此之好,他們以為為什么不使用它呢? 響應時間在 10 毫秒至 100 毫秒之間。 它在某些區域擊敗了 Couch,而前面沒有任何緩存。 為什么要使用多種工具?
* 使用 ES 時,節點可能會宕機而沒有人注意,您將在重新平衡時收到有關 CPU 使用率過高的警報,但它一直在困擾。
* 有 8 個 ES 節點來處理流量的增長。
* 與所有基于 Java 的產品一樣,JVM 調整可能很棘手。
* 要使用 ES,必須對您要使用的堆空間進行容量規劃
* 測試緩存。 ES 可以緩存過濾器結果,速度非常快,但是您需要大量的堆空間。 在 8 個盒子上有 22 個堆的內存時,打開了緩存后,內存耗盡。 因此,除非有計劃,否則請關閉緩存。
* 緩存出現問題,因為它會遇到內存不足錯誤,然后失敗。 群集在幾分鐘內自我修復。 只有少數用戶注意到了問題。
* 由于網絡不可靠,Amazon 上的自動故障轉移是有問題的。 在集群中,這可能會導致選舉錯誤地發生。
* 用 ElasticSearch 解決這個問題。 最初有 6 個 ES 節點作為主節點運行。 節點將耗盡內存或遇到 GC 暫停,最重要的是網絡丟失。 然后其他人將不再能看到主人,也無法舉行選舉并宣布自己為主人。 他們的選舉架構存在缺陷,即他們不需要法定人數。 因此,出現了腦裂。 兩位大師。 造成了很多問題。
* 解決方案是在專用節點上運行 ElasticSearch 主服務器。 他們要做的就是成為主人。 從那以后一直沒有問題。 母版負責處理分片的分配方式(主要是誰),并映射副本分片的位置。 由于主機可以以出色的性能處理所有重新平衡,因此使重新平衡更加容易。 可以從任何節點查詢,并將自己做內部路由。
* 使用月份索引。 每個月都是一個單獨的索引。 每個主索引都有 8 個分片,然后在其上有兩個副本。 如果一個節點丟失,系統仍然可以運行。
* 沒有將 RDS 移入 ES。 他們需要 SQL 的東西留在 RDS / MariaDB 中,通常是用戶管理數據。
* 在主/從設置中,Redis 中有大量緩存,直到發布 Redis Cluster。 有一個 Redis stat 服務器,它在一個房間里,并且離線。 Redis 歷史記錄會緩存最后 75 條消息,以防止在首次加載會話時不斷訪問數據庫。 內部狀態或快速數據的狀態,例如登錄的人數。
## 常規
* Gearman 用于異步工作,例如 iOS 推送和傳遞電子郵件。
* AWS West 用于災難恢復。 一切都會復制到 AWS West。
* Chef 用于所有配置。 ElasticSearch 為廚師提供了不錯的食譜。 易于上手。 與 Chef 一樣,因為您可以開始編寫 Ruby 代碼,而不使用 Puppet 風格的 DSL。 它還有一個不錯的活躍社區。
* 采集經驗。 他們現在可以使用公司的核心資產和人才,但是 Atlassian 不會弄亂什么可行,我們出于某種原因向您購買了。 可以在內部詢問,例如,如何擴展 ElasticSearch 以及 Atlassian 中的其他人何時需要幫助才能介入。總體而言,良好的經驗。
* 團隊結構扁平。 還是一個小團隊。 目前約有 18 人。 兩個人在發展。 平臺,iOS,Android,服務器端的一些開發人員以及 Web 開發工程師(法國)。
* Capistrano 用于部署到所有盒子。
* Sensu 用于監視應用程序。 忘記監視 ElasticSearch 節點的堆空間,然后遇到 OOM 問題,而沒有任何通知。 當前占堆的 75%,這是他們想要的最佳位置。
* Bamboo 用于連續集成。
* 客戶端尚未正式發布,由開發人員驅動。 有一個測試的暫存區。
* 組標志。 可以控制哪些組獲得功能以測試功能,以緩慢釋放功能并控制包裝盒上的負載。
* 功能標志。 例如,非常適合在 ElasticSearch 推出期間提供保護。 如果他們發現錯誤,則可以關閉功能并回滾到 Couch。 用戶不會注意到差異。 在 Couch 和 ElasticSearch 之間的過渡階段,他們將應用程序復制到兩個商店。
* 新的 API 版本將使用 Oauth,因此開發人員可以使用 HipChat API 在自己的服務器上進行部署。 讓客戶使用自己的服務器是一種更具可擴展性的模型。
## 未來
* 將在幾個月內達到 20 億條消息,并且估計 ElasticSearch 可以處理大約 20 億條消息。 不確定如何處理預期的負載增加。 期望去 Amazon West 以獲得更多的數據中心可用性,并可能使更多的用戶進入不同的數據中心。
* 希望使用 AWS 的自動擴展功能。
* 進入語音,私人 1-1 視頻,音頻聊天,基本會議。
* 將來可能會使用 RabbitMQ 進行消息傳遞。
* 與 Confluence(Wiki)進一步集成。 使用 HipChat 交談,然后使用 Confluence 頁面捕獲詳細信息。
## 課程
* **企業應用程序**中有很多錢。 向企業推銷可能會遭受酷刑。 較長的銷售周期意味著可能會遇到麻煩。 但是如果你成功了,那將是一個有利可圖的關系。 因此,您可能要考慮企業市場。 時代在變。 企業的發展可能仍然緩慢而緩慢,但是他們也正在采用新的工具和做事方式,那里有機會。
* **隱私變得越來越重要,并且在出售給企業**時會影響您的堆棧選擇。 HipChat 正在制作其產品的內部版本,以滿足不信任公共網絡或云數據的客戶的需求。 對于程序員來說,云作為平臺是非常有意義的。 對于企業而言,云可能是邪惡的。 這意味著您必須做出靈活的技術堆棧選擇。 如果您 100%依賴 AWS 上的服務,則幾乎不可能將系統移至另一個數據中心。 對于 Netflix 而言,這可能并不重要,但是如果您想向企業市場銷售產品,那就很重要。
* **放大以獲得一些呼吸空間**。 在等待弄清楚體系結構的下一步工作時,只需很少的錢,您就可以擴大規模,并給自己提供幾個月的呼吸空間。
* **選擇不能失敗的內容**。 HipChat 將永不丟失用戶聊天歷史記錄作為優先級,因此其體系結構將此優先級反映到將聊天記錄保存到磁盤,然后在宕機的系統恢復后重新加載。
* **轉到本地** 。 您的客戶在許多不同的平臺上,本機應用程序將提供最佳體驗。 對于擁有大量資源的創業公司來說,太多了??。 因此,在某個時候,將產品出售給擁有更多資源的公司是有意義的,以便您可以開發出更好的產品。
* **功能和組標志是更好的發行實踐** 。 如果您可以選擇要查看功能的組,并且可以在生產和測試中關閉功能,那么您不必擔心發布新版本。
* **選擇您真正對** 充滿信心的技術。 ElasticSearch 橫向擴展以應對增長的能力使 HipChat 對他們的解決方案充滿信心。 那個用戶會很高興的。 感覺很好。
* **成為過程流的一部分,您變得更有價值,并且很難刪除** 。 HipChat 作為人與工具之間的自然交匯點,也是編寫實現各種有用的工作流程 hack 的機器人的自然點。 這使 HipChat 成為企業中的平臺。 它啟用了原本無法構建的功能。 而且,如果您能夠做到這一點,那么就很難擺脫它。
* **AWS 需要單獨的節點存在總線** 。 荒謬的是,在云本身本身就是一件事,就是無法從客觀的第三方來源獲得機器狀態信息。 如果您查看機架,它將經常有一條單獨的狀態總線,因此插槽可以知道其他插槽是否可用。 這樣,您不必猜測。 在云中,軟件使用基于 TCP 的原始連接技術和心跳來猜測另一個節點何時關閉,這可能導致腦裂問題和故障轉移時的數據丟失。 現在是時候發展,并朝著可靠性邁出重大一步。
* **產品決策驅動器堆棧決策** 。 HipChat 服務器在技術堆棧上驅動決策。 Redis Cluster 可以是自托管的。 不能選擇 Amazon DynamoDB,因為他們正在防火墻后啟動托管服務。
* **在問題上投入很多精力只會使您到目前為止**。 您甚至需要在云中制定容量計劃。 除非您的架構從一開始就完全是 Cloud Native,否則任何架構都將具有負載拐點,在這些拐點處其架構將不再能夠處理負載。 看增長率。 投影出來。 什么會壞? 您將如何處理? 而且不要再犯同樣的錯誤。 HipChat 將如何處理 40 億條消息? 不清楚。
* **知道系統的限制** 。 EBS 的存儲限制為 1 TB,這很多,但是如果您的存儲量接近該限制,則需要制定計劃。 同樣,如果您的數據庫(如 Couch)在壓縮階段使用兩倍的磁盤空間,這將影響您的限制。
* **世界會讓您感到驚訝**。 六個月前,HipChat 認為 Redis 將是最弱的一環,但它仍將保持強勁,而 Couch 和 EBS 是最弱的一環。
## 相關文章
* [在 Reddit 上](http://www.reddit.com/r/programming/comments/1ujzel/scaling_hipchat_with_elasticsearch_and_redis/) / [在黑客新聞](https://news.ycombinator.com/item?id=7015179)上
* [為什么您仍在構建消費者應用程序? 企業支付的費用是原來的 4 倍!](http://www.developereconomics.com/still-building-consumer-apps-enterprise-pays-4x/)
* [HipChat 如何擴展到 10 億條消息](http://blog.hipchat.com/2013/10/16/how-hipchat-scales-to-1-billion-messages/)
* Reddit on [HipChat 如何擴展到 10 億條消息-HipChat 的工程師 Zuhaib Siddique 解釋了其如何使用 CouchDB,ElasticSearch 和 Redis 來處理站點的負載](http://www.reddit.com/r/programming/comments/1svjjo/how_hipchat_scales_to_1_billion_messages_zuhaib) 。
* [HipChat 搜索現在由 Elasticsearch 支持](http://blog.hipchat.com/2013/08/12/hipchat-search-now-powered-by-elasticsearch/)
* [HipChat ElasticSearch 聚會視頻+幻燈片](http://zuhaiblog.com/2013/12/04/hipchat-elasticsearch-meetup-video-slides/)
* [SF ElasticSearch Meetup-HipChat 如何擴展為 1B 消息](http://www.youtube.com/watch?v=K2P7l98Uj9c)
26 臺前端服務器,每秒 60 條消息,似乎很重。
不錯的誠實寫作,謝謝。 非常豐富。
是的 每秒 60 條消息是不夠的。 這是錯字嗎?
嗯 RTFA。
60 是平均,而不是一周中的全部 604800 秒。 有山峰。
我確定大多數前端服務器都用于與客戶端的連接。 每個開放的客戶端都需要維護與服務器的連接才能獲取聊天消息。 每秒那 60 條消息是進來,而不是出去。 我猜如果所有的客戶都在投票的話將會高出一噸。
這是最好的文章,我已經讀過很長時間
Mirza Tarkash
我不知道從持久性的角度來看,它們如何處理 Redis 固有的 50%故障率。 或者也許對他們是否看到類似的表現發表評論...
從 http://www.infoq.com/articles/jepsen
在 2000 次寫入中,Redis 聲稱其中 1998 年已成功完成。 但是,最終集中只有 872 個這些整數。 Redis 放棄了聲稱成功的 56%的寫入。
Alex,絕對沒有“ Redis 固有的 50%失敗率” ...我不確定您是否正確地理解了這一點。 特別是在(希望!)罕見的“裂腦”問題中,這是一個關于他們使用它的目的(并且希望每個人都將它用于輕量級工作隊列)的完全可以接受的問題。 我很高興將 Redis 用于 API 服務器上的作業隊列以及從 Logstash 進行提取,其失敗率為 0。
此外,本文還特別提到海拔是手動的,這種情況不會發生。 更進一步,沒關系,除了后端的負載。 這些是緩存服務器,而不是關鍵任務數據。 這確實是您完全不用擔心 ACID 合規性或幻像寫操作的情況。
很棒的文章。 肯定有幫助。
我確實要指出,盡管最后一段存在一些拼寫和語法問題:
> 這個世界會讓您感到驚訝。 六個月前,HipChat 雖然 Redis 可能是最薄弱的一環,但它的表現仍然很強勁,而 Couch 和 EBS 是最薄弱的一環。
非常好的文章,但與許多服務器相比,數字 60 很小。 可能在“高峰時段”運送 600 或 6000
是否曾經考慮過將 Cloudant 作為擴展 CouchDB 的選擇? 它適用于 Hothead Games。
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓