# 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
> 原文: [http://highscalability.com/blog/2014/6/16/migrating-to-xtradb-cluster-in-ec2-at-pagerduty.html](http://highscalability.com/blog/2014/6/16/migrating-to-xtradb-cluster-in-ec2-at-pagerduty.html)

*這是軟件通才 [Doug Barth](https://twitter.com/dougbarth) 的來賓帖子,他目前發現自己在 [PagerDuty](https://www.pagerduty.com/) 從事運營工作。 在加入 PagerDuty 之前,他曾在芝加哥的 Signal 和在線旅游公司 Orbitz 任職。*
大約六個月前,PagerDuty 將其生產 MySQL 數據庫切換為在 EC2 內部運行的 [XtraDB 群集](http://www.percona.com/software/percona-xtradb-cluster) 。 這是我們為什么以及如何進行更改的故事。
## 在之前的數據庫外觀
PagerDuty 的 MySQL 數據庫是相當典型的部署。 我們有:
* 一對 Percona 服務器將數據寫入支持 [DRBD](http://www.drbd.org/) 的卷。
* 支持 DRBD 卷的主服務器和輔助服務器的 EBS 磁盤。
* 生產數據庫的兩個同步副本。 (如果主服務器發生故障,我們希望能夠快速切換到輔助服務器而不丟失任何數據。)
* 許多異步復制從屬服務器,用于災難恢復,備份和意外修改恢復。
## 舊設置出現問題
我們的數據庫設置已經為我們服務了好幾年,但是它提供的故障轉移架構沒有達到我們的可靠性目標。 另外,更改主機很麻煩:要從一臺 DRBD 主機切換到另一臺主機,我們必須在主服務器上停止 MySQL,卸載 DRBD 卷,將輔助服務器更改為主服務器狀態,在該輔助服務器上安裝該卷并啟動 MySQL。 該設置需要停機-并且一旦 MySQL 在新服務器上啟動并運行,我們就有了一個冷緩沖池,需要在應用程序性能恢復正常之前進行預熱。
我們嘗試使用 Percona 的 buffer-pool-restore 功能來縮短停機時間,但是我們的緩沖池太大了。 我們發現,恢復保存的緩沖池頁面使用的系統資源要比緩慢處理傳入請求的流量要多。
另一個問題:如果發生計劃外的翻轉,我們的異步奴隸將無法恢復。 我們將 binlog 存儲在單獨的,非 DRBD 支持的磁盤上,并禁用了 sync_binlog(由于引入了性能上的損失)。 這種設置意味著我們需要在計劃外翻轉之后從備份中還原異步從屬服務器。
## 我們喜歡 XtraDB 群集
關于 XtraDB Cluster 的一些事情很突出。
* 不用擁有主動和被動服務器對,我們可以讓 三個 實時服務器在彼此之間同步復制更改。 這將使我們能夠更快地移動連接。
* 由于 XtraDB 群集是多主服務器,因此它使我們可以將流量發送到多臺服務器,從而確保每臺服務器始終具有暖緩沖區。 在 XtraDB 群集中,異步從屬服務器可以將任何節點用作主服務器,并且可以在節點之間移動而不會破壞復制流。
* 群集的自動節點配置非常適合我們現有的自動化。 配置新節點后,我們要做的就是提供另一個節點的地址-新節點將自動接收數據集的副本(并在同步后加入集群)。
## 我們準備了什么
為 XtraDB Cluster 準備我們的應用程序確實涉及一些新的約束。 其中一些是簡單的 MySQL 調整,大部分對應用程序邏輯是隱藏的,而另一些則是更基本的更改。
在 MySQL 方面:
* 我們需要確保僅使用具有主鍵的 InnoDB 表。
* 我們必須確保我們的應用程序不依賴于啟用的查詢緩存(因為集群不支持它)。
* 我們必須從基于語句的復制切換到基于行的復制。
除了這些 MySQL 配置更改(我們能夠在 DRBD 服務器端隔離測試)之外,還需要更改應用程序邏輯:
* 我們需要使用分布式鎖定機制,因為 MySQL 鎖定(例如 SELECT FOR UPDATE 語句)對于群集節點而言是本地的。
* 因此,我們用 [Zookeeper](http://zookeeper.apache.org/) 鎖替換了我們的 MySQL 鎖(Zookeeper 已在該系統的其他部分中用于該目的)。
* 考慮到需要將寫入集同步發送到所有節點這一事實,我們更改了進行較大更改的作業(通常是存檔作業)的邏輯,以使用許多較小的事務而不是一個較大的事務。
## 我們如何處理架構變更
模式更改在 XtraDB 群集中尤其重要。 有兩個選項可用于控制如何在集群中應用架構更改:總訂單隔離(TOI)和滾動架構升級(RSU)。
RSU 允許您單獨升級每個節點,在 DDL 語句運行時從群集中取消該節點的同步,然后重新加入群集。 但是這種方法可能會帶來不穩定性-RSU 無法避免大型表上的架構更改帶來的操作問題(因為它會在 DDL 語句完成之前將寫集緩沖在內存中)。
相比之下, TOI 在所有 集群節點上同時對 應用模式升級,阻塞集群直到更改完成。 我們決定將 TOI 與 Percona 的在線模式更改工具(pt-online-schema-change)一起使用。 它確保任何阻塞操作都很快,因此不會阻塞群集。
## 遷移過程
建立了 XtraDB Cluster 引入的約束后,我們開始了推廣過程。
首先,我們在生產中建立了一個集群,作為現有 DRBD 數據庫的從屬。 通過使該群集在生產環境中運行并接收所有寫入流量,我們可以開始了解它在實際生產負載下的行為。 我們還設置了指標收集和儀表板來關注集群。
與此同時,我們花了一些時間對測試集群進行負載測試,以量化其相對于現有 DRBD 設置的性能。
運行這些基準測試使我們發現,必須對一些 MySQL 配置進行調整才能獲得我們一直喜歡的性能水平:
* 將 innodb_flush_log_at_trx_commit 設置為 0 或 2 可獲得最佳寫入性能(相反,將其設置為 1,則將測試可擴展性限制為只能在我們的測試 VM 上使用 4 個線程)。 由于所有更改都被復制到 3 個節點,因此即使出現單個節點的磁盤一致性寬松的情況,我們也不會丟失任何數據。
* 需要一個大的 innodb_log_file_size 值。 我們最終為生產服務器提供了 1GB 的文件。
在讓我們感到滿意的是 XtraDB Cluster 能夠處理我們的生產負荷之后,我們開始了將其移入生產用途的過程。
首先將所有測試環境切換到群集設置(并針對它們運行負載和故障測試)。 如果集群掛起,我們需要一種方法來快速將我們的系統重新配置為回退到單節點集群。 我們編寫了該過程的腳本,并在負載下對其進行了測試。
實際上,將生產服務器移動到集群是一個多步驟的過程。 我們已經將生產集群設置為現有 DRBD 服務器的從屬服務器,因此我們站起來并從屬另一對 DRBD。 (這臺 DRBD 服務器在那里,以防萬一切換出現嚴重錯誤,我們需要退回到基于 DRBD 的解決方案,幸好我們最終不必這樣做。)
然后,我們將其余的異步從屬設備(災難恢復,備份等)移到了 XtraDB 集群后面。 那些奴隸坐在 XtraDB 集群后面,我們執行了正常的奴隸升級過程,將生產流量轉移到新系統。


## 實際效果:收益
經過六個多月的生產使用,我們發現在 XtraDB 群集上運行有很多好處:
* 我們已經成功執行了生產集群的滾動重啟和升級,而沒有停止生產流量。
* 我們已經使用 pt-online-schema-change 在生產系統上執行了模式修改。
* 我們已經優化了如何處理寫沖突。 XtraDB Cluster 在遇到沖突時會返回死鎖錯誤-即使使用 pt-online-schema-change 執行快速 DDL 語句時也是如此。 沖突導致我們的應用服務器返回 503 響應,負載平衡層將捕獲該響應。 負載平衡器隨后將在另一臺服務器上重試該請求。
## 現實世界的表現:煩惱
在此過程中,我們還發現了一些令人沮喪的問題:
* 某些集群的關鍵狀態計數器是有狀態的,這意味著它們在運行“ SHOW GLOBAL STATUS”后重置為零。 這使得很難監視系統中的關鍵計數器(例如流量控制),這些計數器很少增加,但對于了解系統的行為至關重要。 (但是,此問題已在 XtraDB Cluster 5.6 使用的 Galera 3.x 中修復。)
* ActiveRecord 的 MySQL 適配器隱藏了事務語句引發的異常,這些異常在發生寫入集沖突時發生。 (此錯誤已在 Rails 4.1 中修復了 [。)](https://github.com/rails/rails/pull/12779)
* 我們還有很多工作要做,以解決服務器不正常的問題。 當前,我們的應用程序服務器連接到本地 HAproxy 實例,該實例將其連接轉發到單個群集節點。 為了進行計劃內的維護,我們在將流量完全分配給另一個群集節點之前,先將其緩慢釋放到另一個群集節點以對其緩沖池進行預熱。 將來,我們計劃切換到完全多主機設置,以確保所有節點都具有熱緩沖池。
很棒的帖子!
出于好奇,您是否發現具有 RBR 的集群提高了總體交易吞吐量? 您有可衡量的性能提升嗎?
在查看 pt-online-schema-change 時,看來基于行的復制格式可能存在一些問題,尤其是在涉及觸發器時(pt-osc 用于確保將更改寫入新的臨時表) 。 這是您必須處理的事情嗎?
http://dev.mysql.com/doc/refman/5.5/en/replication-features-triggers.html
#1221372 如果服務器是基于行的復制中的從服務器
,則 pt-online-schema-change 應該會出錯
https://bugs.launchpad.net/percona-toolkit/+bug/1221372
#1225577 pt-online-schema-change 可以靜默刪除行
https://bugs.launchpad.net/percona-toolkit/+bug/1225577
對于使用 pxc 的人來說,架構更新過程是什么樣的?
問候。
集群中有多少數據(大致數字)? 我正在嘗試將數據遷移到具有非常大的表的類似設置(大約 60 GB)中,并始終使用臨時空間來打不同類型的障礙,并且在使用 mysqldumps 時集群不響應。 舊設置包含一個相當舊的 MySQL 版本。
香港專業教育學院
在為群集提供生產寫入流量之前,我們僅對群集運行人為基準。 這些基準測試表明群集的性能與獨立服務器一樣,但應注意,sysbench 不會強調 RBR 與 SBR 的局限性。 (在單個事務中修改的行數很大)
因為我們的表都沒有使用觸發器,所以我們不需要處理任何觸發器問題。 如果您在表上定義了觸發器,則 pt-osc 將不起作用。 錯誤#1221372 不會影響我們,因為我們總是在主服務器上運行 pt-osc。
根據操作類型的不同,我們的架構升級會有所不同。 使用 Rails 遷移運行創建/刪除表。 Alter 表是使用 pt-osc 運行的,我們手動插入 Rails 遷移行以將該遷移標記為完成。
什么,
我們的數據庫有幾百個 GB,表的大小各不相同(幾兆最大> 100 GB)。 我還沒有遇到任何有關臨時空間的問題。 對于 mysqldump,也許您遇到流控制問題? 如果讓 mysqldump 針對群集節點運行并且執行 FTWRL,則由于該節點無法提交掛起的寫集,因此將迅速啟動流控制。
如果要從群集節點提取備份,則需要處理該問題。 您可以在備份期間將節點從群集中取消同步,切換到另一個備份系統(如 xtrabackup),或使用事務進行一致的備份(僅需要 InnoDB 表)。 對于我們來說,我們有一個專用于備份的主機,它是集群的異步從機。 這樣,備份過程帶來的任何額外負擔都不會影響我們的生產集群。
希望有幫助!
Mika,
我們正在運行一個非常相似的系統。 從 Doug 的描述中,聽起來就像他們遵循了 PXC“參考體系結構”一樣。 對我們來說,無論數據集大小如何,它都可以完美地工作。 一些現成的 Web 應用程序不能很好地與 PXC 配合使用,并且其中的大多數約束已在 OP 中列出。 我想在幾點上進行擴展:
1-最新版本支持“更多”查詢緩存,并且可以在啟動配置中對其進行配置。 我們通過在 MySQL 進程啟動后讓操作員將 QC 大小設置為非零來解決早期的限制。
2-臨時 MyISAM 表不復制。 當 DDL 指向其他表時,這將導致在其他節點上記錄錯誤。 它還可以防止依賴臨時表的應用程序擴展到單個節點之外。
3-編碼不正確的應用程序可能會在群集上遇到認證錯誤(沖突),并且不會重試該語句。 可以將自動提交配置為對依賴它的應用程序自動重試。
InnoDB 上的 4- FULLTEXT 索引僅在 5.6 上受支持。 但是 5.6 對我來說似乎還不完全成熟-從 PXC 版本中已修復的錯誤數量來看。 但是至少 Percona 似乎在努力工作。
有一個僅在 5.6 中修復的 bug 擊中了我們,但它本身表現為在群集的滾動更新期間 mysql 進程崩潰,因此該更新僅在零停機時間內回滾。 Percona 很快就解決了這個問題,即使我們不是付費客戶,我也非常滿意他們的溝通(可以為從事 PXC 工作的人員找到聯系信息)。
要回答您的問題(部分是這樣):Percona 創建了一個出色的工具“ XtraBackup”,可以進行在線備份。 在體驗了 XtraBackup 之后,真的沒有回過 mysqldump 了。 看看,確實沒有與該工具進行備份的比較。
道格,
如果使用 PHP,是否嘗試在客戶端主機上使用 mysqlnd_ms 而不是 HAProxy? 關于 mysqlnd_ms 的任何評論? 看起來很有趣,但是我不確定我是否愿意放棄客戶端主機上 HAProxy 提供的穩定性,控制性和可見性。
-V
我們在一個國家/地區中確實有一個 percona Xtra 數據庫集群(Master-Master -Master)設置,而我們希望在其他國家/地區中設置災難恢復設置。請提出一種最佳的實現方法嗎? 提前致謝!
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓