# 優步變得非常規:使用司機電話作為備份數據中心
> 原文: [http://highscalability.com/blog/2015/9/21/uber-goes-unconventional-using-driver-phones-as-a-backup-dat.html](http://highscalability.com/blog/2015/9/21/uber-goes-unconventional-using-driver-phones-as-a-backup-dat.html)

在[中,Uber 如何擴展其實時市場平臺](http://highscalability.com/blog/2015/9/14/how-uber-scales-their-real-time-market-platform.html),最吸引人的提示之一是 Uber 如何使用驅動程序電話作為外部分布式存儲系統進行恢復來處理數據中心故障轉移。
現在我們從 Uber 的 [Nikunj Aggarwal](https://www.linkedin.com/pub/nikunj-aggarwal/20/878/3b4) 和 [Joshua Corbin](https://www.linkedin.com/in/joshuatcorbin) 了解了更多有關該系統的工作原理,他們在 [@Scale](http://www.atscaleconference.com/) 會議上發表了非常有趣的演講: [。Uber 如何將您的手機用作備份數據中心](https://www.youtube.com/watch?v=0EhTOKcwRok)。
Uber 并未使用傳統的后端復制方案,在該方案中,數據庫在數據中心之間同步狀態以實現 [k-safety](https://my.vertica.com/docs/5.0/HTML/Master/10730.htm) 的度量,而 Uber 做了一些不同的事情,他們要做的是將足夠的狀態存儲在驅動程序電話上,以便在數據中心進行故障轉移時 發生故障信息不會在故障轉移上丟失。
為什么選擇這種方法? 傳統方法會簡單得多。 我認為這是要確保客戶始終擁有良好的**客戶體驗**,并且由于主動出行而丟失行程信息會帶來可怕的客戶體驗。
通過圍繞電話建立他們的同步策略,甚至認為它很復雜且需要大量工作,Uber 能夠保留旅行數據并即使在數據中心發生故障時也能提供無縫的客戶體驗。 使客戶滿意是至關重要的,尤其是在**接近零轉換成本**的市場中。
因此,目標是即使在數據中心故障轉移時也不會丟失行程信息。 使用傳統的數據庫復制策略,由于與[網絡管理系統](http://whatis.techtarget.com/definition/network-management-system)始終必須工作的方式類似的原因,不可能做出此保證。 讓我解釋。
在網絡設備中,狀態信息的權威來源是**,例如分組錯誤,警報,發送和接收的分組等等。 網絡管理系統對諸如警報閾值和客戶信息之類的配置數據具有權威性。 麻煩的是設備與網絡管理系統并不總是保持聯系,因此它們不同步,因為它們彼此獨立地工作。 這意味著在啟動,故障轉移和通信重新連接時,所有這些信息都必須使用復雜的舞蹈在兩個方向上合并,以確保正確性和一致性。**
Uber 有同樣的問題,只有設備是智能手機,而手機所包含的權威狀態是出行信息。 因此,在啟動,故障轉移和通信重新連接時,必須保留行程信息,因為電話**是行程信息**的權威來源。
即使失去連接,電話也能準確記錄所有行程數據。 因此,您不希望將行程數據從數據中心向下同步到手機,因為這會清除手機上的正確數據。 正確的信息必須來自電話。
Uber 還從網絡管理系統中吸取了另一招。 他們定期查詢電話以測試數據中心中信息的完整性。
讓我們看看他們是如何做到的...
## 將電話用作數據中心故障存儲的動機
* 不久前,發生故障的數據中心將導致客戶旅行丟失。 現在已解決。 在數據中心發生故障時,客戶可以立即返回旅途,幾乎沒有明顯的停機時間。
* 將旅行的請求,提供給駕駛員的旅行,接受的旅行,上車的乘客以及結束旅行的過程稱為**狀態更改轉換**。 只要行程持續,行程交易就持續。
* 從行程開始起,便在后端數據中心中創建了行程數據。 似乎每個城市都有一個指定的數據中心。
* **數據中心故障的典型解決方案**:將數據從活動數據中心復制到備份數據中心。 很好理解,并且可以很好地工作,具體取決于您的數據庫。 缺點:
* 超出了兩個備份數據中心的復雜性。
* 數據中心之間的復制滯后。
* 它需要數據中心之間的恒定高帶寬,特別是如果您的數據庫對數據中心復制沒有很好的支持,或者您尚未調整業務模型來優化增量。
* (一個尚未被談論的好處,對于 Uber 而言可能并不重要,但對于較小的參與者而言可能是重要的,因為駕駛員電話計劃通過不必為數據中心間的帶寬支付那么多錢來補貼帶寬成本。 )
* **具有創造力的應用程序意識的解決方案**:由于與駕駛員電話的持續通信只是將數據保存到駕駛員電話。 優點:
* 可以故障轉移到任何數據中心。
* 避免了電話故障轉移到錯誤的數據中心的問題,這將導致丟失所有行程。
* 使用驅動程序電話來保存數據中心備份需要復制協議。
* 與數據中心通信時,會發生所有狀態轉換。 例如,有一個 Begin Trip 或 Begin Drive 請求,這是與手機交換狀態數據并擁有手機存儲數據的絕佳機會。
* 在數據中心故障轉移上,當電話 ping 新數據中心時,需要從電話中請求行程數據。 停機時間非常短。 (沒有有關如何處理數據中心地圖的信息)。
* 挑戰:
* 并非駕駛員可以訪問所有保存的行程信息。 例如,一次旅行有很多關于所有騎手的信息,這些信息不應該被公開。
* 必須假設驅動程序手機可能受到攻擊,這意味著必須對數據進行防篡改。 因此,所有數據都在手機上進行了加密。
* 希望保持復制協議盡可能簡單,以便于推理和調試。
* 最小化額外帶寬。 使用基于電話的方法,可以調整要序列化的數據和保留的增量,以最大程度地減少移動網絡上的流量。
* 復制協議
* 一個簡單的鍵值存儲模型用于鍵操作的獲取,設置,刪除,列表。
* 只能設置一次密鑰,以防止意外覆蓋和亂碼消息問題。
* 設置了一次之后,規則版本控制就必須移入密鑰空間。 更新存儲的行程的過程如下:set(“ trip1,version2”,“ yyu”); delete(“ trip1,version1”)。 這樣做的好處是,如果在設置和刪除之間出現故障,將存儲兩個值,而不存儲任何值。
* 故障轉移解決方案只需通過以下方法在電話和新數據中心之間合并密鑰即可:將存儲的密鑰與駕駛員已知的任何正在進行的行程進行比較; 對于任何丟失的數據,可能會向手機發送一個或多個 *get* 操作。
## 他們如何獲得系統大規模運行的可靠性
### 目標
* **確保系統未阻塞,同時仍提供最終的一致性**。 即使系統關閉,系統中的任何后端應用程序也應能夠取得進展。 應用程序應該做出的唯一權衡是,將數據存儲在手機上可能要花費一些時間。
* **能夠在數據中心之間移動而不必擔心已有的數據**。 需要一種在驅動程序和服務器之間協調數據的方法。
* 當故障轉移到該數據中心具有活動驅動程序和行程的視圖的數據中心時,該數據中心中的任何服務都不知道發生了故障。
* 在故障恢復到原始數據中心時,驅動程序和旅行數據過時,這會帶來糟糕的客戶體驗。
* **使其可測試**。 數據中心故障很少見,因此通常很難測試。 他們希望能夠不斷地衡量系統的成功,以便他們可以確信故障轉移在發生時將成功。
### 流程
* 駕駛員進行更新/狀態更改,例如,載客。 該更新是對調度服務的請求。
* 調度服務更新了行程的行程模型。 該更新將發送到復制服務。
* 復制服務將請求排隊并返回成功。
* 調度服務更新其自己的數據存儲并將成功返回給移動客戶端。 也可能會返回其他數據,例如,如果是 Uber 泳池旅行,則可能需要接載其他乘客。
* 在后臺,復制服務對數據進行加密并將其發送到消息服務。
* 消息服務維護所有驅動程序的雙向通道。 此通道與驅動程序用來與服務進行通信的原始請求通道分開。 這確保了正常的業務運營不會受到備份過程的影響。
* Messenger Service 將備份發送到電話。
* 這種設計的好處:
* **應用程序已與復制延遲和故障**隔離。 復制服務將立即返回。 應用程序只需要進行廉價調用(在同一數據中心內)即可復制數據。
* **消息服務支持電話的任意查詢,而不會影響正常的業務運營**。 可以將電話視為基本鍵值存儲。
### 在數據中心之間移動
* 第一種方法是**在故障轉移**上手動運行腳本,以從數據庫中清除舊狀態。 由于有人必須這樣做,因此該方法具有**手術疼痛**。 由于可以一次或多次在多個城市進行故障轉移,因此腳本變得太復雜了。
* 回想一下,它們的鍵值數據庫中的鍵包含行程 ID 和版本號。 版本號曾經是一個遞增號。 更改為**修改矢量時鐘**。 使用**手機上的矢量時鐘數據可以與服務器**上的數據進行比較。 任何因果關系違規都可以被發現并解決。 這解決了進行中的行程的協調問題。
* 傳統上,已完成的旅行將從手機中刪除,因此復制數據不會無限制地增長。 問題在于,當故障恢復到原始數據中心時,該數據中心將具有陳舊的數據,這可能會導致調度異常。 該修復程序在旅途完成時使用了特殊的[墓碑](https://en.wikipedia.org/wiki/Tombstone_(data_store))鍵。 該版本帶有一個標志,指示旅程已完成。 當復制服務看到該標志時,它可以告訴調度服務該行程已完成。
* 存儲旅行數據非常昂貴,因為它是 JSON 數據的加密大塊。 完成的行程需要更少的存儲空間。 可以將一個星期的已完成旅行與一個活動旅行存儲在同一空間中。
### 確保 99.99%的可靠性
* 故障轉移系統不斷進行測試,以建立其正常工作以及故障轉移將成功的信心。
* 第一種方法是各個城市的**手動故障轉移**。 然后通過查看日志來查看還原和調試問題的成功率。
* **高手術疼痛**。 每周手動執行此過程無效。
* **糟糕的客戶體驗**。 對于少數未能正確恢復的行程,必須調整票價。
* **低覆蓋率**。 一次只能測試幾個城市,并且由于某些問題僅針對特定城市,這可能是由于具有特定于城市的新功能所致,這些錯誤將被忽略。
* **不知道備份數據中心是否可以處理負載**。 有一個主數據中心和一個備用數據中心。 即使它們的配置相同,您如何知道備份數據中心可以解決雷電群問題,即故障轉移時發生的大量請求。
* 為了解決這些問題,他們**研究了他們要測試的系統中的關鍵概念**。
* **確保調度服務中的所有突變實際上都存儲在電話中**。 例如,司機接客后可能會失去連接,因此復制數據可能不會立即發送到電話。 需要確保最終將數據發送到手機。
* **確保可以將存儲的數據用于復制**。 例如,是否存在任何加密/解密問題。 在合并備份數據時是否有任何問題?
* **確保備份數據中心可以處理負載**。
* 為了監視系統的運行狀況,誕生了監視服務。
* 服務每小時都會從調度服務中獲取所有活動駕駛員和行程的列表。 對于所有驅動程序,消息服務用于獲取復制數據。
* 然后比較數據以查看數據是否符合預期。 這產生了許多良好的健康指標,例如失敗的百分比。
* 按地區和應用程序版本劃分指標對于查明問題有很大幫助。
* **影子恢復**用于測試備份數據中心。
* Monitoring Service 收集的數據被發送到備份數據中心以進行影子恢復。
* **成功率**是通過使用 Dispatch Service 查詢和比較來自主數據中心的快照與活動的驅動程序和來自備份數據中心的行程的數量來計算的。
* 還計算了有關備份數據中心如何處理負載的指標。
* 這種方法可以解決備份數據中心中的任何配置問題。
## 相關文章
* [關于 Hacker News 3](https://news.ycombinator.com/item?id=10446835) / [關于 HackerNews](https://news.ycombinator.com/item?id=10253158) / [關于 HackerNews 2](https://news.ycombinator.com/item?id=10271850) / [關于 reddit](https://www.reddit.com/r/programming/comments/3mp4al/uber_goes_unconventional_using_driver_phones_as_a/)
* [數據服務與 Uber 搭便車](https://www.youtube.com/watch?v=Dg76cNaeB4s)
我在職業生涯中花費了大量時間來構建可在對等數據庫上運行的應用程序,因此我看到了這種好處。 文章未涉及的一件事是,在多大程度上使用手機上的本地數據可以對開發人員提高生產力。
數據字段可以由應用添加,而無需在客戶端/服務器/數據庫堆棧之間協調架構。 對等同步在開發環境中也很方便,因此您的手機可以“修復”在開發筆記本電腦上運行的數據中心。 這樣,您可以從云中的真實數據中心加載數據,重建應用程序,并將其同步到工作臺。
一旦接受了點對點數據模型,許多拓撲選擇就會成為后期綁定。 數據可以根據需要進行分配。 這帶來了各種開發和部署靈活性,例如此處所述的故障轉移彈性。
很好,因此它們不僅是螺絲刀,而且現在也減輕了他們的能源和存儲負擔。 要走的路,布伯。
這種方法不是新方法,也無法解決任何問題。
如果您的數據中心無法處理故障轉移,則不妨鎖上辦公室的門并扔掉鑰匙。
一旦計劃好行程,很明顯電話必須具有離線數據,以確保駕駛員到達目的地不會有問題。 這里的假設是數據中心可能會發生故障,但是設備呢? 到處都是死區,當您輸入死區時,您的設備將沒有數據,因此如果沒有離線數據,您將陷入死水。
與其花時間和精力來想出這種方案,不如研究如何構建堅如磐石的 DC 更好。
客戶體驗的這場革命不僅為客戶帶來了新的便利,而且被證明是一種成功的商業模式。 例如,Uber 已經從僅在舊金山運營,發展成為全球發展最快的企業之一。 您現在可以在 35 個國家/地區“購物”。 同樣地,像 Lyft 這樣的競爭對手似乎也通過這種新生的客戶體驗劇變而朝著世界統治方向發展。
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓