# Google 如何針對行星級基礎設施進行行星級工程設計?
> 原文: [http://highscalability.com/blog/2016/7/18/how-does-google-do-planet-scale-engineering-for-a-planet-sca.html](http://highscalability.com/blog/2016/7/18/how-does-google-do-planet-scale-engineering-for-a-planet-sca.html)

Google 如何保持其所有服務正常運行? 他們似乎從來沒有失敗過。 如果您想知道我們在 [GCP NEXT 2016](https://cloudplatformonline.com/next2016-schedule.html) 上發表的演講中的精彩幕后花絮, [Melissa Binde](https://www.linkedin.com/in/mbinde) ,Google Storage SRE 總監: [Google 如何針對行星級基礎架構](https://www.youtube.com/watch?v=H4vMcD7zKM0)進行行星級工程。
梅利莎(Melissa)的講話很簡短,但充滿智慧,而且以一種胡說八道的方式表達出來,使您認為服務是否失敗梅利莎(Melissa)絕對是您想要的那種人。
哦,什么是 SRE? 它代表*站點可靠性工程*,但定義更難以理解。 就像您要求道的定義時得到的答案一樣。 正如 Google 的本·斯洛斯(Ben Sloss)24x7 副總裁所明確指出的那樣,這不僅僅是一個過程,更是一個過程,他將 SRE 定義為:
> 當軟件工程師承擔了過去稱為操作的任務時會發生什么。
讓它在您的頭部反彈一會兒。
最重要的是,有一件事很清楚:SRE 是生產的保管人。 SRE 是 google.com 和 GCP 的客戶體驗的托管人。
對我來說,一些演講重點:
* **點檢正常運行時間的破壞性激勵與功能**相比。 SRE 試圖解決想要推送功能的開發人員與想要通過不推送功能來維持正常運行時間的系統管理員之間的天然緊張關系。
* **錯誤預算**。 這就是預期會失敗的想法。 這不是一件壞事。 用戶無法確定服務的運行時間是 100%還是 99.99%,因此您可能會出錯。 這減少了開發人員和運營人員之間的緊張關系。 只要維持錯誤預算,您就可以推出新功能,而運營方也不會受到指責。
* **目標是立即恢復服務。 故障排除將在稍后進行。** 這意味著在恢復服務后,您需要大量日志記錄和工具來進行調試。 由于某種原因,這使[較早的文章](http://highscalability.com/blog/2014/2/3/how-google-backs-up-the-internet-along-with-exabytes-of-othe.html)上的內容閃爍了起來,同樣基于 Google SRE 的講話:*備份無用。 這是您關心的*還原。
* **沒有無聊的分頁哲學**。 當頁面進入時,應該是一個有趣的新問題。 您不希望無聊的 SRE 處理重復性問題。 這就是機器人的目的。
演講中其他有趣的話題是:SRE 的組織結構如何? 如何聘請開發人員擔任側重于生產的角色并使他們滿意? 我們如何保持團隊在 Google 內部的價值? 我們如何幫助我們的團隊更好地溝通并解決與數據而非斷言或權力奪取的分歧?
讓我們繼續吧。 以下是 Google 如何針對行星級基礎設施進行行星級工程...
## 保持平衡:點檢正常運行時間的破壞性動機與功能
* 系統管理員會在站點正常運行時獲得 Cookie 的正常運行時間。 當網站停滯不前時,我們會吸引訪問者,訪問者會給我們錢。
* 開發人員會獲得功能的 Cookie。 發布一個新功能,訪問者來了,他們給了我們錢。
* 生產凍結,也就是新功能的凍結,通常映射為增加正常運行時間。
* 開發人員和系統管理員之間存在天生的緊張關系。 開發人員會獲得發布功能的 Cookie。 系統管理員會獲取 Cookie 以確保正常運行時間。
* 因此,系統管理員因阻止新功能發布而獲得獎勵。 如果開發人員能夠解決系統管理員的問題,他們將獲得獎勵。
* 開發人員進行他們所謂的 Beta 測試是為了盡快發布功能。
* 系統管理員執行他們所謂的啟動審核,以減慢新功能。
* 您的團隊將所有的時間都花在彼此抗爭上,因此您會增加停機次數,風險,混亂和無政府狀態。
* 您想要的是消除異想天開的命令。 請按規則處理,以便團隊可以有目標并共同努力。
* 與 devops 一樣,有一種方法可以使開發人員和操作人員一起工作。 問題是,devops 無論走到哪里都有不同的含義。 相反,SRE(站點可靠性工程)定義明確。
* **SRE:** **當您要求軟件工程師設計和運行操作時會發生什么情況**-Ben Sloss 24x7 VP,Google
* 軟件工程師-事實證明,當知道軟件的人也運行服務時,服務可以更好地運行。 他們對什么使它打勾有深刻的理解。
* 設計和運行-實際上是設計您的生產環境,而不是讓它成為意外的事故。
* 假設有 1000 個 SRE 在 Google 的基礎架構上工作:網絡,計算,存儲等。有多少個 SRE 負責云計算?
* 所有。
* google.com 和 GCP(HTG1)的運行之間沒有界限。 不需要讓云團隊和內部團隊進行溝通的開銷。 他們創造了一種環境,可以幫助所有人協同工作。
## 技能:SRE 是一個印章團隊和圣職
* 本節的標題是我的描述。 具有技能的 SRE 必須是精英。 在工作方面,他們僅致力于這種幾乎準神秘的事物,稱為生產。
* SRE 必須比開發人員更熟練,才能完成相同的工作:
* 他們需要更大的技能范圍。
* 所有 SRE 必須通過完整的軟件開發人員面試才能被錄用。
* 所有 SRE 必須通過一次非抽象的大型系統設計采訪。
* SRE 必須具有相同的軟件技能,這是不同的應用領域。
* 開發人員專心于產品經理并制作功能。
* SRE 依賴于生產,以使生產達到最佳狀態。
* **當將面向開發和面向生產的觀點結合在一起時,最終的設計會更強大**。
* 入職流程示例給出了 SRE 帶來的一個示例,該過程在將團隊的項目置于 SRE 的責任之下時發生。 在評估團隊的軟件時,他們發現:
* 當達到規模時,它將在生產中失敗。
* 開發人員已隱式假定某種呼叫不會失敗。
* 他們假設請求的分配是均勻的。
* 他們以為不會受到用戶的關注。
* 他們假定所有請求的大小均處于平均水平。
* 他們在兩條尾巴上失敗了(沒有給出解釋)。
## 組織:為開發人員提供不讓運營工作積聚的理由
* 該系統必須設計為不增加運營工作,因為如果開發人員不從事工作,他們將不會那么在意。
* **SRE** 的開發預算。 如果您的系統的運營開銷很大,那么您獲得的開發人員就不會那么多,那么您就無法推廣那么多的功能。
* SRE 具有完全不同的命令鏈。 他們有自己的副總裁,與開發副總裁分開。 這賦予了他們權力和權力。 當生產意味著他們需要拒絕時,它允許他們說不。 一堆不是的傳呼猴子。
* 當開發人員說他們可以捐贈人數時,SRE 不必接受。 SRE 可以說服務不夠重要,請自己繼續提供支持。
* SRE 是一種稀缺資源。 并非 Google 的每個團隊都有 SRE。 云確實可以,但是不是每個其他團隊,甚至不是云中的每個小服務,都只是重要的。
## 環境:如何使開發人員在生產團隊中保持快樂?
* **至少有 50%的工作需要為項目工作**。 不待命。 不是門票。 不開會。 實際上是在做項目工作。
* 如果項目工作量過多,則開發人員會為 SRE 分配更多的人員,或者將額外的工作流轉給開發人員團隊。
* 什么是項目工作?
* 通過切換基礎數據庫技術來改善服務的延遲。
* 編寫自動化以加速部署。
* 跨服務的項目。 Google 作為一項內部服務,可以由其他服務(通常由軟件 bot)在內部進行查詢,如果可以安全地將計算機停機,可以安全地將機架停機或者將數據中心安全地停機,則可以返回 Google ?
* SRE 是一支志愿軍。 沒有草稿。
* 您可以隨時轉入另一個 SRE 團隊。
* 您可以隨時轉換為 dev。
* Mission Control 是一個程序,開發人員可以在其中試用 SRE 并查看他們是否喜歡它。
* 團隊很流暢。 人們來自團隊,分享經驗,分享觀點。
## 預算:您可以支出任意預算的錯誤預算
* 如果您有 3 個 9 的可用性,目標是不將其提高到 4 個 9,那么您的錯誤預算為.1%。
* **如果您想更快地推出功能并使 GCP 變得更好,那就去做吧。 直到用盡錯誤預算。**
* 如果您希望進行較差的測試,使軟件定期出現故障并且必須不斷回滾,那么您也可以選擇該選項,但是錯誤預算很快就會用光,并且您將無法啟動 。
* 錯誤預算按季度循環。
* 有一個逃生閥:三枚銀子彈。
* 一個開發人員可以說我真的需要推動,請給我一個銀彈。
* SRE 會說“ OK”,但您必須說服 VP 您實際需要推動。
* 這個儀式聽起來很愚蠢,但功能非常強大。 它將控制權交給開發人員。 他們有 3 個靈丹妙藥,由他們的副總裁來決定是否合適。
* 錯誤預算基于每個服務。 因此,如果多個開發團隊使用相同的服務,則它們共享相同的預算。
* SRE 不在交戰的開發團隊中間。 他們必須弄清楚如何花費錯誤預算。
* 機外。 如果所有其他方法都失敗了,并且開發人員和 SRE 確實不同意,則 SRE 可以派遣開發團隊。
* 像和睦的離婚。
* 這是至關重要的逃生閥門,因此團隊在很長一段時間內都不會出現令人討厭的分歧。
* 很少見,但確實發生了。 一個示例場景是,如果團隊不想在其 ACID 類型項目中使用 Spanner,如果開發團隊說他們想建立自己的團隊,那么 SRE 團隊可以說他們不想為團隊提供支持。 去建立自己的數據庫,因為這對生產不利。
* SRE 是 google.com 和 GCP 的生產托管人,SRE 是客戶體驗的托管人。
## SRE 支持在頻譜上
* 聊天和咨詢。 與開發人員聊天。 進行白板會議。
* 協同設計。 與開發人員一起創建設計。
* 完全所有權。 完全擁有的服務。 所有容量,所有供應,所有頁面。
* 頁面是保持誠實的一種方式。 它們不是 SRE 的目的。
* 負責制作的人應該抓這些頁面,因為這樣可以使他們的皮膚保持游戲中的外觀。
* 它還有助于使 SRE 的技能,專長和觀點保持最新。
## 是什么讓事情順利進行? 文化和過程
* Google 會進行常規的培訓和通話陰影處理。
* Google 也有一個名為:**不幸輪盤**的過程-卷軸游戲。
* 一個人是地牢大師,他們有一個受害者,團隊輪流嘗試猜測發生了什么。
* Google 運行非常復雜的系統。 除了進行培訓的人之外,很少有人真正知道發生了什么以及答案是什么。
* 這對新的來電者很有用。 讓他們在受控環境中進行測試。
* 一些團隊在某些場景中會破壞生產并讓新手對其進行修復。
* 對退伍軍人也有好處。 最好重新整理您的知識,尤其是在使用非常復雜的系統時。
## 事件管理
* 場景:您正在呼叫 gmail,并且您獲得了一張票證,用戶可以看到其他用戶的電子郵件。 你是做什么? 關閉 gmail。
* **Oncallers 被完全授權采取一切措施來保護用戶,保護信息,保護 Google。** 如果這意味著要關閉 gmail 甚至關閉所有 google.com,那么作為 SRE,您的副總裁將為您提供支持,而您的 SVP 將為保護 Google 提供支持。
* **目標是立即恢復服務。 故障排除將在稍后進行。**
* 有二進制狀態的記錄。 有日志。
* 醒著,開發人員在辦公室,所有人都在時,請進行故障排除。 目的是使服務重新啟動并運行。
## 你該怪誰?
* 當“新開發者”推送代碼并破壞 google.com 達三個小時時,您應該對誰負責? a)新開發者 b)代碼審查。 c)缺乏測試(或被忽略)的測試。 d)缺乏針對代碼的適當的金絲雀程序。 e)缺乏快速回滾工具。
* 除了新開發者以外的所有東西。 **如果新開發人員編寫的代碼會導致該網站癱瘓,那不是開發人員的錯。 這是開發人員和工作人員之間所有關口的錯。**
* **絕對不允許人為錯誤傳播到人外。** 查看允許部署損壞的代碼的過程。
## 無罪的崗位形態
* 避免責備文化至關重要。
* 研究表明,大多數事件是人為錯誤引起的。
* **最好通過了解實際發生的事件來解決事件。** 不知道發生了什么的最好方法? 通過尋找責任人來揭開每一個事件。
* 人們真的很擅長隱藏,并確保沒有線索,并確保您實際上不知道發生了什么。 試圖怪罪只會使您的工作更加困難。
* 在 Google 誰搞砸了誰寫的事后驗尸。 這樣可以避免命名和遮擋。 使他們有能力糾正錯誤。 促成失敗的每個人都應盡可能誠實地參與進來,并寫下您如何陷入困境。
* 已在全體會議上給予拆除該站點的獎金,因為他們立即擁有該站點,因此他們擁有了該站點。 他們上了 IRC,并將其回滾。 他們說出來并如此迅速地照顧好他們,便獲得了獎金。
* 無賴并不意味著沒有名稱和細節。 這意味著我們不會因為事情出錯的原因而選擇別人。 不應發生諸如斷電之類的事情,應予以解雇。
* 深度防御
* 由于策略是縱深防御,因此事后評估模板將操作分為預防,檢測和緩解措施。
* **我們希望防止中斷,我們希望更快地檢測到它們,并希望減輕影響。**
* 如果類似的情況再次發生,它將不會傳播到很遠,持續太久或影響那么多的客戶。
## 分頁的無聊哲學
* 團隊喜歡看什么樣的頁面? 新的和有趣的。
* 您知道如何解決的頁面很無聊。 您應該創建一個機器人來解決該問題。
* Google 發明了許多機器人。 他們不喜歡無聊。
* 如果您可以寫下修復它的步驟,那么您可能可以編寫自動化來修復它。
* 不要做機器人可以為您做的事情。
* 構建漫游器的結果是,理想情況下,每個頁面都是全新的,因此不會感到無聊。 甚至經驗豐富的工程師也可能在每次尋呼機關閉時都看到一些新內容。
* **這是哲學的根本變化。 如果一切正常,重復的事件很少,則意味著您在調試系統時不會像以前那樣沉迷于此。**
## 需要更強大的調試工具
* **如果所有問題都是新問題,則意味著您需要更強大的調試工具來查找問題。**
* 文本日志不是調試工具。 如果您不知道要查找的內容,則無法在日志文件中查找模式的標準調試無法進行。 使用 GCP 大小的平臺,您需要瀏覽多少個外觀才能找到失敗的外觀?
* Google 嚴重依賴于各種可視化工具來解決不熟悉的問題并盡快恢復服務。
* 繪圖工具:石墨,InfluxDB + Grafana,OpenTSDB。
* 這些和其他提到的工具不是 Google 使用的工具,因此不建議使用,但它們是有用工具的開放源代碼示例。
* 很高興看到正在發生的一切。 Google 擁有數十億億個流程,因此您需要匯總視圖才能理解事物。
* **Google 在其二進制文件中放置了很多工具。** 在新情況下,您并不總是知道您要尋找的東西。
* 創建一個框架,使開發人員可以輕松地插入監視框架。
* 大量存儲空間專門用于存儲監視數據。
* **的想法是,您不想在中斷期間進行故障排除。 中斷僅與恢復服務有關。**
* 故障排除是您稍后醒來時要執行的操作。 開發人員經常參與故障排除過程,因為他們對系統有更深入的了解。
* 歷史數據必須可用,以便故障恢復后可以進行故障排除。 恢復不會導致中斷監視數據丟失。
* 這種方法可以使停機時間盡可能短,同時可以在以后解決問題。
* 事件繪圖-對于關聯事件非常有用。
* 充分利用人類的模式匹配能力,很難編寫機器人來做到這一點。
* 給出了一個圖表示例,其中每行是一個數據中心,列是時間,單元格中的顏色是事件類型。
* 這可以幫助您找到不是單個事件的模式,例如導致級聯故障的軟件推出,或者一起重復出現的錯誤簇,或者如果您看到延遲尖峰之后立即出現錯誤尖峰 重復一遍。 這些都將有助于確定問題的根本原因。
* 可視化過程跟蹤-有時您需要深入到過程級別以識別性能問題。
* 開源選項不多:Performance Co-Pilot + vector。
* Google 有一個非常復雜的框架,可將示例查詢拉入存儲并提供完整的跟蹤記錄。
* 可視化工具的優點是很難理解時間戳。 可視化工具使您可以更輕松地折疊,展開和比較事件。
* 網絡流量和容量
* 開源選項:仙人掌,天文臺和 Nagios
* 事實證明,很多存儲緩慢的問題實際上是網絡問題。
* 如果您正在查看存儲系統,但無法弄清為什么它對網絡的訪問速度很慢。
* 您需要一個工具來快速查看網絡狀態。 哪些鏈接超載? 您看到多少個包錯誤? 鏈接斷開了嗎?
* 日志文件-當所有其他失敗時
* 開源:ElasticSearch + Logstash(+ Kibana)
* 您不想遍歷日志文件。 您需要一個具有更多類似查詢的 SQL 的系統,以便您可以挖掘日志。
* 日志應易于使用且易于理解。
## Stackdriver 錯誤報告
* 如果您想看看 SRE 所擁有的那種工具的例子,那么請看 [Google Stackdriver 錯誤報告](https://cloud.google.com/error-reporting/) 。
* 這是他們能夠用于服務的內部工具。
* 通過分析堆棧跟蹤將分組錯誤并進行重復數據刪除
* 系統了解所使用的通用框架并相應地對錯誤進行分組。
* 該計劃將做更多。 Google 內部擁有廣泛的工具,他們希望向云客戶提供這些工具。
## 相關文章 [
* [在 HackerNews](https://news.ycombinator.com/item?id=12116121) 上/ [在 Reddit](https://www.reddit.com/r/programming/comments/4tg31p/how_does_google_do_planetscale_engineering_for_a/) 上
* 圖書:[網站可靠性工程:Google 如何運行生產系統](https://www.amazon.com/Site-Reliability-Engineering-Production-Systems-ebook/dp/B01DCPXKZ6)。 它是由從事實際 SRE 工作的實際 Google SRE 編寫的,是作者 500 年綜合經驗的結果。
* [大規模計算,或者說 Google 如何扭曲我的大腦](http://matt-welsh.blogspot.com/2010/10/computing-at-scale-or-how-google-has.html)
* [網站可靠性工程師-使 Google 保持 24/7 全天候運行](http://transcriptvids.com/v2/yXI7r0_J29M.html)
* [服務水平和錯誤預算](https://www.usenix.org/conference/srecon16/program/presentation/jones)
* [SREcon](https://www.usenix.org/conference/srecon16) 。 會議視頻[可用](https://www.usenix.org/conference/srecon16/program)。 看起來內容很多。
* [小組:誰/什么是 SRE?](https://www.usenix.org/conference/srecon16/program/presentation/definition-of-sre-panel)
* [策略:規劃停電的 Google 樣式](http://highscalability.com/blog/2010/3/5/strategy-planning-for-a-power-outage-google-style.html)
* [Google 如何備份互聯網以及 EB 級其他數據](http://highscalability.com/blog/2014/2/3/how-google-backs-up-the-internet-along-with-exabytes-of-othe.html)
* [什么是“網站可靠性工程”?](https://landing.google.com/sre/interview/ben-treynor.html)
* [成為 Google 的網站可靠性工程師(SRE)感覺如何?](https://www.quora.com/What-is-it-like-to-be-a-Site-Reliability-Engineer-SRE-at-Google)
* [我的警惕](https://docs.google.com/document/d/199PqyG3UsyXlwieHaqbGiWVa8eMWi8zzAn0YfcApr8Q/preview#)的哲學,作者:Rob Ewaschuk,Google SRE
* [這是 Google 確保(幾乎)永不衰敗的方式](http://www.wired.com/2016/04/google-ensures-services-almost-never-go/)
FWIW,Stack Driver 并不是他們能夠用于服務的內部工具; 這是 Google 購買的 SaaS 創業公司。
https://techcrunch.com/2014/05/07/google-acquires-cloud-monitoring-service-stackdriver/
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓