AWS 的驚人規模及其對云的未來意味著什么 · HighScalability 中文示例

# AWS 的驚人規模及其對云的未來意味著什么 > 原文： [http://highscalability.com/blog/2015/1/12/the-stunning-scale-of-aws-and-what-it-means-for-the-future-o.html](http://highscalability.com/blog/2015/1/12/the-stunning-scale-of-aws-and-what-it-means-for-the-future-o.html) ![](https://img.kancloud.cn/a3/07/a3075e716c3dffc3a91a27f669b13ee3_240x240.png) [James Hamilton](http://www.mvdirona.com/jrh/work/) ，亞馬遜副總裁兼杰出工程師，以及[博主](http://perspectives.mvdirona.com/)長期從事有趣的話題，在 [AWS 上進行了熱情洋溢的演講：](https://reinvent.awsevents.com/) [AWS 創新規模](https://www.youtube.com/watch?v=JIQETrFC_SQ) 上的 Invent 2014 。他顯然為他們正在做的工作感到自豪，這表明了。 James 分享了有關 AWS 的一些驚人數據： * 1 百萬活躍客戶 * 所有其他 14 個云提供商的總和是 AWS 總容量的 1/5（2013 年 Gartner 估計） * 2014 年發布了 449 種新服務和主要功能 * 作為一家年收入達 7 億美元的企業（2004 年），AWS 每天都會增加足夠的新服務器容量來支持亞馬遜的全球所有基礎架構。 * S3 的數據傳輸同比增長 132％ * 數據中心的網絡容量為 102Tbps。演講的主題是云是一個不同的世界。這是一個特殊的環境，允許 AWS 大規模地做偉大的事情，而您做不到的事情，這就是為什么從內部 x86 服務器到公共云的過渡正以驚人的速度發生的原因。公有云具有如此眾多的規模驅動優勢，這是無法停止的過渡。云將以您無法開始與有限資源，通才裝備，膨脹的軟件堆棧，緩慢的供應鏈和過時的創新范式匹配的速度，變得越來越可靠，功能更多，價格更低。至少是 PR 消息。但是您可以說的關于亞馬遜的一件事就是他們正在生活。他們使它成為現實。因此，一個健康的懷疑是健康的，但推斷命運的界限也是明智的。 AWS 擁??有命運決定權的多變之一是資源。在擁有一百萬個客戶的情況下，他們有足夠的規模來保持擴展和改善的動力。利潤沒有被提取出來，金錢被重新投資了。這也許是規模最重要的優勢。但是沒有聰明人的錢簡直就是浪費。亞馬遜希望您知道他們有聰明人。我們聽說過 Google 和 Facebook 如何建立自己的設備，亞馬遜也是如此。他們構建了自己的網絡設備，網絡軟件，機架，并且與 Intel 合作獲得了比市場上更快的處理器版本的處理器。關鍵是他們對環境一無所知，并且可以控制一切，因此他們可以制造出更簡單的設備來實現自己想要的功能，從而最終變得更便宜，更可靠。完全控制允許將質量指標內置到所有內容中。指標推動系統各個部分的質量不斷提高，這就是為什么在創新步伐加快的情況下，AWS 變得更加可靠的原因。大量可操作的數據轉化為知識是規模的另一個巨大優勢。 AWS 不能做的另一件事是可用區架構本身。每個可用區都是其自己的數據中心，一個區域內的可用區非常靠近。這減少了消息傳遞延遲，這意味著可以在 AZ 之間同步復制狀態，與冗余數據中心相距甚遠的典型方法相比，這可以大大提高可用性。這是一次充滿信息的演講，而且……實在太夸張了。演講的真正元主題是亞馬遜如何有意識地利用規模來獲得競爭優勢。對于亞馬遜來說，擴展規模不僅是要花的錢，如果您知道如何擴展規模，它就是一種資源。這是詹姆斯·漢密爾頓令人難以置信的談話的掩飾... ## 對話中的所有內容都具有規模 * 當 AWS 成為年收入 7B 的企業（2004 年）時，每天都會增加足夠的新服務器容量來支持 Amazon 的所有全球基礎架構。 * 一年 365 天，組件制造商必須與服務器和存儲制造商聯系，服務器和存儲制造商必須生產齒輪并將其推入物流渠道，必須將其從物流渠道轉移到正確的數據中心，它必須到達裝貨平臺，人們必須在那里將機架輪到 DC 中的正確位置，必須有電源，散熱，網絡連接，必須加載應用堆棧，必須進行測試，它必須發布給客戶。 * S3 使用率：數據傳輸量同比增長 132％； EC2 使用量：使用量同比增長 99％； AWS 的整體業務：超過一百萬的活躍客戶。 * 所有其他 14 個云提供商的總和是 AWS 總容量的 1/5（Gartner 在 2013 年估計） * 擁有超過一百萬的客戶，這意味著您處于一個豐富的生態系統中。您可以選擇軟件供應商，如果您以前遇到過別人可能遇到的問題，則可以更快地完成工作。 * 如此高的增長速度意味著亞馬遜擁有資源，可以通過增加其提供的服務的廣度和深度來繼續進行再投資和創新。 * 通常，經濟效益要好得多時，例如從大型機到 UNIX 服務器，然后從 UNIX 服務器到 x86 服務器，就會發生大的轉變。這些過渡通常需要 10 年以上的時間。 x86 本地遷移到云的不同之處在于它發生的速度。云遷移的速度是具有很高的經濟價值的功能，而且采用的摩擦也很低。您不需要軟件，不需要硬件，就可以做到。 ## 聯網中存在較大的成本問題 * 聯網是整個行業的紅色預警情況。這是一場完美的風暴。 * **問題 1** ：相對于所有其他設備的成本，網絡成本正在不斷上升。這是反摩爾定律。所有其他設備的成本都在下降，隨著時間的流逝，網絡變得越來越昂貴。每月相對費用：服務器：57％；網絡設備：8％；功率分配和冷卻：18％；功率：13％; 其他：4％。 * **問題 2** ：在網絡變得越來越昂貴的同時，網絡與計算的比率也在上升。部分原因是摩爾定律在服務器上仍在起作用，并且計算密度也在不斷提高。部分原因是，隨著計算成本的下降，執行的高級分析數量將增加，并且分析需要占用大量網絡資源。解決使用大量服務器的大問題需要大量的網絡。網絡流量已向東西方向移動，而不是傳統的 [南北方向](http://highscalability.com/blog/2012/9/4/changing-architectures-new-datacenter-networks-will-set-your.html) 。 * 5 年前，Amazon 的解決方案是數據驅動的并且是激進的：**他們根據自己的網絡設計**構建。建立了特殊路由器。雇用了一個團隊來構建協議棧，一直到頂部。他們自己將所有這些都部署在了網絡中。全球所有服務都在此設備上運行。 * **這種策略原來便宜得多**。僅網絡設備的支持合同就花費了數千萬美元。 * **可用性提高了**。改進的來源是簡單性。 AWS 試圖解決的問題比企業齒輪要解決的問題更簡單。企業設備必須遵守許多未使用的復雜規范，只會使系統更加脆弱。僅實現所需的功能就意味著可以簡化系統，從而提高可用性。任何取勝的方法都是取勝的好方法。 * **指標**的聚寶盆。他們衡量一切。規則是，如果客戶在使用他們的系統時體驗不好，他們的指標必須顯示出來。這意味著指標一直在提高，因為客戶問題推動了指標的提高。一旦有了可以準確反映客戶體驗的指標，就可以設定目標，以使系統變得更好。每周都會進行改進，以使事情變得更好。如果代碼起步不好，那么隨著時間的推移它就會變得更好。 * **可測試性**。他們的裝備更好，因為他們進行了更好的測試。企業級設備很難進行大規模測試。他們創建了一個耗資 4000 萬美元的測試平臺，其中包含 8000 臺服務器（3 兆瓦）。但是由于這是云，他們有效地租用了幾個月的服務器，因此價格相對便宜。 ## 從最上層到網絡接口卡的逐層網絡解釋 ### AWS 全球網絡骨干 * 全球 11 個 AWS 區域。根據與客戶的接近程度或所需的管轄范圍選擇要使用的那些。 * 專用光纖鏈路將大多數主要區域互連。這樣可以避免所有容量規劃問題（Amazon 可以進行更好的容量規劃），對等問題以及在公共鏈接上發生的緩沖問題。因此，運行自己的網絡速度更快，更可靠，更便宜且延遲更短。 ### 示例 AWS 區域（美國東部（（弗吉尼亞北部）） * 所有區域至少都有兩個可用區。美國東部有五個可用區。 * 冗余路徑通向運輸中心。 * 每個區域都有冗余的運輸中心。轉運中心將專用鏈接連接到其他 AWS 區域，將專用鏈接連接到 AWS Direct Connect 客戶，并通過對等和付費轉接連接到 Internet。 * 如果一個可用區發生故障，所有其他可用區繼續工作。 * 可用區之間的城域 DWDM 鏈接 * 區域中有 82,864 根纖維束 * AZ 間隔小于 2ms，通常間隔小于 1ms。從等待時間的角度來看，它們在幾公里之內非常接近。相隔足夠遠以確保安全，相隔足夠遠以獲得良好的延遲。 * 可用區之間的峰值流量為 25Tbps * AWS 提供可用區，因為： * 使用單個加固的數據中心，您將獲得的最佳可靠性約為 [99.9％](http://en.wikipedia.org/wiki/High_availability) 。高可靠性要求在兩個數據中心中運行。傳統上，數據中心的多樣性來自相距很遠的兩個數據中心，因為保持數據中心相互靠近的成本效益不高。這意味著更長的等待時間。 LA 到 NEW 是往返 74ms。提交給 SSD 的時間為 1 到 2 毫秒。您不能等待 70 毫秒以上的時間才能提交交易。這意味著應用程序在本地提交，然后復制到第二個數據中心。在故障情況下，這種設計會在故障轉移期間丟失數據。盡管真正的故障很少發生，例如建筑物燒毀，但瞬態故障更常??見，例如負載平衡器問題。那么，您是否會在 3 分鐘內對您的連接進行故障轉移？不可以，因為數據將丟失，并且需要很長時間才能從其他來源恢復該數據。因此，您將失去常見事件的可用性。 * 可用區間隔為毫秒，因此您可以同時提交兩個可用區。這意味著，如果您進行故障轉移，則由于數據復制是同步的，客戶將無法得知。它是不可見的。很難為該模型編寫代碼，因此您不會為所有事情做到這一點。對于某些應用程序，對多可用區故障的擔心也可能會阻止您使用多個可用區，但是對于其余應用程序，這是一個非常強大的模型。成本更高，但是它為 AWS 提供了某些優勢。 ### 示例 AWS 可用區 * 可用區始終是完全獨立的建筑物中的數據中心。 * 亞馬遜擁有 28 多個數據中心。加號表示 AZ 中有更多數據中心，作為擴展 AZ 能力的一種方式。在可用區中添加了更多數據中心以擴展可用區的容量。否則，即使您不想這樣做，也將不得不將應用程序劃分為多個可用區。 * 一些可用區具有相當大的數據中心大小。 * AZ 中的 DC 間隔小于 1/4 毫秒。 ### 示例數據中心 * AWS 數據中心故意不是巨大的。單個數據中心的功率為 25-30 兆瓦，具有 50,000-80,000 臺服務器 * 數據中心規模的回報減少。隨著您構建的規模越來越大，數據中心擴展的優勢下降了。早期的優勢是巨大的。后來的優勢很小。從 2000 機架增加到 2500 機架要好一些。一個很小的數據中心太昂貴了。真正的大型數據中心僅比機架中型數據中心貴一點。 * 數據中心越大，風險越大。爆炸半徑如果出現問題并破壞了數據中心，則損失太大。 * 到數據中心的網絡容量為 102Tbps。 ### 機架示例，服務器& NIC * 唯一重要的延遲是連接兩端的軟件延遲。發送消息時，兩個服務器之間的延遲： * 您的應用->來賓操作系統->虛擬機管理程序-> NIC：延遲為毫秒 * 通過網卡：延遲為微秒 * 光纖上的：等待時間為納秒 * SR-IOV（ [單根 I / O 虛擬化](http://www.redbooks.ibm.com/abstracts/redp5065.html?Open) ）允許 NIC 在硬件網卡中提供虛擬化。每個來賓都有自己的網卡。好處是>平均延遲減少 2 倍，>延遲抖動增加 10 倍。這意味著離群值下降到原來的 1/10。 SR-IOV 現在正在新的實例類型上部署，并且最終將在任何地方使用。困難的部分不是添加 SR-IOV，而是添加了隔離，計量，DDoS 保護以及容量限制，這使得 SR-IOV 在云環境中很有用。 ## AWS Custom Server &存儲設計 * 負面情況的成本不高，因此可以取消昂貴的不需要的保護。服務器是針對其功能而設計的，而不是針對一般用戶。亞馬遜確切地知道服務器將在什么環境中運行，他們會確切地知道何時出現問題，因此可以在設計時減少工程空間。對于他們來說，服務器故障的代價并不是很大。它們已經在現場，并且非常擅長更換硬盤等。因此，企業設備中的許多注意事項都是不必要的。 * **可以用力推動處理器**。他們知道散熱要求，影響機械設計，他們只是設計好的服務器，因此可以從服務器中獲得更多性能。盡管與英特爾亞馬遜的合作關系使處理器的運行速度比在公開市場上購買的處理器要快。 * 例如，他們自己的儲物架設計。它重達一噸，寬 19 英寸，可容納 864 個磁盤驅動器。對于某些工作負載而言，這是一款出色的改變游戲規則的設計，可幫助他們在某些地區獲得更高的價格。 ## 電源基礎架構 * 亞馬遜已經設計并建造了自己的變電站。它只節省一點錢，但是他們可以更快地構建它們。公用事業公司不習慣應對 AWS 的增長速度，因此他們不得不自己建立。 * 3 個 100％碳中和地區：美國西部（俄勒岡州），AWS GovCloud（美國），歐盟（法蘭克福） ## 創新的快節奏 * 2014 年發布了 449 個新服務和主要功能。2008 年為 24 個，2009 年為 48 個，2010 年為 61 個，2011 年為 82 個，2012 年為 159 個，2013 年為 280 個。 * 隨著創新步伐的加快，AWS 變得越來越可靠。他們的目標是向客戶提供與實現這種創新速度和高質量相同的工具。 ## 相關文章 * 在[黑客新聞](https://news.ycombinator.com/item?id=8875549)上/在 [reddit](http://www.reddit.com/r/programming/comments/2s6nf6/the_stunning_scale_of_aws_and_what_it_means_for/) 上 * James Hamilton 的 [博客](http://perspectives.mvdirona.com/) 以及其他 [討論和幻燈片](http://mvdirona.com/jrh/work/) * [深入了解 AWS 的大規模規模](http://www.enterprisetech.com/2014/11/14/rare-peek-massive-scale-aws/) 和 [，有關黑客新聞](https://news.ycombinator.com/item?id=8643248) / [on reddit](http://www.reddit.com/r/programming/comments/2n5p8c/a_rare_peek_into_the_massive_scale_of_aws/) * [十億個數據包生命中的一天](https://www.youtube.com/watch?v=Zd5hsL-JNY4) * [亞馬遜如何以及為什么進入云計算業務？](http://www.quora.com/How-and-why-did-Amazon-get-into-the-cloud-computing-business) 輕微錯字。 “到數據中心的 10Tbps 網絡容量。” 它應顯示為“到數據中心的 102Tbps 網絡容量”。參考：https：//www.youtube.com/watch？v = JIQETrFC_SQ（26:40）更正，謝謝喬爾還有“每周 365 天零件制造商”-我認為應該是“一年 365 天” ...？已更正，謝謝 Krys。我讀了十遍，每次都錯過了。只是澄清一下，Gartner 的確切報價是：“ AWS 是壓倒性的市場領導者，使用的計算能力是其他 14 家提供商的總和的五倍多”，并且在 2013 年。情況可能已經發生變化。自 2013 年以來，隨著 Azure 和 App Engine 的增長，來源： [http://www.theregister.co.uk/2013/08/19/amazon_gartner_magic_quadrant/](http://www.theregister.co.uk/2013/08/19/amazon_gartner_magic_quadrant/) “ spunk”是在池塘的這一側具有完全不同含義的單詞之一。也許要避免:) 關于“快速創新步伐”的注釋很有趣，因為盡管 AWS 每周發布新功能（有時還發布服務），但我們發現所發布的內容缺乏質量。我們不斷有大量的公開支持案例，其中發現了我們使用的服務中的錯誤。讓 AWS 確認問題的存在通常很痛苦，然后要花幾周甚至幾個月才能解決問題。有時這些問題似乎很關鍵，有時很煩人。如果我們不訂閱他們的支持產品，我不確定如何獲得答案。很多時候，即使我不得不承認該部分是值得商—的，功能似乎也沒有經過深思熟慮，這可能是過早發布，經常發布的情況。最重要的是，我寧愿看到不太快速的創新，而將重點放在提供穩定的基礎架構服務上。穩定地說，我并不是在指 EC2 的普遍可用性（我同意這要好得多），而是要提供更多的質量保證和更快的錯誤修復時間。精彩演講的精彩文章。感謝您編寫它，它給了我時間慢慢進行所有操作，總的來說，這真是令人印象深刻:) 嘿，您可能希望對本文進行快速的復制編輯，因為其中有很多語言/語法故障，使您分心。除此之外，還不錯的文章。在公開發布它并從 reddit 之類的站點進行鏈接之前，只需確保您已經通過了一個不錯的復制編輯器。你能舉個喬納森的例子嗎？這比一般的批評更有幫助。文本特意簡短且斷斷續續，以供快速瀏覽，這是一種樣式選擇，它不是典型的文章格式，因此為簡潔起見，經常會忽略語法。在我的網站上只有我一個人，所以我成為了自己的副本編輯器，所以有時我會犯錯。如今，您自己的專用服務器 8GB RAM 2TB 磁盤的價格每月不到 30 美元，而類似的 Amazon 機器則要貴 6 倍。除了超成功的創業公司的微不足道的優勢（可能需要在一小時內購買 100 臺機器）外，沒有任何優勢。這很令人著迷，但我也對許多普通用戶的成本效益表示懷疑。我有客戶在亞馬遜上花費數萬美元，并在亞馬遜之上構建服務，這些服務可以復制到機架中擁有的設備成本的十分之一。這些是有利可圖的服務，具有可觀但可預測的流量，并且并沒有瘋狂增長。甚至那個 Facebook 游戲公司都說他們在亞馬遜上發布，但是一旦游戲達到可預測的增長曲線，他們就會轉向擁有的便宜基礎設施。現在，您可以在低功耗但完全適合典型 Web 工作負載的商品消費硬件上使用開源資源構建類似 AWS 和 Heroku 的私有功能……甚至還可以獲取每個節點都被視為一次性使用的 HA 功能。如果正確地構建自己的東西，則可以通過這些公共云服務節省大量資金。 > >如果正確構建架構，則可以通過這些公共云服務節省大量資金。是的，不是，如果您像迅猛發展一樣，并且/或者計算需求出現非常不可預測的高峰和下降，那么除非您想擁有數十臺或數百臺服務器，否則您可能無法以更低的價格或足夠快的速度進行調整，未充分利用大量時間，因此您有足夠的能力來滿足這些需求。另一方面，如果您的工作負載處于穩定狀態，則只要沒有問題，就可以節省一些錢。只要確保您正在比較蘋果之間。不要將您擁有的 10 個服務器放在一個區域內的數據中心中，與在全球范圍內分布在具有獨立電源，冗余連接路徑的多可用性區域中的 10 臺服務器相同，如果架構正確，可以在幾分鐘內將容量翻倍，翻倍或翻倍。