數據范圍項目-6PB 存儲，500GBytes / sec 順序 IO，20M IOPS，130TFlops · HighScalability 中文示例

# 數據范圍項目-6PB 存儲，500GBytes / sec 順序 IO，20M IOPS，130TFlops > 原文： [http://highscalability.com/blog/2012/2/2/the-data-scope-project-6pb-storage-500gbytessec-sequential-i.html](http://highscalability.com/blog/2012/2/2/the-data-scope-project-6pb-storage-500gbytessec-sequential-i.html) ![](https://img.kancloud.cn/a0/6c/a06ca17051c5e9f53ac865a6d9506b14_240x192.png) “ **數據無處不在，永遠不在單個位置。無法擴展，無法維護。** ， –Alex Szalay 盡管伽利略在望遠鏡揭示的奧秘上進行了生死教義的比賽，但又沒有引起另一場革命，顯微鏡在奧秘之后放棄了奧秘還沒有人知道它所揭示的內容具有顛覆性。這些新的感知增強工具首次使人類能夠窺見外表的面紗。數百年來，驅動人類發明和發現的嶄新視角。數據是隱藏的另一種 [](http://highscalability.com/blog/2009/11/16/building-scalable-systems-using-data-as-a-composite-material.html)數據，僅當我們查看不同的比例并調查其底層時才顯示自身模式。如果宇宙是由信息真正構成的 [，那么我們正在研究真正的原始事物。數據需要一個新的眼睛，一個雄心勃勃的項目稱為](http://www.scientificamerican.com/article.cfm?id=is-space-digital) [數據范圍](https://wiki.pha.jhu.edu/escience_wiimg/7/7f/DataScope.pdf) 旨在成為鏡頭。詳細的 [論文](https://wiki.pha.jhu.edu/escience_wiimg/7/7f/DataScope.pdf) 進一步說明了它的含義： > 數據范圍是一種新型的科學工具，能夠“觀察”來自各個科學領域的大量數據，例如天文學，流體力學和生物信息學。系統將具有超過 6PB 的存儲空間，每秒約 500GB 的聚合順序 IO，約 20M IOPS 和約 130TFlops。 Data-Scope 不是傳統的多用戶計算集群，而是一種新型儀器，使人們能夠使用 100TB 至 1000TB 之間的數據集進行科學研究。如今，數據密集型科學計算中存在真空，類似于導致 BeoWulf 集群發展的過程：基于商品組件的廉價而高效的模板，用于學術環境中的數據密集型計算。擬議的數據范圍旨在填補這一空白。 Nicole Hemsoth 對 Data-Scope 團隊負責人 Alexander Szalay 博士的訪問非常方便，可以在 [計算的新時代：《 Data 博士》](http://www.datanami.com/datanami/2012-01-23/the_new_era_of_computing:_an_interview_with_dr._data.html) 。 Roberto Zicari 在 [空間物體與 Facebook 好友](http://www.odbms.org/blog/2011/04/objects-in-space-vs-friends-in-facebook/) 中也對 Szalay 博士進行了很好的采訪。本文針對其硬件選擇和體系結構提供了許多非常具體的建議，因此，請閱讀本文以獲取更深入的信息。許多 BigData 操作都具有 Data-Scope 正在解決的相同 IO /規模/存儲/處理問題，因此非常值得一看。以下是一些要點： * 高性能系統的計算能力和 I / O 能力之間的距離越來越大。隨著多核和基于 GPU 的混合系統的規模不斷擴大，我們正在討論明年的許多 Petaflops * 該系統將傳統磁盤驅動器的高 I / O 性能與少量具有高性能 GPGPU 卡和 10G 以太網互連的超高吞吐量 SSD 驅動器集成在一起。 * 我們需要具有以比今天更大的 I / O 帶寬進行讀取和寫入的能力，并且我們還需要能夠以非常高的聚合速率處理傳入和傳出的數據流。 * 通過使用直接連接的磁盤，消除了存儲系統中的許多系統瓶頸，在磁盤控制器，端口和驅動器之間取得了良好的平衡。如今，構建便宜的服務器并不難，廉價的商業 SATA 磁盤每臺服務器可以流超過 5GBps。 * GPGPU 非常適合于數據并行 SIMD 處理。這正是許多數據密集型計算的目的。將 GPGPU 與快速本地 I / O 并置的構建系統將使我們能夠以每秒數 GB 的速度將數據流傳輸到 GPU 卡，從而充分利用其流處理功能。 * 在健康的生態系統中，所有事物都是 1 / f 冪定律，[在數據庫選項中]我們將看到更大的多樣性。 * 它需要一種整體方法：必須首先將數據帶到儀器，然后進行分段，然后再移到同時具有足夠的計算能力和足夠的存儲帶寬（450GBps）來執行典型分析的計算節點上，（復雜）分析必須執行。 * 人們普遍認為索引是有用的，但是對于大規模數據分析而言，我們不需要完整的 ACID，交易帶來的負擔多于好處。 * 實驗和仿真數據正在快速增長。數據集的大小遵循冪定律分布，并且在這種分布的兩個極端都面臨著巨大的挑戰。 * 不同架構組件的性能以不同的速率提高。 * CPU 性能每 18 個月翻一番 * 磁盤驅動器的容量正在以類似的速度增加一倍，這比原始 Kryder 定律的預測要慢一些，這是由更高密度的磁盤驅動的。 * 在過去十年中，磁盤的旋轉速度幾乎沒有變化。這種差異的結果是，雖然順序 IO 速度隨密度增加，但隨機 IO 速度僅發生了適度的變化。 * 由于磁盤的順序 IO 和隨機 IO 速度之間的差異越來越大，因此只能進行順序磁盤訪問-如果 100TB 的計算問題主要需要隨機訪問模式，則無法完成。 * 即使在數據中心，網絡速度也無法跟上數據大小翻倍的步伐。 * PB 級數據，我們無法將數據移動到計算所在的位置，而必須將計算引入數據中。 * 現有的超級計算機也不太適合進行數據密集型計算。它們最大程度地延長了 CPU 周期，但缺少大容量存儲層的 IO 帶寬。而且，大多數超級計算機缺乏足夠的磁盤空間來存儲多個月期間的 PB 大小的數據集。最后，至少在今天，商業云計算平臺不是答案。與購買物理磁盤相比，數據移動和訪問費用過高，它們提供的 IO 性能明顯較低（?20MBps），并且提供的磁盤空間數量嚴重不足（例如，每個 Azure 實例約 10GB）。 * 硬件設計 * 數據范圍將包含 90 個性能和 12 個存儲服務器 * 數據范圍設計背后的驅動目標是，在使用商品組件保持較低購置和維護成本的同時，最大化 TBsize 數據集的流處理吞吐量。 * 直接在服務器的 PCIe 背板上執行數據的首次傳遞比將數據從共享的網絡文件服務器提供給多個計算服務器的速度要快得多。 * Data-Scope 的目標是提供大量廉價和快速的存儲。沒有滿足所有三個條件的磁盤。為了平衡這三個要求，我們決定將儀器分為兩層：性能和存儲。每一層都滿足兩個標準，而第三層則有所妥協。 * Performance Server 將具有高速和廉價的 SATA 驅動器，但會影響容量。 * 存儲服務器將具有更大但更便宜的 SATA 磁盤，但吞吐量較低。存儲層的磁盤空間增加了 1.5 倍，以允許數據分段以及往返于性能層的數據復制。 * 在性能層中，我們將確保可達到的聚合數據吞吐量保持在理論最大值附近，該最大值等于所有磁盤的聚合順序 IO 速度。每個磁盤都連接到一個單獨的控制器端口，并且我們僅使用 8 端口控制器來避免控制器飽和。我們將使用新的 LSI 9200 系列磁盤控制器，該控制器提供 6Gbps SATA 端口和非常高的吞吐量 * 每個性能服務器還將具有四個高速固態磁盤，用作臨時存儲的中間存儲層和用于隨機訪問模式的緩存。 * 性能服務器將使用 SuperMicro SC846A 機箱，具有 24 個熱交換磁盤托架，四個內部 SSD 和兩個基于 GTX480 Fermi 的 NVIDIA 圖形卡，每個圖形卡具有 500 個 GPU 內核，為浮點運算提供了出色的性價比。每張卡估計可運行 3 teraflops。 * 在存儲層中，我們將容量最大化，同時保持較低的購置成本。為此，我們使用帶有 SATA 擴展器的背板在盡可能多的磁盤中分攤主板和磁盤控制器，同時仍為每臺服務器保留足夠的磁盤帶寬以進行有效的數據復制和恢復任務。我們將使用本地連接的磁盤，從而使性能和成本保持合理。所有磁盤都是可熱交換的，從而使更換變得簡單。一個存儲節點將由 3 個 SuperMicro SC847 機箱組成，一個包含主板和 36 個磁盤，另外兩個包含 45 個磁盤，總共 126 個驅動器，總存儲容量為 252TB。 * 鑒于可移動媒體（磁盤）的改進速度快于網絡，因此，sneakernet 將不可避免地成為大型臨時還原的低成本解決方案， * 我們為儀器中的數據設想了三種不同的生命周期類型。首先是永久性數據，海量數據處理管道以及對超大型數據集的社區分析。 ## 相關文章 * [計算的新紀元：《數據博士》專訪](http://www.datanami.com/datanami/2012-01-23/the_new_era_of_computing:_an_interview_with_dr._data.html) * [MRI：數據范圍的發展–科學的多 PB 通用數據分析環境](https://wiki.pha.jhu.edu/escience_wiimg/7/7f/DataScope.pdf) * [GrayWulf：用于數據密集型計算的可伸縮群集體系結構](http://research.microsoft.com/apps/pubs/?id=79429) * [空間中的對象與 Facebook 中的好友](http://www.odbms.org/blog/2011/04/objects-in-space-vs-friends-in-facebook/) ，作者：Roberto V. Zicari * [極限數據密集型計算](http://salsahpc.indiana.edu/tutorial/slides/0726/szalay-bigdata-2010.pdf) * [Alex Szalay 主頁](http://www.sdss.jhu.edu/~szalay/) 兩個注意事項： 1.由于耐用性極低，因此無法在緩存方案中使用消費者 SSD（Vertex 2）。企業級 SSD 是這里必不可少的 2。對于在新項目中將使用哪種類型的文件系統（分布式），請不要多說。 5PB 的存儲空間，FS 上沒有任何單詞。很棒的文章和有趣的項目！請注意，“有關 Data-Scope 的詳細*文件* ...”中缺少該鏈接，現在具有：about：blank。否則，一篇很好的文章。帕特里克