# 分析數十億筆信用卡交易并在云中提供低延遲的見解
> 原文: [http://highscalability.com/blog/2013/1/7/analyzing-billions-of-credit-card-transactions-and-serving-l.html](http://highscalability.com/blog/2013/1/7/analyzing-billions-of-credit-card-transactions-and-serving-l.html)

*這是 [Ivan de Prado](http://www.linkedin.com/in/ivanprado) 和 [Pere Ferrera](http://www.linkedin.com/in/pedroferrera) 的來賓帖子, [Datasalt](http://www.datasalt.com) 的創始人, [Pangool](http://pangool.net) 和 [Splout SQL](http://sploutsql.com) 大數據開源項目。*
使用信用卡支付的金額巨大。 顯然,可以通過分析所有交易得出數據中的內在價值。 客戶忠誠度,人口統計,活動熱點圖,商店推薦以及許多其他統計數據對于改善客戶與商店之間的關系都非常有用。 在 [Datasalt](http://www.datasalt.com) ,我們與 [BBVA 庫](http://www.bbva.com)合作開發了一個系統,該系統能夠分析多年的數據并為不同的低延遲 Web 和移動應用程序提供見解和統計信息。
除了處理大數據輸入外,我們面臨的主要挑戰是**的輸出也是大數據,甚至比輸入**還大。 并且此輸出需要在高負載下快速提供服務。
由于使用了[云(AWS)](http://aws.amazon.com), [Hadoop](http://hadoop.apache.org/) 和 [Voldemort](http://www.project-voldemort.com/voldemort/) ,我們開發的解決方案每月的基礎設施成本僅為數千美元。 在下面的幾行中,我們將解釋所提出的體系結構的主要特征。
## 數據,目標和首要決策
該系統使用 BBVA 在世界各地的商店中進行的信用卡交易作為分析的輸入源。 顯然,數據是匿名的,非個人的,并且可以進行隔離以防止任何隱私問題。 信用卡號被散列。 任何產生的見解始終是匯總,因此無法從中獲得任何個人信息。
我們為每個商店和不同時間段計算許多統計數據和數據。 這些是其中一些:
* 每個商店的付款金額直方圖
* 客戶保真
* 客戶人口統計
* 店鋪推薦(在這里購買的客戶也可以在...購買)。 按位置,商店類別等過濾。
該項目的主要目標是通過低延遲的 Web 和移動應用程序向所有代理(商店,客戶)提供所有這些信息。 因此,一項苛刻的要求是能夠在高負載下以亞秒級的延遲提供結果。 由于這是一個研究項目,因此需要處理代碼和要求方面的高度靈活性。
因為一天僅更新數據不是問題,所以我們選擇了面向批處理的架構(Hadoop)。 我們選擇 Voldemort 作為只讀存儲來提供 Hadoop 生成的見解,這是一個簡單但超快速的鍵/值存儲,可以與 Hadoop 很好地集成。
## 該平臺
該系統基于 [Amazon Web Services](http://aws.amazon.com/) 構建。 具體來說,我們使用 S3 存儲原始輸入數據,使用 Elastic Map Reduce(亞馬遜提供的 Hadoop)進行分析,并使用 EC2 提供結果。 使用云技術使我們能夠快速迭代并快速交付功能原型,這正是我們這類項目所需的。
## 架構

該體系結構包含三個主要部分:
* **數據存儲**:用于維護原始數據(信用卡交易)和生成的 Voldemort 存儲。
* **數據處理**:在 EMR 上運行的 Hadoop 工作流,執行所有計算并創建 Voldemort 所需的數據存儲。
* **數據服務**:Voldemort 群集,用于服務來自數據處理層的預先計算的數據。
銀行每天都將當天發生的所有交易上載到 S3 中的文件夾中。 這使我們能夠保留所有歷史數據-每天執行的所有信用卡交易。 所有這些數據都是處理層的輸入,因此我們**每天都重新計算所有內容**。 重新處理所有數據可以使我們變得非常敏捷。 如果需求發生變化或發現一個愚蠢的錯誤,我們只需更新項目代碼,并在下一批之后修復所有數據。 這是一項發展決定,為我們帶來了:
* 簡化的代碼庫&架構,
* 靈活性&適應變化,
* 輕松處理人為錯誤(只需修復錯誤并重新啟動過程)。
每天一次,控制器在 EMR 上啟動新的 Hadoop 集群并啟動處理流程。 此流程由大約 16 個[元組 MapReduce 作業](http://www.datasalt.com/2012/02/tuple-mapreduce-beyond-the-classic-mapreduce/)組成,這些作業計算各種洞察力。 流的最后一部分(Voldemort 索引器)負責構建數據存儲文件,該文件隨后將部署到 Voldemort。 流程完成后,結果數據存儲文件將上傳到 S3。 控制器關閉 Hadoop 集群,然后將部署請求發送到 Voldemort。 然后,Voldemort 從 S3 下載新的數據存儲并執行熱交換,完全替換舊的數據。
## 技術
### Hadoop 和 Pangool
整個分析和處理流程是使用 Hadoop 之上的 [Pangool Jobs](http://pangool.net) 實現的。 這使我們在性能,靈活性和敏捷性之間取得了良好的平衡。 元組的使用使我們能夠使用簡單的數據類型(int,字符串)在流之間傳遞信息,同時我們還可以將其他復雜的對象(如直方圖)包含在其自己的自定義序列化中。
另外,由于 Pangool 仍然是低級 API,因此我們可以在需要時對每個 Job 進行很多微調。
### 伏地魔
 [Voldemort](http://www.project-voldemort.com/voldemort/) 是 LinkedIn 基于 [Amazon Dynamo](http://www.allthingsdistributed.com/2007/10/amazons_dynamo.html) 概念開發的鍵/值 NoSql 數據庫。
Voldemort 背后的主要思想是將數據分成多個塊。 每個塊都被復制并在 Voldemort 群集的節點中提供服務。 每個 Voldemort 守護程序都可以將查詢路由到保留特定鍵值的節點。 Voldemort 支持快速讀取和隨機寫入,但是對于此項目,我們將 Voldemort 用作只讀數據存儲區,在每次批處理之后替換所有數據塊。 因為數據存儲是由 Hadoop 預先生成的,所以查詢服務不受部署過程的影響。 這是使用這種只讀批處理方法的優點之一。 我們還具有靈活性,可以在需要時更改集群拓撲并重新平衡數據。
Voldemort 提供了一個 Hadoop MapReduce 作業,該作業在分布式集群中創建數據存儲。 每個數據塊只是一個 [Berkeley DB](http://www.oracle.com/technetwork/products/berkeleydb/overview/index-093405.html) [B 樹](http://en.wikipedia.org/wiki/B-tree)。
Voldemort 的接口是 TCP,但我們想使用 HTTP 服務數據。 VServ 是一個簡單的 HTTP 服務器,它將傳入的 HTTP 請求轉換為 Voldemort TCP 請求。 負載平衡器負責在所有 VServ 之間共享查詢。
## 計算數據
### 統計
分析的一部分在于計算簡單的統計信息:平均值,最大值,最小值,標準偏差,唯一計數等。它們是使用眾所周知的 MapReduce 方法實現的。 但是我們也計算一些直方圖。 為了在 Hadoop 中有效地實現它們,我們創建了一個自定義直方圖,該直方圖只能通過一次計算。 而且,我們可以在一個 MapReduce 步驟中,在任意數量的時間段內,為每個商務計算所有簡單的統計數據以及相關的直方圖。
為了減少直方圖使用的存儲量并改善其可視化效果,將由許多分箱組成的原始計算出的直方圖轉換為可變寬度的分箱直方圖。 下圖顯示了特定直方圖的 3 槽最佳直方圖:

使用[隨機重啟爬山](http://en.wikipedia.org/wiki/Hill_climbing)近似算法計算出最佳直方圖。 下圖顯示了每次爬山迭代中可能的移動:

該算法已被證明非常快速和準確:與精確的動態算法(由[本文](http://cosco.hiit.fi/Articles/aistat07.pdf)實現)相比,我們達到了 99%的精度,速度提高了一個因子。
### 商業建議
推薦使用共現進行計算。 也就是說,**如果有人在商店 A 和 B 中都購買了商品,則存在 A 和 B 之間的同現**。 即使購買者在 A 和 B 都購買了幾次,也僅考慮一次共現。給定商店的頂級共同商店是該商店的推薦。
但是需要對共現這一簡單概念進行一些改進。 首先,因為幾乎每個人都在其中購物,所以通過簡單的降頻來過濾掉最受歡迎的商店。 因此,推薦它們沒有任何價值。 按位置(商店彼此靠近),商店類別或兩者過濾推薦也可以改善推薦。 與“總是真實的”建議相比,基于時間的同現產生了更熱烈的建議。 限制共現的時間會導致人們建議在第一次購買后立即購買的商店。
Hadoop 和 Pangool 是計算共現并生成建議的理想工具,盡管有些挑戰并不容易克服。 特別是,如果一個買家在許多商店付款,則此信用通知的同現次數將顯示二次增長,從而使分析不能線性擴展。 因為這種情況很少見,所以我們只考慮每張卡的并發數量,只考慮購買者購買最多的那些卡。
## 成本&一些數字
BBVA 在西班牙進行的一年信用卡交易在 Voldemort 上提供的信息量為 270 GB。 整個處理流程將在 24 個“ m1.large”實例的群集上運行 11 小時。 整個基礎設施,包括為生成的數據提供服務所需的 EC2 實例,每月費用約為 3500 美元。
仍有優化的空間。 但是考慮到該解決方案敏捷,靈活且可在云中運行,價格相當合理。 在內部基礎架構中運行的系統的成本將便宜得多。
## 結論&的未來
由于使用了 Hadoop,Amazon Web Services 和 NoSQL 數據庫等技術,因此可以快速開發可擴展,靈活的解決方案,并準備以合理的成本承受人為的失敗。
未來的工作將涉及用 [Splout SQL](http://sploutsql.com) 代替 Voldemort,它允許部署 Hadoop 生成的數據集,并將低延遲鍵/值擴展到低延遲 SQL。 由于可以“即時”執行許多聚合,因此可以減少分析時間并減少數據量。 例如,它將允許在任意時間段內匯總統計信息,而這是無法預先計算的。
在“ LinkedIn 開發的鍵/值 NoSql 數據庫”之后,我停止閱讀
對那些什至不知道如何添加用戶密碼哈希的白癡都不感興趣。
這是一個令人困惑的描述,并且體系結構似乎布局/解釋不當。 另外,如何處理節點故障?
回答“ dev”的評論:EMR 下的節點故障由 Amazon 透明處理,而 Voldemort 群集中的節點故障由 Voldemort 的故障轉移功能處理。 我們只需要指定所需的復制因子,就可以相應地部署數據塊。
隨意問您可能感興趣的其他問題,并且您認為這些解釋不夠充分。
感謝 Ivan 和 Pere,這非常有趣! 我有一個快速的問題。 270 GB 的數據集并不是很大,并且由于您最終要使用 HTTP,所以我想知道是什么導致您選擇 Voldermort 而不是像 Sofadb 這樣的東西? 我也對 Splout(您似乎是內部開發的)感到好奇。 在給定數據量的情況下,這似乎代表了相當大的工程努力-您能解釋一下 Splout 在此特定用例與(敢于說)分片 RDBMS 的優勢嗎? 非常感謝!
嗨斯蒂芬,謝謝你的評論和問題。 我們選擇 Voldemort 的原因有三個:速度,簡單性以及與 Hadoop 的良好集成。 我們認為很少有數據庫可以有效地從 Hadoop 提取數據。 我們對那些其數據結構可以由 Hadoop 預先生成并且可以以全有或全無的方式部署 Hadoop 文件且不影響查詢服務的數據庫感興趣。 這為系統增加了安全層,并使后端與前端完全脫開。 反過來,這使體系結構更簡單,從而消除了在處理和服務之間逐漸增加流狀態的需要。
ElephantDB 是另一個可以滿足這些要求并且可以選擇的數據庫,但是我們以前在 Voldemort 方面已有過積極的經驗。
我不確定您的問題是否更像我們是否可以使用以 CouchDB 為中心的系統來替代 Hadoop + Voldemort。 如果真是這樣,我們目前沒有足夠的 CouchDB 經驗來判斷這是否是一個有趣的選擇。
關于 Splout SQL,實際上您實際上可以將其視為分片的 RDBMS,但它是只讀的,并且與 Hadoop 緊密集成,這正是我們所需要的。 通過成為只讀文件,它實際上比傳統的 RDBMS 變得更易于管理,并且通過將其與 Hadoop 集成,我們使應用程序能夠輕松,安全地將數據從處理過程轉移到服務過程中,而這正是我上面提到的所有好處。
關于數據大小,請考慮到 270 GB 僅是西班牙的一年數據,但是該應用程序可能會服務數年和多個國家/地區的數據。 此外,由于需求變化很快,因此輸出幅度仍然未知,因為每次添加新功能時輸出幅度可能都會增加。
希望這能回答您的問題,否則請隨時提出。
謝謝 Pere,這很有道理-我現在意識到 Splout 或 ElephantDB 的優點是不必通過 MR 對初始數據存儲進行處理,然后再將 ETL 轉換為需要自己維護和明顯的性能優勢的單獨存儲 是只讀+(我想)要維護的代碼庫較小(顯然 Elephant 是 2k LoC!)。 干杯!
這是一個有趣的問題,但我只是希望對它進行更多的解釋。
使用這種類型的數據時(除規模之外),您遇到的最困難的事情是什么?
我自己花了 10 多年的時間分析信貸/借記數據,我很好奇:)
謝謝
Jon Wren
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓