# 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
> 原文: [http://highscalability.com/blog/2018/4/9/give-meaning-to-100-billion-events-a-day-the-analytics-pipel.html](http://highscalability.com/blog/2018/4/9/give-meaning-to-100-billion-events-a-day-the-analytics-pipel.html)
*這是 Teads.tv 的軟件工程師* *[Alban Perillat-Merceroz](https://www.linkedin.com/in/albanperillatmerceroz/?locale=en_US)* *的來賓帖子。*

在本文中,我們描述了如何將 Kafka,Dataflow 和 BigQuery 一起編排以攝取和轉換大量事件。 當添加規模和等待時間約束時,對它們進行協調和重新排序成為一個挑戰,這是我們如何解決的。
Teads for Publisher, one of the webapps powered by Analytics
在數字廣告中,日常運營會產生許多我們需要跟蹤的事件,以便透明地報告廣告系列的效果。 這些事件來自:
* 用戶與與瀏覽器發送的廣告的互動。 這些事件稱為跟蹤事件,可以是標準事件(開始,完成,暫停,繼續等),也可以是自定義事件,這些事件來自使用 [Teads Studio](https://teads.tv/studio/) 構建的交互式廣告素材。 我們每天大約收到 100 億個跟蹤事件。
* 來自后端的事件大部分與廣告拍賣的詳細信息有關(實時出價過程)。 在采樣之前,我們每天會產生超過 600 億個此類事件,并且應當在 2018 年使這一數字增加一倍。
在文章中,我們將重點放在跟蹤事件上,因為它們是我們業務中最關鍵的路徑。
Simplified overview of our technical context with the two main event?sources
跟蹤事件由瀏覽器通過 HTTP 發送到專用組件,該組件除其他外將它們排入 [Kafka](https://kafka.apache.org/) 主題。 Analytics 是這些事件的使用者之一(更多內容請參見下文)。
我們有一個分析團隊,其任務是處理這些事件,其定義如下:
> 我們攝取了越來越多的原木
> 我們將它們轉換為面向業務的數據,
> 我們為每個觀眾提供高效且量身定制的服務。
為了完成此任務,我們構建并維護了一組處理工具和管道。 由于公司的有機增長和對新產品的要求,我們經常挑戰我們的體系結構。
## 為什么我們搬到 BigQuery
早在 2016 年,我們的 Analytics(分析)堆棧基于 [lambda 架構](http://lambda-architecture.net/)(Storm,Spark,Cassandra),但我們遇到了幾個問題:
* 數據規模使得不可能將所有數據都存儲在單個 Cassandra 表中,這阻止了有效的交叉查詢,
* 這是一個復雜的基礎架構,具有用于批處理層和速度層的代碼重復,從而阻止了我們有效地發布新功能,
* 最后,難以擴展且成本效益不高,
當時我們有幾種可能的選擇。 首先,我們可以構建一個增強的 lambda,但這只會推遲我們面臨的問題。
我們考慮了幾種有前途的替代方案,例如 [Druid](http://druid.io/druid.html) 和 [BigQuery](https://cloud.google.com/bigquery/) 。 我們最終因其強大的功能而選擇遷移到 BigQuery 。
使用 BigQuery,我們能夠:
* 處理原始事件,
* 使用 SQL 作為一種有效的數據處理語言,
* 使用 BigQuery 作為處理引擎,
* 使對日期的解釋性訪問更容易(與 Spark SQL 或 Hive 相比),
多虧了 [固定費用計劃](https://cloud.google.com/bigquery/pricing#flat_rate_pricing) ,我們密集的使用(在查詢和存儲方面)具有成本效益。
但是,我們的技術背景對于 BigQuery 而言并不理想。 我們想使用它來存儲和轉換來自多個 Kafka 主題的所有事件。 我們無法將 Kafka 群集移出 AWS 或使用 [Pub / Sub](https://cloud.google.com/pubsub/docs/overview) (在 GCP 上與 Kafka 托管的等效版本),因為這些群集也由我們托管在 AWS 上的某些廣告投放組件使用。 結果,我們不得不應對運行多云基礎架構的挑戰。
今天, BigQuery 是我們的數據倉庫系統,在這里我們的跟蹤事件與其他數據源保持一致。
## 攝取
在處理跟蹤事件時,您面臨的第一個問題是您必須無序處理,并且延遲未知。
事件實際發生的時間(事件時間)與系統觀察到事件的時間(處理時間)之間的差為毫秒至幾小時。 這些大的延遲并不是那么罕見,當用戶在兩次瀏覽會話之間失去連接或激活飛行模式時可能會發生。
Difference between event time and processing time
有關流數據處理挑戰的更多信息,建議您看一下 Google Cloud Next '17 演講? [在批處理和流處理之間來回移動](https://www.youtube.com/watch?v=PGTSZvBK8-Y) ?,來自 Tyler Akidau (Google 的數據處理技術負責人)和 Lo?cJaures(Teads 的聯合創始人兼 SVP Technology)。 本文受此演講啟發。
## 流媒體的艱難現實
[數據流](https://cloud.google.com/dataflow/?hl=en)是一種托管流系統,旨在解決事件的混亂性質,以解決我們面臨的挑戰。 Dataflow 具有統一的流和批處理編程模型,流是旗艦功能。
我們按照 Dataflow 的承諾被出售,并坦率地嘗試了流模式。 不幸的是,在將其投入實際生產流量后,我們意外地感到驚訝: BigQuery 的流媒體插入成本。
我們是根據壓縮數據大小(即通過網絡的實際字節數)而不是 BigQuery 的原始數據格式大小來估算的。 幸運的是,現在已記錄在中,用于[每種數據類型](https://cloud.google.com/bigquery/pricing#data)。因此您可以進行數學計算。
那時,我們低估了這筆額外費用 100 倍,這幾乎使我們整個提取流程(Dataflow + BigQuery)的費用增加了一倍。 我們還面臨其他限制,例如 [100,000 個事件/秒速率限制](https://cloud.google.com/bigquery/quotas#streaminginserts),這很危險地接近我們所做的事情。
好消息是,有一種方法可以完全避免流插入限制:批量加載到 BigQuery 中。
理想情況下,我們希望將數據流以流方式與 BigQuery 以批處理方式一起使用。 那時,Dataflow SDK 中沒有沒有 BigQuery 批處理接收器用于無限制的數據流。
然后,我們考慮開發自己的自定義接收器。 不幸的是,當時無法向無界數據流添加自定義接收器(請參閱 [Dataflow 計劃添加對在未來版本](https://cloud.google.com/dataflow/model/custom-io)中寫入無界數據的自定義接收器的支持-BeamBeam 現在有可能 是官方的 Dataflow SDK)。
我們別無選擇,只能將我們的數據流作業切換到批處理模式。 多虧了 Dataflow 的統一模型,僅需幾行代碼即可。 對我們來說幸運的是,我們能夠承受因切換到批處理模式而引入的額外數據處理延遲。
展望未來,我們當前的攝取架構基于 [Scio](https://github.com/spotify/scio) ,這是 Spotify 開源的用于數據流的 Scala API。 如前所述,Dataflow 本機支持 Pub / Sub,但 Kafka 集成還不成熟。 我們必須擴展 Scio 以實現偏移量檢查點持久性并實現有效的并行性。
## 微量批次管道
我們得到的架構是一個由 30 分鐘的 Dataflow 批處理作業組成的鏈,這些作業按順序安排為讀取 Kafka 主題并使用加載作業寫入 BigQuery。
Phases of a Dataflow micro?batch
關鍵之一是找到理想批次持續時間。 我們發現在成本和讀取性能(因此延遲)之間具有最佳折衷的最佳選擇。 要調整的變量是 Kafka 讀取階段的持續時間。
為了獲得完整的批處理持續時間,您必須將寫入操作添加到 BigQuery 階段(不成比例,但與讀取持續時間緊密相關),并添加一個常數,即引導和關閉持續時間。
值得注意的是:
* 讀取階段太短會降低讀取階段和非讀取階段之間的比率。 在理想的世界中,1:1 的比例意味著您必須能夠像寫作一樣快地閱讀。 在上面的示例中,我們有一個 20 分鐘的讀取階段,一個 30 分鐘的批處理(比率為 3:2)。 這意味著我們必須能夠比寫入速度快 1.5 倍。 較小的比率意味著需要更大的實例。
* 太長的讀取階段只會增加事件發生到 BigQuery 可用之間的延遲。
## 性能調優
數據流作業是按順序啟動的,這是出于簡單原因和更容易進行故障管理。 這是我們愿意采取的延遲權衡。 如果作業失敗,我們只需返回到最后提交的 Kafka 偏移量即可。
我們必須修改 Kafka 群集的拓撲,并增加分區數量,以便能夠更快地對郵件進行堆棧。 根據您在數據流中進行的轉換,限制因素很可能是處理能力或網絡吞吐量。 為了實現高效的并行性,您應始終嘗試保持一定數量的 CPU 線程數作為分區數量的除數(推論:最好有很多[數量多的 Kafka 分區 復合數字](https://en.wikipedia.org/wiki/Highly_composite_number))。
在極少的延遲情況下,我們可以使用更長的讀取序列來微調作業。 通過使用更大的批次,我們還能夠以延遲為代價來趕上延遲。
為了處理大多數情況,我們將 Dataflow 的大小設置為能夠讀取的速度比實際速度快 3 倍。 使用單個 [*n1-highcpu-16*](https://cloud.google.com/compute/docs/machine-types) 實例讀取 20 分鐘可以釋放 60 分鐘的郵件。
Ingestion latency (minutes) over?time
在我們的用例中,我們以鋸齒延遲結束,該鋸齒延遲在 3 分鐘(Write BQ 階段的最小持續時間)和 30 分鐘(作業的總持續時間)之間振蕩。
## 轉型
原始數據不可避免地會龐大,我們有太多事件,無法按原樣查詢。 我們需要匯總這些原始數據以保持較低的*讀取時間*和緊湊的卷。 這是我們在 BigQuery 中的處理方式:
Architecture overview spanning between AWS and?GCP
與傳統的 [ETL 流程](https://en.wikipedia.org/wiki/Extract,_transform,_load)之前的數據*轉換*之前,*加載*之前,我們選擇先將其(ELT)原始存儲 格式。
它有兩個主要優點:
* 它使我們能夠訪問每個原始事件,以進行精細的分析和調試,
* 通過讓 BigQuery 使用簡單但功能強大的 SQL 方言進行轉換,它簡化了整個鏈。
我們本來希望直接寫入每天分區的*原始事件*表。 我們之所以無法這樣做,是因為必須使用特定的目的地(表或分區)定義數據流批處理,并且其中可能包含用于不同分區的數據。 我們通過將每個批次加載到臨時表中然后開始對其進行轉換來解決此問題。
對于這些臨時批處理表中的每一個,我們運行一組轉換,具體化為輸出到其他表的 SQL 查詢。 這些轉換之一只是將所有數據追加到按天劃分的大型原始事件表中。
這些轉換的另一個是匯總:給定一組維度的數據匯總。 所有這些轉換都是冪等的,可以在發生錯誤或需要數據重新處理的情況下安全地重新運行 。
## 匯總
直接查詢原始事件表對于調試和深度分析非常有用,但是查詢這種規模的表不可能獲得可接受的性能,更不用說這種操作的[成本](https://cloud.google.com/bigquery/pricing)了。
為了讓您有個想法,此表僅保留 4 個月,包含 1 萬億個事件,大小接近 250TB 。
Example of a rollup transformation
在上面的示例中,我們匯總了 3 個維度的事件計數:*小時*,*廣告 ID* 和*網站 ID* 。 事件也被透視并轉換為列。 該示例顯示尺寸縮小了 2.5 倍,而實際情況更接近 70 倍。
在 BigQuery 的大規模并行上下文中,查詢運行時的影響不大,改進程度取決于所使用的廣告位數量。
匯總還使我們可以將數據劃分為小塊:在給定的小時(事件時間的小時,而不是處理時間)中,事件被分組到小表中。 因此,如果您需要查詢給定時間的數據,則將查詢一個表(< 10M 行,< 10GB)。
匯總是一種通用匯總,我們可以在給定大量維度的情況下更高效地查詢所有事件。 在其他一些用例中,我們需要專用的數據視圖。 他們每個人都可以實施一組特定的轉換,以最終得到一個專門的優化表。
## 托管服務的限制
BigQuery 功能強大,但有其局限性:
* BigQuery 不允許查詢具有[不同架構](https://cloud.google.com/bigquery/docs/querying-wildcard-tables#schema_used_for_query_evaluation)的多個表(即使查詢未使用不同的字段)。 當需要添加字段時,我們有一個腳本可以批量更新數百個表。
* BigQuery [不支持列刪除](https://stackoverflow.com/a/45822880)。 沒什么大不了的,但無助于償還技術債務。
* 查詢多個小時:BigQuery [支持表名](https://cloud.google.com/bigquery/docs/querying-wildcard-tables#best_practices)中的通配符,但是性能太差了,我們必須生成查詢以 UNION ALL 顯式查詢每個表。
* 我們始終需要將這些事件與托管在其他數據庫上的數據結合起來(例如,將事件與廣告活動的更多信息結合在一起),但是 BigQuery 不支持(目前)。 我們目前必須定期將整個表復制到 BigQuery,以便能夠在單個查詢中聯接數據。
## 云間數據傳輸的樂趣
借助 AWS 中 Teads 的廣告投放基礎設施以及與許多其他組件共享的 Kafka 集群,我們別無選擇,只能在 AWS 和 GCP 云之間移動大量數據,這并不容易,而且肯定不會 賤。 我們將 Dataflow 實例(因此是主要 GCP 入口點)放置在離我們 AWS 基礎設施盡可能近的位置,幸運的是,AWS 和 GCP 之間的現有鏈接足夠好,因此我們可以簡單地使用托管 VPN。
盡管我們在運行這些 VPN 時遇到了一些不穩定因素,但是我們還是設法使用一個簡單的腳本將其關閉然后重新打開,以進行分類。 我們從來沒有遇到足夠大的問題來證明專用鏈接的成本合理。
再一次,[成本是您必須密切注意的](https://medium.com/teads-engineering/real-life-aws-cost-optimization-strategy-at-teads-135268b0860f)成本,并且就出口而言,很難在看到賬單之前進行評估。 仔細選擇壓縮數據的方式是降低這些成本的最佳方法之一。
## 只有一半
Teads’ Analytics big?picture
在 BigQuery 中僅包含所有這些事件還不夠。 為了為業務帶來價值,必須使用不同的規則和指標對數據進行合并。 此外,BigQuery 并非針對實時用例量身定制。
由于并發限制和 3 到 5 秒鐘的不可壓縮查詢延遲(這是其設計的可接受和固有的),因此必須將 BigQuery 與其他工具(服務于儀表板,Web UI 等)組合使用。
此任務由我們的 Analytics 服務執行,這是一個 Scala 組件,可利用 BigQuery 生成按需報告(電子表格)和量身定制的數據集市(每天或每小時更新)。 需要此特定服務來處理業務邏輯。 否則很難維護為 SQL 并使用管道轉換生成數據集市。
我們選擇了 AWS [Redshift](https://aws.amazon.com/redshift/) 來存儲和服務我們的數據集市。 盡管服務面向用戶的應用似乎不是一個顯而易見的選擇,但是 Redshift 對我們有用,因為我們的并發用戶數量有限。
同樣,使用鍵/值存儲將需要更多的開發工作。 通過保留中間關系數據庫,可以簡化數據集市的使用。
在上有很多話要說,我們如何以規模構建,維護和查詢這些數據集市,但這將是另一篇文章的主題。
* * *
如果您喜歡,大規模事件處理和與 Analytics(分析)相關的挑戰,請大聲疾呼。 我們正在積極[尋找](https://teads.tv/teads-jobs/),以供工程師構建未來的架構。
- LiveJournal 體系結構
- mixi.jp 體系結構
- 友誼建筑
- FeedBurner 體系結構
- GoogleTalk 架構
- ThemBid 架構
- 使用 Amazon 服務以 100 美元的價格構建無限可擴展的基礎架構
- TypePad 建筑
- 維基媒體架構
- Joost 網絡架構
- 亞馬遜建筑
- Fotolog 擴展成功的秘訣
- 普恩斯的教訓-早期
- 論文:Wikipedia 的站點內部,配置,代碼示例和管理問題
- 擴大早期創業規模
- Feedblendr 架構-使用 EC2 進行擴展
- Slashdot Architecture-互聯網的老人如何學會擴展
- Flickr 架構
- Tailrank 架構-了解如何在整個徽標范圍內跟蹤模因
- Ruby on Rails 如何在 550k 網頁瀏覽中幸存
- Mailinator 架構
- Rackspace 現在如何使用 MapReduce 和 Hadoop 查詢 TB 的數據
- Yandex 架構
- YouTube 架構
- Skype 計劃 PostgreSQL 擴展到 10 億用戶
- 易趣建筑
- FaceStat 的禍根與智慧贏得了勝利
- Flickr 的聯合會:每天進行數十億次查詢
- EVE 在線架構
- Notify.me 體系結構-同步性
- Google 架構
- 第二人生架構-網格
- MySpace 體系結構
- 擴展 Digg 和其他 Web 應用程序
- Digg 建筑
- 在 Amazon EC2 中部署大規模基礎架構的六個經驗教訓
- Wolfram | Alpha 建筑
- 為什么 Facebook,Digg 和 Twitter 很難擴展?
- 全球范圍擴展的 10 個 eBay 秘密
- BuddyPoke 如何使用 Google App Engine 在 Facebook 上擴展
- 《 FarmVille》如何擴展以每月收獲 7500 萬玩家
- Twitter 計劃分析 1000 億條推文
- MySpace 如何與 100 萬個并發用戶一起測試其實時站點
- FarmVille 如何擴展-后續
- Justin.tv 的實時視頻廣播架構
- 策略:緩存 404 在服務器時間上節省了洋蔥 66%
- Poppen.de 建筑
- MocoSpace Architecture-一個月有 30 億個移動頁面瀏覽量
- Sify.com 體系結構-每秒 3900 個請求的門戶
- 每月將 Reddit 打造為 2.7 億頁面瀏覽量時汲取的 7 個教訓
- Playfish 的社交游戲架構-每月有 5000 萬用戶并且不斷增長
- 擴展 BBC iPlayer 的 6 種策略
- Facebook 的新實時消息系統:HBase 每月可存儲 135 億條消息
- Pinboard.in Architecture-付費玩以保持系統小巧
- BankSimple 迷你架構-使用下一代工具鏈
- Riak 的 Bitcask-用于快速鍵/值數據的日志結構哈希表
- Mollom 體系結構-每秒以 100 個請求殺死超過 3.73 億個垃圾郵件
- Wordnik-MongoDB 和 Scala 上每天有 1000 萬個 API 請求
- Node.js 成為堆棧的一部分了嗎? SimpleGeo 說是的。
- 堆棧溢出體系結構更新-現在每月有 9500 萬頁面瀏覽量
- Medialets 體系結構-擊敗艱巨的移動設備數據
- Facebook 的新實時分析系統:HBase 每天處理 200 億個事件
- Microsoft Stack 是否殺死了 MySpace?
- Viddler Architecture-每天嵌入 700 萬個和 1500 Req / Sec 高峰
- Facebook:用于擴展數十億條消息的示例規范架構
- Evernote Architecture-每天有 900 萬用戶和 1.5 億個請求
- TripAdvisor 的短
- TripAdvisor 架構-4,000 萬訪客,200M 動態頁面瀏覽,30TB 數據
- ATMCash 利用虛擬化實現安全性-不變性和還原
- Google+是使用您也可以使用的工具構建的:閉包,Java Servlet,JavaScript,BigTable,Colossus,快速周轉
- 新的文物建筑-每天收集 20 億多個指標
- Peecho Architecture-鞋帶上的可擴展性
- 標記式架構-擴展到 1 億用戶,1000 臺服務器和 50 億個頁面視圖
- 論文:Akamai 網絡-70 個國家/地區的 61,000 臺服務器,1,000 個網絡
- 策略:在 S3 或 GitHub 上運行可擴展,可用且廉價的靜態站點
- Pud 是反堆棧-Windows,CFML,Dropbox,Xeround,JungleDisk,ELB
- 用于擴展 Turntable.fm 和 Labmeeting 的數百萬用戶的 17 種技術
- StackExchange 體系結構更新-平穩運行,Amazon 4x 更昂貴
- DataSift 體系結構:每秒進行 120,000 條推文的實時數據挖掘
- Instagram 架構:1400 萬用戶,1 TB 的照片,數百個實例,數十種技術
- PlentyOfFish 更新-每月 60 億次瀏覽量和 320 億張圖片
- Etsy Saga:從筒倉到開心到一個月的瀏覽量達到數十億
- 數據范圍項目-6PB 存儲,500GBytes / sec 順序 IO,20M IOPS,130TFlops
- 99designs 的設計-數以千萬計的綜合瀏覽量
- Tumblr Architecture-150 億頁面瀏覽量一個月,比 Twitter 更難擴展
- Berkeley DB 體系結構-NoSQL 很酷之前的 NoSQL
- Pixable Architecture-每天對 2000 萬張照片進行爬網,分析和排名
- LinkedIn:使用 Databus 創建低延遲更改數據捕獲系統
- 在 30 分鐘內進行 7 年的 YouTube 可擴展性課程
- YouPorn-每天定位 2 億次觀看
- Instagram 架構更新:Instagram 有何新功能?
- 搜索技術剖析:blekko 的 NoSQL 數據庫
- Pinterest 體系結構更新-1800 萬訪問者,增長 10 倍,擁有 12 名員工,410 TB 數據
- 搜索技術剖析:使用組合器爬行
- iDoneThis-從頭開始擴展基于電子郵件的應用程序
- StubHub 體系結構:全球最大的票務市場背后的驚人復雜性
- FictionPress:在網絡上發布 600 萬本小說
- Cinchcast 體系結構-每天產生 1,500 小時的音頻
- 棱柱架構-使用社交網絡上的機器學習來弄清您應該在網絡上閱讀的內容
- 棱鏡更新:基于文檔和用戶的機器學習
- Zoosk-實時通信背后的工程
- WordPress.com 使用 NGINX 服務 70,000 req / sec 和超過 15 Gbit / sec 的流量
- 史詩般的 TripAdvisor 更新:為什么不在云上運行? 盛大的實驗
- UltraDNS 如何處理數十萬個區域和數千萬條記錄
- 更簡單,更便宜,更快:Playtomic 從.NET 遷移到 Node 和 Heroku
- Spanner-關于程序員使用 NoSQL 規模的 SQL 語義構建應用程序
- BigData 使用 Erlang,C 和 Lisp 對抗移動數據海嘯
- 分析數十億筆信用卡交易并在云中提供低延遲的見解
- MongoDB 和 GridFS 用于內部和內部數據中心數據復制
- 每天處理 1 億個像素-少量競爭會導致大規模問題
- DuckDuckGo 體系結構-每天進行 100 萬次深度搜索并不斷增長
- SongPop 在 GAE 上可擴展至 100 萬活躍用戶,表明 PaaS 未通過
- Iron.io 從 Ruby 遷移到 Go:減少了 28 臺服務器并避免了巨大的 Clusterf ** ks
- 可汗學院支票簿每月在 GAE 上擴展至 600 萬用戶
- 在破壞之前先檢查自己-鱷梨的建筑演進的 5 個早期階段
- 縮放 Pinterest-兩年內每月從 0 到十億的頁面瀏覽量
- Facebook 的網絡秘密
- 神話:埃里克·布魯爾(Eric Brewer)談銀行為什么不是堿-可用性就是收入
- 一千萬個并發連接的秘密-內核是問題,而不是解決方案
- GOV.UK-不是你父親的書庫
- 縮放郵箱-在 6 周內從 0 到 100 萬用戶,每天 1 億條消息
- 在 Yelp 上利用云計算-每月訪問量為 1.02 億,評論量為 3900 萬
- 每臺服務器將 PHP 擴展到 30,000 個并發用戶的 5 條 Rockin'Tips
- Twitter 的架構用于在 5 秒內處理 1.5 億活躍用戶,300K QPS,22 MB / S Firehose 以及發送推文
- Salesforce Architecture-他們每天如何處理 13 億筆交易
- 擴大流量的設計決策
- ESPN 的架構規模-每秒以 100,000 Duh Nuh Nuhs 運行
- 如何制作無限可擴展的關系數據庫管理系統(RDBMS)
- Bazaarvoice 的架構每月發展到 500M 唯一用戶
- HipChat 如何使用 ElasticSearch 和 Redis 存儲和索引數十億條消息
- NYTimes 架構:無頭,無主控,無單點故障
- 接下來的大型聲音如何使用 Hadoop 數據版本控制系統跟蹤萬億首歌曲的播放,喜歡和更多內容
- Google 如何備份 Internet 和數十億字節的其他數據
- 從 HackerEarth 用 Apache 擴展 Python 和 Django 的 13 個簡單技巧
- AOL.com 體系結構如何發展到 99.999%的可用性,每天 800 萬的訪問者和每秒 200,000 個請求
- Facebook 以 190 億美元的價格收購了 WhatsApp 體系結構
- 使用 AWS,Scala,Akka,Play,MongoDB 和 Elasticsearch 構建社交音樂服務
- 大,小,熱還是冷-條帶,Tapad,Etsy 和 Square 的健壯數據管道示例
- WhatsApp 如何每秒吸引近 5 億用戶,11,000 內核和 7,000 萬條消息
- Disqus 如何以每秒 165K 的消息和小于 0.2 秒的延遲進行實時處理
- 關于 Disqus 的更新:它仍然是實時的,但是 Go 摧毀了 Python
- 關于 Wayback 機器如何在銀河系中存儲比明星更多的頁面的簡短說明
- 在 PagerDuty 遷移到 EC2 中的 XtraDB 群集
- 擴展世界杯-Gambify 如何與 2 人組成的團隊一起運行大型移動投注應用程序
- 一點點:建立一個可處理每月 60 億次點擊的分布式系統的經驗教訓
- StackOverflow 更新:一個月有 5.6 億次網頁瀏覽,25 臺服務器,而這一切都與性能有關
- Tumblr:哈希處理每秒 23,000 個博客請求的方式
- 使用 HAProxy,PHP,Redis 和 MySQL 處理 10 億個請求的簡便方法來構建成長型啟動架構
- MixRadio 體系結構-兼顧各種服務
- Twitter 如何使用 Redis 進行擴展-105TB RAM,39MM QPS,10,000 多個實例
- 正確處理事情:通過即時重放查看集中式系統與分散式系統
- Instagram 提高了其應用程序的性能。 這是如何做。
- Clay.io 如何使用 AWS,Docker,HAProxy 和 Lots 建立其 10 倍架構
- 英雄聯盟如何將聊天擴大到 7000 萬玩家-需要很多小兵。
- Wix 的 Nifty Architecture 技巧-大規模構建發布平臺
- Aeron:我們真的需要另一個消息傳遞系統嗎?
- 機器:惠普基于憶阻器的新型數據中心規模計算機-一切仍在變化
- AWS 的驚人規模及其對云的未來意味著什么
- Vinted 體系結構:每天部署數百次,以保持繁忙的門戶穩定
- 將 Kim Kardashian 擴展到 1 億個頁面
- HappyPancake:建立簡單可擴展基金會的回顧
- 阿爾及利亞分布式搜索網絡的體系結構
- AppLovin:通過每天處理 300 億個請求向全球移動消費者進行營銷
- Swiftype 如何以及為何從 EC2 遷移到真實硬件
- 我們如何擴展 VividCortex 的后端系統
- Appknox 架構-從 AWS 切換到 Google Cloud
- 阿爾及利亞通往全球 API 的憤怒之路
- 阿爾及利亞通往全球 API 步驟的憤怒之路第 2 部分
- 為社交產品設計后端
- 阿爾及利亞通往全球 API 第 3 部分的憤怒之路
- Google 如何創造只有他們才能創造的驚人的數據中心網絡
- Autodesk 如何在 Mesos 上實施可擴展事件
- 構建全球分布式,關鍵任務應用程序:Trenches 部分的經驗教訓 1
- 構建全球分布式,關鍵任務應用程序:Trenches 第 2 部分的經驗教訓
- 需要物聯網嗎? 這是美國一家主要公用事業公司從 550 萬米以上收集電力數據的方式
- Uber 如何擴展其實時市場平臺
- 優步變得非常規:使用司機電話作為備份數據中心
- 在不到五分鐘的時間里,Facebook 如何告訴您的朋友您在災難中很安全
- Zappos 的網站與 Amazon 集成后凍結了兩年
- 為在現代時代構建可擴展的有狀態服務提供依據
- 細分:使用 Docker,ECS 和 Terraform 重建基礎架構
- 十年 IT 失敗的五個教訓
- Shopify 如何擴展以處理來自 Kanye West 和 Superbowl 的 Flash 銷售
- 整個 Netflix 堆棧的 360 度視圖
- Wistia 如何每小時處理數百萬個請求并處理豐富的視頻分析
- Google 和 eBay 關于構建微服務生態系統的深刻教訓
- 無服務器啟動-服務器崩潰!
- 在 Amazon AWS 上擴展至 1100 萬以上用戶的入門指南
- 為 David Guetta 建立無限可擴展的在線錄制活動
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億個通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓
- 縮放原理
- TripleLift 如何建立 Adtech 數據管道每天處理數十億個事件
- Tinder:最大的推薦引擎之一如何決定您接下來會看到誰?
- 如何使用微服務建立財產管理系統集成
- Egnyte 體系結構:構建和擴展多 PB 分布式系統的經驗教訓
- Zapier 如何自動化數十億個工作流自動化任務的旅程
- Jeff Dean 在 Google 進行大規模深度學習
- 如今 Etsy 的架構是什么樣的?
- 我們如何在 Mail.Ru Cloud 中實現視頻播放器
- Twitter 如何每秒處理 3,000 張圖像
- 每天可處理數百萬個請求的圖像優化技術
- Facebook 如何向 80 萬同時觀看者直播
- Google 如何針對行星級基礎設施進行行星級工程設計?
- 為 Mail.Ru Group 的電子郵件服務實施反垃圾郵件的貓捉老鼠的故事,以及 Tarantool 與此相關的內容
- The Dollar Shave Club Architecture Unilever 以 10 億美元的價格被收購
- Uber 如何使用 Mesos 和 Cassandra 跨多個數據中心每秒管理一百萬個寫入
- 從將 Uber 擴展到 2000 名工程師,1000 個服務和 8000 個 Git 存儲庫獲得的經驗教訓
- QuickBooks 平臺
- 美國大選期間城市飛艇如何擴展到 25 億條通知
- Probot 的體系結構-我的 Slack 和 Messenger Bot 用于回答問題
- AdStage 從 Heroku 遷移到 AWS
- 為何將 Morningstar 遷移到云端:降低 97%的成本
- ButterCMS 體系結構:關鍵任務 API 每月可處理數百萬個請求
- Netflix:按下 Play 會發生什么?
- ipdata 如何以每月 150 美元的價格為來自 10 個無限擴展的全球端點的 2500 萬個 API 調用提供服務
- 每天為 1000 億個事件賦予意義-Teads 的 Analytics(分析)管道
- Auth0 體系結構:在多個云提供商和地區中運行
- 從裸機到 Kubernetes
- Egnyte Architecture:構建和擴展多 PB 內容平臺的經驗教訓