策略：緩存 404 在服務器時間上節省了洋蔥 66％ · HighScalability 中文示例

# 策略：緩存 404 在服務器時間上節省了洋蔥 66％ > 原文： [http://highscalability.com/blog/2010/3/26/strategy-caching-404s-saved-the-onion-66-on-server-time.html](http://highscalability.com/blog/2010/3/26/strategy-caching-404s-saved-the-onion-66-on-server-time.html) ![](https://img.kancloud.cn/88/0a/880a39e3a30050494c11cdce1a10b6e9_146x57.png) 在 [The Onion Use Django，以及為什么它對我們如此重要](http://www.reddit.com/r/django/comments/bhvhz/the_onion_uses_django_and_why_it_matters_to_us/)一文中，他們提出了許多有趣的觀點，說明了他們雄心勃勃的基礎架構從 Drupal / PHP 遷移到 Django / Python：這一步并不難，由于他們之前有移動 AV 的經驗，所以花了時間和工作俱樂部網站；核心框架 API 的混亂使移動比停留更具吸引力；支持站點舊版本的結構是一個尚未解決的問題；內置的 Django 管理員節省了大量工作；通過“減少專業化或黑客攻擊的碎片”，團體開發變得更加容易；他們使用 IRC 進行分布式開發；獅身人面像用于全文搜索； nginx 是媒體服務器和反向代理； haproxy 將啟動過程設為 5 秒程序； Capistrano 用于部署；清潔的組件分離使移動更加容易； Git 版本控制；具有復雜查詢集的 ORM 是一個性能問題。 memcached 用于緩存渲染的頁面； CDN 每 10 分鐘檢查一次更新；視頻，文章，圖像和 404 頁均由 CDN 提供。但是最令人驚訝的一點是： > 最大的性能提升是：緩存 404 并在 404 上將 Cache-Control 標頭發送到 CDN。我們多達 66％的服務器時間都花在了從蜘蛛爬取無效的 url 和從野外存在的 url 中提供 404 的服務中 6-10 年前。 [編輯：實施更改后，我們的出站帶寬減少了約 66％，Web 服務器群集上的平均負載減少了約 50％]。 > > 我們的鏈接中的一小部分來自舊內容，而我不再知道其網址。我們重定向了 5 年前的所有內容。最初在 6 到 10 年前發布的東西可能會被重定向，但是它們都不來自數據庫，并且最初都是靜態 HTML，在我開始為 The Onion 工作之前就沒有維護重定向。 > 蜘蛛占我 404 的絕大多數。他們請求的 URI 根本不在我們的標記中。我無法修復損壞的蜘蛛，并告訴它不要請求甚至不存在的這些鏈接，但是我仍然必須服務于它們的 404。 > CDN 未緩存我們的 404 頁。允許對它們進行緩存，可以將原始滲透率大大降低，與未緩存的 404 相比，輸出帶寬減少了 66％。 > Edit: This is not to say that our 404s were not cached at our origin. Our precomputed 404 was cached and served out without a database hit on every connection, however this still invokes the regular expression engine for url pattern matching and taxes the machine's network IO resources. 無意開玩笑，諷刺或諷刺。這些流量大部分來自蜘蛛，它們正在尋找組成頁面，因此保留 URL 并不是問題。問題是減少了這些有毒蜘蛛的影響，并且將 404 頁緩存為解毒劑。即使您像 The Onion 一樣已經有十多年沒有上網了，但仍然很容易就可以找到很多東西。 ## 相關文章 * [文章](http://news.ycombinator.com/item?id=1219133)上的 Hacker News Thread，其中 John Onion 耐心地嘗試解釋為什么 The Onion 沒有惹惱廣告收入。 * [HTTP 404 響應代碼](http://en.wikipedia.org/wiki/HTTP_404) * [Fighting Linkrot](http://www.useit.com/alertbox/980614.html) by **[Jakob Nielsen](http://www.useit.com/jakob/ "Author biography")** 404 占很大比例的原因是因為洋蔥是 CDNed：合法的（非 404）請求主要由 CDN 服務。但是由于 404 被 CDN 緩存，所以 CDN 將請求發送到原始服務器。因此 404 會在原始服務器上的點擊中占不成比例的百分比。如何阻止其中一些蜘蛛？任何人都有一個很好的壞蜘蛛清單。我讀過一個博客 Bing Spider，它會在短時間內在某些網頁上重復查詢，這給網站帶來了負擔。因此，所有者必須禁止它。行動不便的洋蔥。.如果那些記憶力很強的爬蟲恰好是 googlebot，則您會以 SEO 的形式浪費大量收入。幾年前的舊頁等于從 800 磅重的懷抱中走了出來。大猩猩/蜘蛛/章魚/大象在房間里。 “大部分流量來自蜘蛛尋找的組成頁面，因此保留 URL 并不是問題。” 如果按您的平均水平說超過 50％，那么他們仍然會丟棄高達 25％的流量。除此之外，爬蟲只會抓取其他網站的鏈接，因此它們也放棄了傳入鏈接的 SEO 優勢。他們寫有趣的故事是一件好事。 :-) “行動不便的洋蔥。如果那些記憶力很強的爬蟲恰好是 googlebot，您會以 SEO 的形式浪費大量收入。幾年前的舊書等于從 800 磅重的大抱抱。大猩猩/蜘蛛/章魚/大象 -在房間里。” 他們不會放棄，只是將壓力從服務器到 CDN 來處理這種 404 頁。因此，在進行此更改之前，當您從服務器請求某個不存在的站點時，它就像：客戶端-> CDN->源服務器，然后再返回 CDN 和客戶端。現在，當有人請求頁面時，CDN 會檢查其緩存（如果找不到或不允許從緩存中提供服務），然后請求為該頁面提供服務的 Origin Server，如果那是 404，則發送標頭告訴 CDN 緩存該頁面。因此，下一次該請求將直接從 CDN 的本地緩存中提供。泰瑞爾