Wayback Machine是網頁時光機,會將網際網路中的網站儲存為歷史記錄,對於想要查詢一些久遠的網站或是想要對某個網站進行備份時很好用的服務,不過也許你的網站基於某些原因並不想要在上面留下記錄,網路上流傳著很多方法,到底哪些才是有效的呢?
Internet Archive Wayback Machine是保存數位資產的基金會計畫的一環,其他還有保存圖書、經典遊戲的 ROM、Flash遊戲等等。要阻擋 Wayback Machine並不是常見的事,所以可以搜尋到的資料有點舊,以下都幫你整理好囉。
一、robots.txt設定還有效嗎?
robots.txt是透過標準化的方式來阻擋爬蟲機器人,例如 Google, Bing搜尋引擎的蜘蛛。其中 Wayback Machine也是透過爬蟲來儲存網站,而你一定可以搜尋到以下 3個被稱為 Wayback Machine所使用的機器人:ia_archiver、archive.org_bot以及 ia_archiver-web.archive.org
ia_archiver現在是 Alexa網站分析服務的機器人,已經不是 Wayback Machine的機器人了(曾經是)。詳細可以參考 Alexa的說明
archive.org_bot 則是網友流傳的可以阻止的機器人名稱,但是無法在官網上找到正確的資訊。實測則是無效。
最後一個 ia_archiver-web.archive.org也是網友推測出來的,實測也是無效。
為什麼 robots.txt無效呢?因為 Wayback Machine表示他們已經不再遵守這項規範了!2017年官方的一篇文章提到,由於繼續遵守 robots.txt會阻止 Wayback Machine存檔網站的目標,因此他們決定不再遵守了。
雖然存檔和保留可能是一件有意義的事,但他們可能忽略了一些站長並不想被存檔的意願。
二、現在要如何阻止?
目前最簡單的方式就是直接阻止來自 Wayback Machine的 IP造訪你的網站,Wayback Machine的 ASN為 AS7941,這個 AS7941包含的 IP有 6千多個(207.241.224.0/20和208.70.24.0/21),不可能一條一條的阻止,所以要透過 CIDR的方式來寫會最快。
.htaccess檔案阻止 IP的方式,請加入以下代碼並儲存:
Deny from 207.241.224.0/20
Deny from 208.70.24.0/21
ASN的阻止方式:
如果你有使用 Cloudflare CDN,還可以直接在防火牆>工具>IP 存取規則的地方輸入 AS7941並選擇「封鎖」。但是這個做法必須是網站有經由 Cloudflare傳輸,使用 CDN的才行。
三、實測
現在到 Wayback Machine網站上,使用 Save Page功能,你會發現 Wayback Machine告訴你它們在爬取網站時遇到了 403錯誤。
以上就是如果你有網站不想被 Wayback Machine保存時,現行有效的阻擋方法了。