華為失去 Google後 PetalBot搜尋引擎開始爬網頁,如何阻止它呢?

最近發現一些奇怪的爬取網站或是鏡像網站的工具在爬網站,所以開始一些反制的措施,剛好看到有一個新的 User Agent出現!PetalBot一查才發現,原來是華為開發的搜尋引擎蜘蛛,如果你不想要讓它抓取你的網站,可以參考以下的做法。

為什麼華為要自己開發搜尋引擎?

由於美中貿易紛爭,導致華為的手機不能在使用 Google的 GMS各項服務,當然 Google強大的搜尋也無法倍包含在內,因此華為開發了自己的搜尋引擎 Petal search。在中國似乎一些網站叫它「花瓣搜索」、「花瓣蜘蛛」。

為什麼要阻止這個搜尋蜘蛛?

其實沒有一定要阻止的理由,內容能被搜尋到其實是一件很重要的事。不過從少數的案例上來看,PetalBot可能會大量的爬取網站,導致資源使用量較大。如果在目前 Petal search的發展初期你認為不想要加入,那麼可以先阻止它。

PetalBot的完整 User Agent是什麼?

PC版 Mozilla/5.0 (compatible;PetalBot;+https://aspiegel.com/petalbot)

行動版 Mozilla/5.0 (Linux; Android 7.0;)AppleWebKit/537.36 (KHTML, like Gecko)Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)

PetalBot遵守 robots.txt嗎?

遵守。華為強調蜘蛛會盡力不讓伺服器帶來負擔,如果有疑問可以發送資料到 search@aspiegel.com

如何控制 PetalBot爬目錄?

如要完全阻止,請在你的 robots.txt加入以下資訊:

User-agent: PetalBot
Disallow: /

如要部分阻止部分開放,請在你的 robots.txt加入以下資訊,並修改為你的目錄資訊,Allow表示允許的目錄,Disallow表示不允許的目錄:

User-agent: PetalBot
Allow: /w/api/
Disallow: /trap/