針對不同搜尋引擎爬蟲設計差異化的 robots.txt 規則,可以利用 robots.txt 的「User-agent」指令來分別針對各搜尋引擎的爬蟲設定不同的抓取規則。具體做法如下:
- User-agent 指定爬蟲名稱:每個搜尋引擎的爬蟲有專屬的名稱,例如 Google 是
Googlebot
,Bing 是Bingbot
,Yandex 是Yandex
,可用此指令分別設定規則。 - 針對不同爬蟲設置 Allow 或 Disallow:在指定 User-agent 後,使用
Disallow
阻擋該爬蟲抓取特定路徑,或用Allow
允許抓取。 - 使用進階指令:部分搜尋引擎(如 Bing、Yandex)支援額外指令,例如
Crawl-delay
(設定爬蟲抓取間隔秒數),Google 則不支援此指令。 - 使用萬用字元(Wildcard):Googlebot 支援
*
(任意字元)與$
(結尾符號),可用於更靈活的路徑匹配。
範例 robots.txt 差異化設定:
User-agent: Googlebot
Disallow: /private/
Allow: /public/
User-agent: Bingbot
Disallow: /temp/
Crawl-delay: 10
User-agent: Yandex
Disallow: /backup/
Crawl-delay: 15
User-agent: *
Disallow: /test/
- 以上設定中,Googlebot 不抓取
/private/
,Bingbot 不抓取/temp/
且每次抓取間隔 10 秒,Yandex 不抓取/backup/
且間隔 15 秒,其他爬蟲則不抓取/test/
。
此外,robots.txt 必須放在網站根目錄,搜尋引擎才會自動讀取。若要更細緻控制索引行為,則可搭配 HTML 的 meta robots 標籤使用,因為 robots.txt 是控制「爬取(crawl)」行為,而 meta robots 是控制「索引(index)」行為。
總結:
- 利用
User-agent
指令分別針對不同搜尋引擎爬蟲設定規則。 - 針對支援的爬蟲使用特定指令如
Crawl-delay
。 - 使用萬用字元提升匹配彈性。
- 搭配 meta robots 控制索引,robots.txt 控制爬取。
- robots.txt 檔案需放在網站根目錄。
這樣的差異化設計能有效管理不同搜尋引擎爬蟲的抓取行為,優化網站資源使用與 SEO 表現。
WebSeoHK 為香港、澳門和內地提供業界最優質的網站流量服務。我們為客戶提供多種流量服務,包括網站流量、桌面流量、行動流量、Google流量、搜索流量,電商流量、YouTube流量、TikTok流量。我們的網站擁有 100% 的客戶滿意度,因此您可以放心地在線購買大量 SEO 流量。每月僅需 90 港幣即可立即增加網站流量、提高 SEO 效能並增加銷售額!
您在選擇流量套餐時遇到困難嗎?聯繫我們,我們的工作人員將協助您。
免費諮詢