WebSeoHK - 網路知識庫 - 2025-09-06

如何針對不同搜尋引擎爬蟲設計差異化的 Robots.txt 規則

針對不同搜尋引擎爬蟲設計差異化的 robots.txt 規則,可以利用 robots.txt 的「User-agent」指令來分別針對各搜尋引擎的爬蟲設定不同的抓取規則。具體做法如下:

  • User-agent 指定爬蟲名稱:每個搜尋引擎的爬蟲有專屬的名稱,例如 Google 是 Googlebot,Bing 是 Bingbot,Yandex 是 Yandex,可用此指令分別設定規則。
  • 針對不同爬蟲設置 Allow 或 Disallow:在指定 User-agent 後,使用 Disallow 阻擋該爬蟲抓取特定路徑,或用 Allow 允許抓取。
  • 使用進階指令:部分搜尋引擎(如 Bing、Yandex)支援額外指令,例如 Crawl-delay(設定爬蟲抓取間隔秒數),Google 則不支援此指令。
  • 使用萬用字元(Wildcard):Googlebot 支援 *(任意字元)與 $(結尾符號),可用於更靈活的路徑匹配。

範例 robots.txt 差異化設定:

User-agent: Googlebot
Disallow: /private/
Allow: /public/

User-agent: Bingbot
Disallow: /temp/
Crawl-delay: 10

User-agent: Yandex
Disallow: /backup/
Crawl-delay: 15

User-agent: *
Disallow: /test/
  • 以上設定中,Googlebot 不抓取 /private/,Bingbot 不抓取 /temp/ 且每次抓取間隔 10 秒,Yandex 不抓取 /backup/ 且間隔 15 秒,其他爬蟲則不抓取 /test/

此外,robots.txt 必須放在網站根目錄,搜尋引擎才會自動讀取。若要更細緻控制索引行為,則可搭配 HTML 的 meta robots 標籤使用,因為 robots.txt 是控制「爬取(crawl)」行為,而 meta robots 是控制「索引(index)」行為。

總結:

  • 利用 User-agent 指令分別針對不同搜尋引擎爬蟲設定規則。
  • 針對支援的爬蟲使用特定指令如 Crawl-delay
  • 使用萬用字元提升匹配彈性。
  • 搭配 meta robots 控制索引,robots.txt 控制爬取。
  • robots.txt 檔案需放在網站根目錄。

這樣的差異化設計能有效管理不同搜尋引擎爬蟲的抓取行為,優化網站資源使用與 SEO 表現。

網路圖片

WebSeoHK 為香港、澳門和內地提供業界最優質的網站流量服務。我們為客戶提供多種流量服務,包括網站流量、桌面流量、行動流量、Google流量、搜索流量,電商流量、YouTube流量、TikTok流量。我們的網站擁有 100% 的客戶滿意度,因此您可以放心地在線購買大量 SEO 流量。每月僅需 90 港幣即可立即增加網站流量、提高 SEO 效能並增加銷售額!

您在選擇流量套餐時遇到困難嗎?聯繫我們,我們的工作人員將協助您。

免費諮詢

免費諮詢 客服支援

挑選方案需要幫助嗎?請填寫右側表單,我們將回覆您!

Fill the
form