WebSeoHK - 網路知識庫 - 2025-09-06

Robots.txt 的結構與主要指令解析(User-agent、Disallow、Allow、Sitemap)

robots.txt 是一個放置在網站根目錄的純文字檔案,用來指示搜尋引擎爬蟲(robots)哪些頁面或目錄可以爬取,哪些不可以。其結構主要由多組「區塊」組成,每個區塊包含一個或多個指令,常見的主要指令有 User-agent、Disallow、Allow 和 Sitemap。

以下是 robots.txt 的結構與主要指令解析:

  • User-agent
    指定該區塊指令所針對的爬蟲名稱(搜尋機器人)。可以指定特定爬蟲名稱(如 Googlebot),或用星號 * 表示所有爬蟲。爬蟲會尋找最符合自己名稱的區塊來執行指令。
    範例:

    User-agent: Googlebot
    

    User-agent: *
    
  • Disallow
    告訴爬蟲「不允許爬取」的頁面或目錄路徑。若想禁止整個網站爬取,寫成 Disallow: /。若不想禁止任何頁面,則寫成空白(Disallow:)。
    範例:

    Disallow: /private/
    Disallow: /temp.html
    

    表示禁止爬取 /private/ 目錄及 /temp.html 頁面。
    注意:Disallow 指令不代表頁面完全隱藏,其他網站若連結該頁,搜尋引擎仍可能知道該頁存在。

  • Allow
    用於例外情況,允許爬蟲爬取某些被 Disallow 阻擋目錄中的特定頁面。
    範例:

    Disallow: /private/
    Allow: /private/public-info.html
    

    表示禁止爬取 /private/ 目錄,但允許爬取其中的 public-info.html 頁面。

  • Sitemap
    指定網站的 XML 網站地圖位置,方便爬蟲快速找到網站結構。這個指令通常放在 robots.txt 檔案的最後。
    範例:

    Sitemap: https://example.com/sitemap.xml
    
  • 註解
    可以用 # 來加入註解,方便說明指令用途,不會被爬蟲執行。
    範例:

    # 禁止 Googlebot 爬取臨時資料夾
    User-agent: Googlebot
    Disallow: /temp/
    

robots.txt 範例整體結構示意:

# 針對所有爬蟲
User-agent: *
Disallow: /private/
Allow: /private/public-info.html

# 指定 Googlebot 不限制爬取
User-agent: Googlebot
Disallow:

# 指定網站地圖位置
Sitemap: https://example.com/sitemap.xml

總結:robots.txt 透過 User-agent 指定目標爬蟲,Disallow 阻擋爬取路徑,Allow 例外允許特定頁面,Sitemap 提供網站地圖位置,協助搜尋引擎有效且有策略地爬取網站內容。

網路圖片

WebSeoHK 為香港、澳門和內地提供業界最優質的網站流量服務。我們為客戶提供多種流量服務,包括網站流量、桌面流量、行動流量、Google流量、搜索流量,電商流量、YouTube流量、TikTok流量。我們的網站擁有 100% 的客戶滿意度,因此您可以放心地在線購買大量 SEO 流量。每月僅需 90 港幣即可立即增加網站流量、提高 SEO 效能並增加銷售額!

您在選擇流量套餐時遇到困難嗎?聯繫我們,我們的工作人員將協助您。

免費諮詢

免費諮詢 客服支援

挑選方案需要幫助嗎?請填寫右側表單,我們將回覆您!

Fill the
form