robots.txt 是一個放置在網站根目錄的純文字檔案,用來指示搜尋引擎爬蟲(robots)哪些頁面或目錄可以爬取,哪些不可以。其結構主要由多組「區塊」組成,每個區塊包含一個或多個指令,常見的主要指令有 User-agent、Disallow、Allow 和 Sitemap。
以下是 robots.txt 的結構與主要指令解析:
-
User-agent
指定該區塊指令所針對的爬蟲名稱(搜尋機器人)。可以指定特定爬蟲名稱(如 Googlebot),或用星號 * 表示所有爬蟲。爬蟲會尋找最符合自己名稱的區塊來執行指令。
範例:User-agent: Googlebot
或
User-agent: *
-
Disallow
告訴爬蟲「不允許爬取」的頁面或目錄路徑。若想禁止整個網站爬取,寫成Disallow: /
。若不想禁止任何頁面,則寫成空白(Disallow:
)。
範例:Disallow: /private/ Disallow: /temp.html
表示禁止爬取 /private/ 目錄及 /temp.html 頁面。
注意:Disallow 指令不代表頁面完全隱藏,其他網站若連結該頁,搜尋引擎仍可能知道該頁存在。 -
Allow
用於例外情況,允許爬蟲爬取某些被 Disallow 阻擋目錄中的特定頁面。
範例:Disallow: /private/ Allow: /private/public-info.html
表示禁止爬取 /private/ 目錄,但允許爬取其中的 public-info.html 頁面。
-
Sitemap
指定網站的 XML 網站地圖位置,方便爬蟲快速找到網站結構。這個指令通常放在 robots.txt 檔案的最後。
範例:Sitemap: https://example.com/sitemap.xml
-
註解
可以用#
來加入註解,方便說明指令用途,不會被爬蟲執行。
範例:# 禁止 Googlebot 爬取臨時資料夾 User-agent: Googlebot Disallow: /temp/
robots.txt 範例整體結構示意:
# 針對所有爬蟲
User-agent: *
Disallow: /private/
Allow: /private/public-info.html
# 指定 Googlebot 不限制爬取
User-agent: Googlebot
Disallow:
# 指定網站地圖位置
Sitemap: https://example.com/sitemap.xml
總結:robots.txt 透過 User-agent 指定目標爬蟲,Disallow 阻擋爬取路徑,Allow 例外允許特定頁面,Sitemap 提供網站地圖位置,協助搜尋引擎有效且有策略地爬取網站內容。
WebSeoHK 為香港、澳門和內地提供業界最優質的網站流量服務。我們為客戶提供多種流量服務,包括網站流量、桌面流量、行動流量、Google流量、搜索流量,電商流量、YouTube流量、TikTok流量。我們的網站擁有 100% 的客戶滿意度,因此您可以放心地在線購買大量 SEO 流量。每月僅需 90 港幣即可立即增加網站流量、提高 SEO 效能並增加銷售額!
您在選擇流量套餐時遇到困難嗎?聯繫我們,我們的工作人員將協助您。
免費諮詢