WebSeoHK - 網路知識庫 - 2025-09-06

常見 Robots.txt 範例與設計模型,適用於不同網站需求

常見的 robots.txt 範例與設計模型 主要依據網站需求,分為以下幾種典型情境:

範例類型 說明 範例內容
1. 所有搜尋引擎可爬取所有頁面 無任何限制,適合公開網站 ```
User-agent: *
Disallow:
```
2. 所有搜尋引擎禁止爬取所有頁面 適用於測試或內部網站,正式網站不建議使用 ```
User-agent: *
Disallow: /
```
3. 特定搜尋引擎可爬取所有頁面 例如只允許 Googlebot 爬取 ```
User-agent: Googlebot
Disallow:
```
4. 特定搜尋引擎禁止爬取所有頁面 限制特定爬蟲,其他爬蟲可正常爬取 ```
User-agent: BadBot
Disallow: /
```
5. 禁止爬取特定目錄或檔案類型 控制敏感資料或不希望被索引的內容 ```
User-agent: *
Disallow: /cgi-bin/
Disallow: /members/data/
Disallow: /*.pdf$
```

設計模型與應用說明

  • 根目錄放置:robots.txt 必須放在網站根目錄(例如 https://www.example.com/robots.txt),搜尋引擎爬蟲才會讀取。
  • User-agent:指定規則適用的爬蟲名稱,* 表示所有爬蟲。
  • Disallow:禁止爬取的路徑,/ 表示整個網站禁止。
  • Allow:允許爬取的路徑(Google 支援此指令)。
  • 註解:以 # 開頭,方便管理者標註說明。
  • 檔案類型限制:可用正則符號 $ 限定特定副檔名禁止爬取,如 PDF 檔案。

不同網站需求範例

  • 公開內容網站:通常採用「所有爬蟲可爬取所有頁面」,不設限制,最大化曝光。
  • 內部或測試網站:禁止所有爬蟲爬取,避免內容外洩或被索引。
  • 新聞網站或大型平台:可能針對 Googlebot 設定優先爬取規則,確保即時內容被快速索引。
  • 企業網站:常限制敏感目錄(如會員資料、管理後台)及特定檔案格式,避免被搜尋引擎收錄。
  • SEO優化:搭配 meta robots 標籤使用,控制頁面是否被索引或爬取,達到更細緻的搜尋引擎行為管理。

補充建議

  • robots.txt 不是安全機制,禁止爬取的內容仍可能被其他方式訪問,敏感資料應另行保護。
  • 定期檢查與測試:使用線上工具或瀏覽器直接訪問 robots.txt 檔案,確保設定正確且符合預期。
  • 結合 Sitemap:可在 robots.txt 中加入 Sitemap 位置,幫助搜尋引擎更有效率地爬取網站。

以上範例與設計模型可依網站類型與需求靈活調整,達到最佳的搜尋引擎爬取控制效果。

網路圖片

WebSeoHK 為香港、澳門和內地提供業界最優質的網站流量服務。我們為客戶提供多種流量服務,包括網站流量、桌面流量、行動流量、Google流量、搜索流量,電商流量、YouTube流量、TikTok流量。我們的網站擁有 100% 的客戶滿意度,因此您可以放心地在線購買大量 SEO 流量。每月僅需 90 港幣即可立即增加網站流量、提高 SEO 效能並增加銷售額!

您在選擇流量套餐時遇到困難嗎?聯繫我們,我們的工作人員將協助您。

免費諮詢

免費諮詢 客服支援

挑選方案需要幫助嗎?請填寫右側表單,我們將回覆您!

Fill the
form