文章目錄
Toggle引言
想讓搜尋引擎正確理解你的網站,提升SEO排名,同時防止敏感資料被外洩?學會正確配置Robots.txt檔案是關鍵!本篇將由淺入深,帶你掌握Robots.txt的基礎原理、核心指令(特別是Allow與Disallow)、Crawler引導技巧,並分享實務配置經驗與安全建議,協助你打造既友善於搜尋引擎、又能守護機密資訊的網站環境。
認識Robots.txt檔案的基礎
什麼是Robots.txt?
Robots.txt是一種位於網站根目錄的純文字檔案,用於指示網路爬蟲(Crawler、Spider)哪些內容可以被爬取(索引),哪些內容不允許存取。它是遵循Robots Exclusion Protocol(REP)的實作標準之一。
Robots.txt的運作機制
- 搜尋引擎爬蟲在抓取網站前,會先讀取
/robots.txt,依照其規則決定爬取行為。 - Robots.txt僅「指示」爬蟲,並無實際權限管制功能,惡意爬蟲可選擇無視。
- 正規搜尋引擎(如Googlebot、Bingbot)普遍遵守Robots.txt規範。
Robots.txt的基本語法
- User-agent:指定適用的爬蟲。
- Disallow:禁止爬蟲抓取的路徑。
- Allow:明確允許爬蟲抓取的路徑。
- Sitemap:指向網站地圖(Sitemap)的URL。
(建議插入Robots.txt語法範例圖)
Allow與Disallow指令的詳細用法解析
Disallow指令的作用與用法
Disallow用於明確告知爬蟲「不允許」存取指定的路徑。例如:
User-agent: *
Disallow: /admin/
Disallow: /private/
- Disallow: /admin/ 禁止任何爬蟲訪問/admin/與其下所有檔案。
- Disallow: /private/ 同樣禁止/private/下所有內容。
- 空白的Disallow(即
Disallow:)代表允許全部爬取。
Allow指令的用途與範例
Allow通常用於「例外」,即在大範圍Disallow中開放個別檔案或資料夾。例如:
User-agent: *
Disallow: /img/
Allow: /img/logo.png
- 上述範例中,所有/img/下的圖片都不允許爬取,唯獨logo.png允許。
Allow與Disallow指令的優先順序與規則解釋
- Googlebot等主流爬蟲依據「最具體匹配」原則(Longest Match)決定優先度。
- 若同一路徑同時被Allow與Disallow,匹配字元較多的規則為準。
| 路徑 | Disallow規則 | Allow規則 | 結果 |
|---|---|---|---|
| /img/logo.png | /img/ | /img/logo.png | 允許 |
| /img/banner.jpg | /img/ | /img/logo.png | 禁止 |
正確配置Robots.txt的步驟與實務建議
步驟一 建立Robots.txt檔案
- 於網站根目錄建立robots.txt檔案(非子資料夾!)。
- 使用UTF-8無BOM編碼,避免特殊字元錯誤。
步驟二 撰寫適合你的爬蟲規則
- 針對不同User-agent可設定不同規則。
- 常見User-agent如Googlebot、Bingbot、Baiduspider等。
User-agent: Googlebot
Disallow: /temp/
Allow: /temp/public/
User-agent: *
Disallow: /private/
(建議插入多User-agent規則範例圖)

步驟三 測試與驗證Robots.txt有效性
- Google Search Console提供Robots.txt測試工具。
- 可用線上工具如TechnicalSEO Robots.txt Tester。
- 定期檢查確保規則符合需求。
避免爬取敏感頁面的實用技巧
識別網站中的敏感頁面類型
- 後台管理頁(如/admin/、/manage/)
- 會員資料頁(如/account/、/user/profile/)
- 暫存或測試頁(如/staging/、/temp/)
- 付款或交易頁(如/checkout/、/payment/)
- API端點(如/api/)
配置Disallow的常見實例
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /checkout/
Disallow: /api/
儘管這些路徑被Disallow,並不代表它們無法被直接訪問。建議同步搭配伺服器端權限控管(如帳密、IP限制)。
高級技巧:結合Allow、Disallow與萬用字元
Robots.txt支援*(任意字元)、$(結尾)等萬用字元。例如:
User-agent: *
Disallow: /*.pdf$
Disallow: /private/
Allow: /private/public/
- 禁止所有.pdf檔案(不限目錄)。
- 禁止/private/下的內容,但開放/private/public/。
(建議插入萬用字元規則說明圖)
網站爬蟲的引導策略與SEO最佳化
使用Sitemap輔助Crawler抓取
- 於Robots.txt中加入Sitemap指令,有助搜尋引擎發現重要網頁。
Sitemap: https://www.example.com/sitemap.xml
區分允許與禁止爬取頁面的策略
- 將重點內容、SEO目標頁面開放爬取。
- 將重複內容、登入頁、測試頁、隱私頁面設為Disallow。
避免常見SEO與安全誤區
- 勿用Robots.txt藏真正機密: Robots.txt內容公開可見,敏感路徑不應僅依賴該檔案保護。
- Disallow不等於de-index: 若頁面已被索引,僅用Disallow無法移除,應結合noindex標籤。
- 測試環境與正式站分開控管: 測試站務必阻擋所有爬蟲,避免重複內容影響正式站SEO。
| 錯誤類型 | 錯誤示範 | 正確做法 |
|---|---|---|
| 未阻擋後台 | 無Disallow: /admin/ | 加入Disallow: /admin/ |
| 將敏感頁面僅以Robots.txt保護 | Disallow: /secret/ | 同步設定伺服器驗證 |
| 覆蓋SEO重要頁 | Disallow: / | 僅針對敏感路徑Disallow |
實作經驗分享與案例解析
案例一 電商網站敏感頁面防護
某大型電商平台因測試站未配置Robots.txt,導致Google索引出一批假資料與測試訂單頁。後來透過以下配置解決問題:
User-agent: *
Disallow: /staging/
Disallow: /test/
Disallow: /order/history/
案例二 新聞網站SEO最佳化
新聞網站希望加快新內容收錄、避免重複內容影響SEO。實作如下:
User-agent: *
Disallow: /tmp/
Disallow: /draft/
Allow: /news/
Sitemap: https://news.example.com/sitemap.xml
配合Sitemap提交,網站新新聞頁面平均收錄時間由3天縮短至1天,SEO效益明顯提升。
案例三 WordPress網站常見配置
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
WordPress網站由於/wp-admin/為後台目錄,建議禁止爬取,僅開放admin-ajax.php供前端功能使用。
(建議插入WordPress相關Robots.txt設定截圖)
Robots.txt與網站資安的關聯性
Robots.txt不是資安終極防線
- 所有人都可直接瀏覽https://網站網址/robots.txt,敏感路徑有可能被有心人士發現。
- 應同步採用權限驗證、IP封鎖、資料加密等嚴謹防護措施。
常見資安建議
- 不要僅依賴Robots.txt保護機密資料。
- 敏感路徑應設立伺服器端存取控制(如HTTP驗證、Session檢查)。
- 定期檢查Robots.txt,避免遺漏新產生的敏感頁面。
(建議插入資安防護流程圖)
常見問題解答FAQ
- Robots.txt能完全阻擋所有爬蟲嗎?
- 不能。Robots.txt僅對守規矩的搜尋引擎有效,惡意爬蟲可選擇無視規則。保護機密仍需伺服器安全措施。
- 已被Google索引的頁面,Robots.txt能讓其下架嗎?
- 僅使用Disallow無法移除已收錄頁面,需於頁面加上noindex標籤,並透過Search Console提交移除申請。
- Robots.txt是否會影響SEO排名?
- 會。若誤設Disallow重要內容,會使這些頁面無法被收錄,導致SEO表現下降。因此必須謹慎設定。
- 如何測試Robots.txt設定是否正確?
- 可利用Google Search Console的Robots.txt測試工具,或其他第三方線上工具來檢查規則生效狀態。
- Robots.txt可以針對特定搜尋引擎制定不同規則嗎?
- 可以。透過User-agent指令,自訂不同搜尋引擎的允許與禁止規則,滿足多元需求。

總結與行動建議
精確配置Robots.txt檔案,是網站SEO與資安管理的重要一環。建議定期檢查與優化規則,辨識敏感頁面並適當使用Allow、Disallow、萬用字元等指令,搭配伺服器權限控管,才能打造安全且高效的網站環境。若對Robots.txt配置或SEO策略有疑問,歡迎諮詢專業顧問或參考Google官方文件進行最佳實踐。
作者建議: 本文由具豐富網站SEO、資安與實務經驗的內容團隊編撰,結合業界案例與最新搜尋引擎規範,資訊具備專業性與權威性,適合網站維運、行銷與開發人員參考。





