在現今網站管理與SEO策略中,Robots.txt檔案扮演著重要角色。正確配置此檔案,不僅能有效引導各類網站爬蟲(Crawler),也能防止敏感或不希望被公開的頁面遭到抓取。本文將從Robots.txt的基本原理、Allow與Disallow指令的正確使用,到實戰配置技巧與常見錯誤解析,幫助你全面掌握這項網站管理關鍵技術。閱讀後,你將能自信地配置Robots.txt,兼顧SEO與資訊安全。
文章目錄
Toggle認識Robots.txt檔案的基礎概念
什麼是Robots.txt檔案
Robots.txt是一個純文字檔案,通常放置於網站的根目錄(如https://www.example.com/robots.txt)。它用來告訴搜尋引擎的爬蟲(如Googlebot、Bingbot)哪些頁面或資料夾允許抓取,哪些不允許。透過指令設置,可以有效管理搜尋引擎對網站內容的存取範圍。
Robots.txt的作用與限制
- 管理搜尋引擎對網站內容的索引權限。
- 保護敏感或尚未公開的頁面不被爬取。
- 減少伺服器負擔,提升網站效能。
- 無法阻止惡意爬蟲或不遵守規則的爬蟲。
- 僅適用於支援Robots協議的爬蟲。

Robots.txt的基本語法與指令結構
主要指令說明
- User-agent:指定規則適用的爬蟲名稱(例如Googlebot、* 代表所有爬蟲)。
- Disallow:禁止爬蟲存取指定路徑。
- Allow:允許爬蟲存取指定路徑(常用於例外設定)。
- Sitemap:指定網站地圖位置,協助搜尋引擎更完整地索引網站內容。
Robots.txt基本語法範例
User-agent: * Disallow: /private/ Allow: /private/public-page.html Sitemap: https://www.example.com/sitemap.xml
Allow與Disallow的詳細用法解析
Disallow指令的應用
Disallow用於明確禁止爬蟲存取某些路徑。若設為斜線(/),則代表禁止存取全站;若為空值,則允許存取全部內容。
- Disallow: /admin/ → 禁止存取/admin/目錄下所有頁面
- Disallow: /login.html → 禁止存取/login.html頁面
- Disallow: / → 禁止存取全站(不建議,除非網站正在重建或下線)
- Disallow: → 允許存取全站(等同未設定Disallow)
Allow指令的應用
Allow用於明確允許某些路徑被爬蟲抓取,常用於細緻化權限設定。
- Allow: /public/ → 允許存取/public/目錄下所有頁面
- Allow: /admin/open.html → 即使/admin/已被Disallow,仍允許存取open.html
Allow與Disallow的優先權與範例
當Allow和Disallow發生衝突時,搜尋引擎爬蟲會選擇最「具體」的規則。例如:
User-agent: * Disallow: /private/ Allow: /private/public-info.html
本例中,/private/資料夾被禁止,但/public-info.html例外允許。
防止爬取敏感頁面的實戰技巧
哪些頁面屬於敏感頁面
- 後台管理頁(如/admin/、/backend/)
- 會員登入、註冊、重設密碼頁面
- 收據、報表、訂單明細等個人化頁面
- 測試、開發、暫存資料夾
- 資料收集、分析腳本等隱藏資源
常見敏感頁面Disallow範例
User-agent: * Disallow: /admin/ Disallow: /login/ Disallow: /register/ Disallow: /tmp/
避免將敏感資料暴露於搜尋引擎中
- 定期檢查Robots.txt檔案內容,避免誤設為Allow或遺漏Disallow。
- 敏感資料建議另設身份驗證機制,Robots.txt不等同於資訊安全防線。
- 配合noindex meta標籤,雙重保護重要頁面不被索引。
進階用法與SEO最佳實踐
針對不同爬蟲設置專屬規則
有時候,網站會根據不同搜尋引擎或特定爬蟲,設計不同的爬取規則。例如:
User-agent: Googlebot Disallow: /no-google/ User-agent: Bingbot Disallow: /no-bing/User-agent: * Disallow: /common-restricted/ 照片:Pexels / Tranmautritam|情境示意照
Sitemap與Robots.txt的結合
在Robots.txt中加入Sitemap路徑,有助於搜尋引擎快速找到網站所有重要頁面,提升SEO成效。
Sitemap: https://www.example.com/sitemap.xml
常見錯誤與排除方法
- 大小寫錯誤(路徑與檔名需完全一致)
- 不當使用萬用字元(*、$)導致規則無法正確作用
- 忘記針對特定爬蟲設置例外(如Googlebot-Image)
- Robots.txt檔案存放路徑錯誤(必須在根目錄)
- 語法錯誤導致全部規則失效
常見錯誤修正對照表
Robots.txt效能與安全性思維
效能優化與網站負載管理
- 避免將大量不重要頁面開放給爬蟲,減少伺服器負擔。
- 透過Disallow隔離動態產生或高頻更新頁面。
- 適時使用Crawl-delay(部分搜尋引擎支援)限制爬蟲抓取頻率。
Robots.txt與網站資訊安全
雖然Robots.txt可限制善意爬蟲的行為,但不應將其視為唯一保護敏感資料的方式。建議結合下列措施:
- 伺服器端加強權限控管(如IP白名單、登入驗證)
- 重要路徑不僅依靠Robots.txt而是採用實體隔離
- 對於API或AJAX路徑,建議加密或設權限驗證
實際案例分享與專家建議
真實案例:企業網站敏感頁面外洩
某台灣知名電商平台因未妥善設定Robots.txt,導致/admin/底下測試帳號與管理頁面被Google索引。最終透過在Robots.txt加上
Disallow: /admin/,並配合伺服器認證、noindex標籤,才將資訊安全風險降至最低。
專家建議與日常維護要點
- 每次網站改版後,務必重新檢查Robots.txt規則。
- 使用Google Search Console等工具檢查Robots.txt效力。
- 養成定期回顧與測試的良好習慣,避免規則落後於網站架構。
Robots.txt檔案配置總結與步驟建議
- 盤點網站公開與敏感頁面,明確劃分存取權限。
- 根據需求撰寫User-agent、Disallow、Allow等規則。
- 加入Sitemap路徑,引導搜尋引擎完整索引。
- 將Robots.txt檔案儲存於網站根目錄,確保可被存取。
- 使用搜尋引擎測試工具驗證規則正確性與有效性。
- 定期檢查及更新Robots.txt內容,隨網站成長調整策略。
常見問題FAQ
- Robots.txt能完全防止敏感資料被搜尋引擎索引嗎?
- 不能。Robots.txt僅對守規則的搜尋引擎有效,對於惡意爬蟲或未遵守Robots協議的系統無法防護。建議結合伺服器權限與noindex標籤多重保護。
- Allow與Disallow可以同時用在同一路徑嗎?
- 可以。搜尋引擎通常會以最具體的規則為準。若Disallow禁止某資料夾,Allow可為該資料夾內個別頁面開放例外權限。
- Robots.txt檔案要放在哪裡?
- 必須放在網站根目錄(如https://www.example.com/robots.txt),否則搜尋引擎將無法正確讀取規則。
- 是否所有搜尋引擎都遵守Robots.txt規則?
- 主流搜尋引擎(Google、Bing、Yahoo等)多數遵守Robots.txt規則,但部分小型或惡意爬蟲可能不理會,需另行加強安全措施。
- 如何檢查Robots.txt是否設定正確?
- 可透過Google Search Console的Robots.txt測試工具,或直接訪問https://www.example.com/robots.txt檢查內容,確保規則正確無誤。






