robots.txt是什么文件 有什么作用
問:經常在網上看到說網站目錄里面最好加robots.txt文件,請問robots.txt是個什么樣文件,上傳了robots.txt文件到網站目錄又有什么作用呢?
答:當一個搜索引擎蜘蛛(比如百度蜘蛛)訪問你的站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。
所以從這點看出,robots.txt是一個協議,而不是一個命令。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的,什么文件可以被抓取。當然了,如果你的網站有robots.txt這個文件,那么它將是搜索引擎中訪問你的網站時要查看的第一個文件。
推薦閱讀:百度官方定義什么是robots.txt文件?
搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider在訪問一個網站時,會首先會檢查該網站的根域下是否有一個叫做 robots.txt的純文本文件,這個文件用于指定spider在您網站上的抓取范圍。您可以在您的網站中創建一個robots.txt,在文件中聲明 該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
robots.txt文件放在哪里?
robots.txt文件應該放置在網站根目錄下。舉例來說,當spider訪問一個網站(比如 http://www.baidu.com)時,首先會檢查該網站中是否存在http://www.baidu.com/robots.txt這個文件,如果Spider找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。
在robots.txt中禁止百度收錄,百度搜索結果中還顯示?
如果其他網站鏈接了您robots.txt文件中設置的禁止收錄的網頁,那么這些網頁仍然可能會出現在百度的搜索結果中,但您的網頁上的內容不會被抓取、建入索引和顯示,百度搜索結果中展示的僅是其他網站對您相關網頁的描述。
掃二維碼手機查看該文章