Ⅰ 如何禁止網路爬蟲頻繁爬自己網站
可以設置robots.txt來禁止網路爬蟲來爬網站。
方法:
首先,你先建一個空白文本文檔(記事本),然後命名為:robots.txt;
(1)禁止所有搜索引擎訪問網站的任何部分。
User-agent: *
Disallow: /
(2)允許所有的robots訪問,無任何限制。
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
還可以建立一個空文件robots.txt或者不建立robots.txt。
(3)僅禁止某個搜索引擎的訪問(例如:網路spider)
User-agent: BaiSpider
Disallow:/
(4)允許某個搜索引擎的訪問(還是網路)
User-agent: BaiSpider
Disallow:
User-agent: *
Disallow: /
這里需要注意,如果你還需要允許谷歌bot,那麼也是在「User-agent: *」前面加上,而不是在「User-agent: *」後面。
(5)禁止Spider訪問特定目錄和特定文件(圖片、壓縮文件)。
User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
這樣寫之後,所有搜索引擎都不會訪問這2個目錄。需要注意的是對每一個目錄必須分開說明,而不要寫出「Disallow:/AAA.net/ /admin/」。
Ⅱ 如何禁止搜索引擎爬蟲(Spider)抓取網站頁面
一般情況,大家都是希望搜索引擎爬蟲盡可能多的抓取自己的網站,但有時也需要告訴爬蟲不要抓取,比如,不要抓取鏡像頁面等。
以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。
1、通過 robots.txt 文件屏蔽
Ⅲ 如何禁止搜索引擎爬蟲抓取網站頁面
以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。
1、通過 robots.txt 文件屏蔽
可以說 robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對話),給出以下建議:
User-agent: Baispider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通過 meta tag 屏蔽
在所有的網頁頭部文件添加,添加如下語句:
<meta name="robots" content="noindex, nofollow">
3、通過伺服器(如:Linux/nginx )配置文件設置
直接過濾 spider/robots 的IP 段。
Ⅳ PHP判斷是不是爬蟲的方法
理論上是無法判斷,一般可以判斷瀏覽器代理,但是爬蟲其實可以完全模擬瀏覽器。我網站禁止爬蟲的代碼如下:
//禁止OFFICE、尼姆達、蜘蛛
if(stripos($_SERVER['HTTP_USER_AGENT'],'Microsoft')===0||
stripos($_SERVER['HTTP_USER_AGENT'],'Microsoft-WebDAV-MiniRedir')===0||
stripos($_SERVER['HTTP_USER_AGENT'],'Baispider')===0||
stripos($_SERVER['HTTP_USER_AGENT'],'SogouOrionspider')===0||
stripos($_SERVER['HTTP_USER_AGENT'],'Googlebot'))exit('EXPLORERERROR(你的瀏覽器出現嚴重錯誤),MAYBEINFFECTVIRUS(你的電腦可能感染病毒)!');
Ⅳ 如何分析伺服器的反爬蟲機制
1、根據UA機制識別爬蟲。
UA的全稱是UserAgent,它是請求瀏覽器的身份標志,很多網站使用它來是識別爬蟲的標志,如果訪問請求的頭部中沒有帶UA那麼就會被判定為爬蟲,但由於這種要針對這種反爬蟲機制十分容易,即隨機UA,所以這種反爬機制使用的很少。
2、根據訪問頻率識別爬蟲。
爬蟲為了保證效率,往往會在很短的時間內多次訪問目標網站,所以可以根據單個IP訪問的頻率來判斷是否為爬蟲。並且,這種反爬方式比較難以被反反爬機制反制,只有通過更換代理IP來保證效率,IPIDEA提供高匿穩定的IP同時更注重用戶隱私的保護,保障用戶的信息安全。
3、通過Cookie和驗證碼識別爬蟲。
Cookie就是指會員制的賬號密碼登陸驗證,這就可以根據限制單賬號抓取頻率來限制爬蟲抓取,而驗證碼完全是隨機的,爬蟲腳本無法正確識別,同樣可以限制爬蟲程序。
Ⅵ 怎麼判斷爬蟲伺服器的ip被網站封了
設置putty
打開putty,找到左邊的SSH,選擇Tunnels,然後在Source
port上填入你想要的埠號,然後Add一下,下面選擇Dynamic即可。現在你機器的127.0.0.1:埠號(例如:127.0.0.1:9999,當然使用localhost替換127.0.0.1也是可以的)就是代理伺服器了。設置好後需要用putty登錄到伺服器,並保持登錄狀態。然後設置一下瀏覽器的代理伺服器就可以了。
設置FireFox
工具–>選項–>高級–>網路,在SOCKS主機填入本機的IP以及剛才設置的代理埠號即可。
這樣設置之後,瀏覽器打開網站顯示的就是伺服器的IP了,直接用你的瀏覽器訪問網站,如果能不能打開對方的網站並且不用代理就能打開說明你的IP被網站封了。如果你的伺服器在國外也可以用來訪問國外的網站不會被屏蔽。如果想訪問facebook這樣的大網站還需要設置一下dns。使瀏覽器解析網站的時候用伺服器的dns,在Firefox的地址欄輸入
about:config
,找到network.proxy.socks_remote_dns,雙擊改成true即可。該選項是使用遠程代理伺服器來解析DNS,避免DNS欺騙。
Ⅶ 如何阻止百度baidu爬蟲和谷歌蜘蛛抓取網站內容
如果不希望網路或 Google抓取網站內容,就需要在伺服器的根目錄中放入一個 robots.txt 文件,其內容如下:
User-Agent: *
Disallow: /
這是大部份網路漫遊器都會遵守的標准協議,加入這些協議後,它們將不會再漫遊您的網路伺服器或目錄。
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是「網路爬蟲排除標准」(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
實例分析:淘寶網的 Robots.txt文件
User-agent: Baispider
Disallow: /
User-agent: spider
Disallow: /
很顯然淘寶不允許網路的機器人訪問其網站下其所有的目錄。
Ⅷ 如何防止網站被爬蟲爬取的幾種辦法
相較於爬蟲技術,反爬蟲實際上更復雜。目前許多互聯網企業都會花大力氣進行「反爬蟲」,網路爬蟲不但會占據過多的網站流量,導致有真正需求的用戶沒法進入網站,另外也有可能會導致網站關鍵數據的外泄等現象。網路爬蟲遍布互聯網的各個角落,因此網路爬蟲有好處也有壞處,接下來介紹一下和網路爬蟲一同誕生的反爬蟲技術,如何才能防止別人爬取自己的網站?
1、基於程序本身去防止爬取:作為爬蟲程序,爬取行為是對頁面的源文件爬取,如爬取靜態頁面的html代碼,可以用jquery去模仿寫html,這種方法偽裝的頁面就很難被爬取了,不過這種方法對程序員的要求很高。
2、基於iptables和shell腳本:可以對nginx的access.log進行策略定義,例如定義在1分鍾內並發連接數超過30個ip為非法,如ip不在白名單內,則加入iptables策略封掉,當然這種的缺點是會有「誤傷」,策略細粒度越小就會有更多的「誤傷」,細粒度大就會使效果變差,另外還有類似的第三方工具fail2ban,利用做filter和actor對一些有危害的操作記錄或是封ip。但是對於某個特定的爬蟲地址(例如網易、有道)的爬取行為拒絕也很難准確做到,因為你無法准確知道這些特定的爬蟲ip地址。注意:建議不要用封ip條目的方式,iptables列表長度是65535時就會封滿,伺服器也就會死機。
3.使用robots.txt文件:例如阻止所有的爬蟲爬取,但是這種效果不是很明顯。
User-agent: *
Disallow: /
4.使用nginx的自帶功能:通過對httpuseragent阻塞來實現,包括GET/POST方式的請求,以nginx為例,具體步驟如下:
編輯nginx.conf
拒絕以wget方式的httpuseragent,增加如下內容
## Block http user agent - wget ##
if ($http_user_agent ~* (Wget) ) {
return 403;
}
## Block Software download user agents ##
if ($http_user_agent ~* LWP::Simple|BBBike|wget) {
return 403;
平滑啟動
# /usr/local/nginx/sbin/nginx -s reload
如何拒絕多種httpuseragent,內容如下:
if ($http_user_agent ~ (agent1|agent2|Foo|Wget|Catall Spider|AcoiRobot) ) {
return 403;
}
大小寫敏感匹配
### 大小寫敏感http user agent拒絕###
if ($http_user_agent ~ (Catall Spider|AcoiRobot) ) {
return 403;
}
### 大小寫不敏感http user agent拒絕###
if ($http_user_agent ~* (foo|bar) ) {
return 403;
}
注意語法:~*表示是大小寫不敏感,~表示是大小寫敏感
}
以上就是預防網站信息被別人爬取的一些方法,大量的爬取行為會對web伺服器的性能有影響,所以一定要注重反爬蟲措施。
Ⅸ 如何設置讓網站禁止被爬蟲收錄
1、網站建設好了,當然是希望網頁被搜索引擎收錄的越多越好,但有時候我們也會碰到網站不需要被搜索引擎收錄的情況。要啟用一個新的域名做鏡像網站,主要用於PPC
的推廣,這個時候就要想辦法屏蔽搜索引擎蜘蛛抓取和索引我們鏡像網站的所有網頁。因為如果鏡像網站也被搜索引擎收錄的話,很有可能會影響官網在搜索引擎的權重。
2、屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲。
3、通過
robots.txt
文件屏蔽,可以說
robots.txt
文件是最重要的一種渠道(能和搜索引擎建立直接對話)。通過
meta
tag
屏蔽,在所有的網頁頭部文件添加,添加如下語句:
。通過伺服器(如:Linux/nginx
)配置文件設置,直接過濾
spider/robots
的IP
段。
Ⅹ 怎麼防止網站被爬蟲爬取的幾種辦法
可以在網站的根目錄加上robot.txt文件,這樣就可以阻止爬蟲爬取了。