網站日誌是記錄web伺服器接收處理請求以及運行時錯誤等各種原始信息的以·log結尾的文件,確切的講,應該是伺服器日誌。網站日誌最大的意義是記錄網站運營中比如空間的運營情況,被訪問請求的記錄。
怎麼分析網站日誌?
登錄「FTP」賬號,鏈接到網站數據,找到網站日誌文件夾。(注意:一般情況下,網站日誌所在文件夾都是與網站文件同級文件夾,且帶有log字樣。只有少數情況下,網站日誌文件夾在網站根目錄下。)
打開文件夾,下載日誌壓縮文件!(下載方法很簡單,只要選中文件直接拖到電腦桌面,然後左下方的本地瀏覽下載目錄的文件上「右鍵—傳輸隊列」即可!)
解壓下載的日誌文件,而後將解壓後文件的後綴改為「txt」
新建一個excel表格,並打開!找到頂端工具欄的「數據」工具
點擊「導入數據」,默認「直接打開數據文件」,再選擇「選擇數據源」。
選中解壓後的txt文檔,並打開!
默認「其他編碼「
選擇「分隔符號」,並「下一步」;
勾選所有選項,然後「下一步」;
默認「常規」,並「完成」;
如圖,網站日誌哥數據項之間全部分隔開來;
接下來只要保留自己需要的數據項即可。刪除不需要的數據項!(如圖,僅保留了數據分析需要的訪客ip、訪問文件、訪問狀態碼以及訪客名稱四項數據。)
選中訪客名稱一整列,然後點擊「開始」欄目的「篩選」工具
點擊訪客名稱一列上方的三角下拉按鈕;
取消「全選」,找到網路蜘蛛的訪客名稱,選中並「確定」;
我們就可以得到日誌當天網路蜘蛛訪問網站的所有數據。
最後,該數據保存到網站每日分析日誌中。(注意:每日更新原創內容的網站一般在分析日誌的時候還需要保留時間數據。)
Ⅱ 網站日誌分析主要看的是哪些數據
一般來說得通過ftp下載自身網站的一個叫做log文件夾裡面的log文件,如果是中小型網站,一般用光年日誌分析工具,如果是大型網站,例如新聞門戶網站,可以用shell去進行日誌處理(這個是要懂代碼的),一般來說日誌要分析一下數據
第一、基礎信息,總抓取量、停留時間(h)及訪問次數這三個基礎信息;
第二、目錄抓取,提取出爬蟲抓取的目錄,分析每日目錄抓取量;
第三、時間段抓取,提取每日的時間段的爬蟲抓取量,重在分析每日的抓取情況,找到相應的抓取量較為密集的時間段;
第四,IP段的抓取,進行統計,每日每個IP的抓取量;
第五,狀態碼的統計,HTTP狀態碼返回值。
希望以上的內容能對您有幫助!
Ⅲ 網站日誌是什麼如何分析網站日誌
網站日誌是記錄web伺服器接收處理請求以及運行時錯誤等各種原始信息的以·log結尾的文件,確切的講,應該是伺服器日誌。網站日誌最大的意義是記錄網站運營中比如空間的運營情況,被訪問請求的記錄。
怎麼分析網站日誌?
登錄「FTP」賬號,鏈接到網站數據,找到網站日誌文件夾。(注意:一般情況下,網站日誌所在文件夾都是與網站文件同級文件夾,且帶有log字樣。只有少數情況下,網站日誌文件夾在網站根目錄下。)
打開文件夾,下載日誌壓縮文件!(下載方法很簡單,只要選中文件直接拖到電腦桌面,然後左下方的本地瀏覽下載目錄的文件上「右鍵—傳輸隊列」即可!)
解壓下載的日誌文件,而後將解壓後文件的後綴改為「txt」
新建一個excel表格,並打開!找到頂端工具欄的「數據」工具
點擊「導入數據」,默認「直接打開數據文件」,再選擇「選擇數據源」。
選中解壓後的txt文檔,並打開!
默認「其他編碼」
選擇「分隔符號」,並「下一步」;
勾選所有選項,然後「下一步」;
默認「常規」,並「完成」;
如圖,網站日誌哥數據項之間全部分隔開來;
接下來只要保留自己需要的數據項即可。刪除不需要的數據項!(如圖,僅保留了數據分析需要的訪客ip、訪問文件、訪問狀態碼以及訪客名稱四項數據。)
選中訪客名稱一整列,然後點擊「開始」欄目的「篩選」工具
點擊訪客名稱一列上方的三角下拉按鈕;
取消「全選」,找到網路蜘蛛的訪客名稱,選中並「確定」;
我們就可以得到日誌當天網路蜘蛛訪問網站的所有數據。
最後,該數據保存到網站每日分析日誌中。(注意:每日更新原創內容的網站一般在分析日誌的時候還需要保留時間數據。)
Ⅳ 網站日誌怎麼看啊
網站日誌在哪裡?
因為網站環境分為兩種,一種windows伺服器,一種是linux伺服器,所以網站日誌也有所不同。
我們所說的日誌通常是指IIS日誌,簡單易懂。linux主機就是Apache日誌,敲代碼,比較難懂。
一般的虛擬主機都自帶有網站日誌下載,打開wwwlogos這裡面每天會保存一周的日誌。如果是獨立伺服器的話,由於開啟的服務不同,就會有多種情況。
1、Nginx日誌文件名稱及路徑介紹
nginx的log網站日誌分為errorlog和accesslog
accesslog記錄了用戶在什麼IP地址、什麼時候訪問的、用的什麼操作系統、通過哪個瀏覽器、顯示器解析度是多少、訪問了你網站的哪個頁面,做什麼操作,是否訪問成功等等信息;
errorlog則是記錄伺服器錯誤日誌。
2、Apache日誌文件名稱及路徑介紹
Apache的網站日誌分別是訪問日誌access_log(在Windows上是access.log)和錯誤日誌error_log(在Windows上是error.log)。如果使用SSL服務的話,還可能存在ssl_error_log和ssl_access_log和ssl_request_log三種日誌文件。
日誌文件的路徑根據安裝方式不同位置也是不一樣的,一般都是在Apache安裝目錄的logs子目錄中,日誌文件路徑可根據實際安裝情況在Apache的配置文件中進行查找。
將網站日誌下載下來後,打開你會發現,內容跟代碼一樣,看不懂!
網站日誌怎麼查看?下面由.top域名給你解答
查看網站日誌的方法有兩種,第一種比較簡單粗暴,用Excel打開網站日誌文件,直接查看即可;第二種方式更加適合新手,通過專業的軟體查看,將下載到本地的網站日誌文件上傳至軟體中,軟體會將重要的信息提取出來以供閱讀。常見的網站日誌分析軟體有:光年日誌分析工具、LogHao網站日誌在線分析工具等。
Ⅳ 如何查看及分析網站IIS日誌文件
IIS查看分析網站日誌需要找到日誌目錄,下面小編在Win10系統演示一下:
1、打開開始界面,點擊左下角的設置圖標,如下圖所示
Ⅵ 怎麼查看網站日誌
因為網站環境分為兩種,一種windows伺服器,一種是linux伺服器,所以網站日誌也有所不同。
我們所說的日誌通常是指IIS日誌,簡單易懂。linux主機就是Apache日誌,敲代碼,比較難懂。
一般的虛擬主機都自帶有網站日誌下載,打開wwwlogos這裡面每天會保存一周的日誌。如果是獨立伺服器的話,由於開啟的服務不同,就會有多種情況。
1、Nginx日誌文件名稱及路徑介紹
nginx的log網站日誌分為errorlog和accesslog
accesslog記錄了用戶在什麼IP地址、什麼時候訪問的、用的什麼操作系統、通過哪個瀏覽器、顯示器解析度是多少、訪問了你網站的哪個頁面,做什麼操作,是否訪問成功等等信息;
errorlog則是記錄伺服器錯誤日誌。
2、Apache日誌文件名稱及路徑介紹
Apache的網站日誌分別是訪問日誌access_log(在Windows上是access.log)和錯誤日誌error_log(在Windows上是error.log)。如果使用SSL服務的話,還可能存在ssl_error_log和ssl_access_log和ssl_request_log三種日誌文件。
日誌文件的路徑根據安裝方式不同位置也是不一樣的,一般都是在Apache安裝目錄的logs子目錄中,日誌文件路徑可根據實際安裝情況在Apache的配置文件中進行查找。
將網站日誌下載下來後,打開你會發現,內容跟代碼一樣,看不懂!
網站日誌怎麼查看?
查看網站日誌的方法有兩種,第一種比較簡單粗暴,用Excel打開網站日誌文件,直接查看即可;第二種方式更加適合新手,通過專業的軟體查看,將下載到本地的網站日誌文件上傳至軟體中,軟體會將重要的信息提取出來以供閱讀。
Ⅶ 新手如何簡單的分析網站日誌
一、網站日誌可以為我們做什麼?
1、 可以分析爬蟲抓取頁面有效性(減少搜索引擎在一些噪音頁面上:重復頁面,低質量頁面,空內容頁面,404頁面,不排名頁面 的抓取頻率);
2、排查網站頁面中存在的404錯誤頁面,500伺服器錯誤等
3、頁面重要內容是否被爬蟲完整爬到並且快速遍歷;
4、正確分辨蜘蛛爬蟲
二、常見HTTP狀態碼解讀
1、200代碼,表示蜘蛛爬取正常
2、404代碼,訪問的這個鏈接是錯誤鏈接
3、301代碼,永久重定向
4、302代碼,表示臨時重定向
5、304代碼,客戶端已經執行了GET,但文件未變化。
6、500代碼,表示網站內部程序或伺服器有錯
接著,我列舉一個網站日誌的案例:
日誌里的含義,可以大家看下網站日誌中各個數據都代表什麼意思,總之這個文件是記錄的一天發生在網站上的一些行為。當我們拿到這么一個網站日誌,我們就可以審視我們的日誌,並且通過對日誌文件分析解決網站存在的問題;
三、日誌代碼解讀
從日誌文件當中可以解讀出兩個部分內容:
1、搜索引擎抓取情況
從日誌文件中,可以大家看到搜索引擎抓取了一些404頁面及低質量重負頁面(噪音行為)
備註:可以通過nslookup ip 識別蜘蛛的真假
/date-2016-01.html(低質量重負頁面)
/author-1.html(低質量重負頁面)
/downloads/(低質量頁面)
/contact.html(死鏈接接),但這里有個問題,這個頁面返回的狀態碼為200而不是404,但頁面卻跳轉到404頁面,從中可以發現伺服器設置一定有問題;
所以,當我們有一些頁面不希望他們抓取的時候,我們需要在robots中進行規范。規范robots一個重要的手段,就是robots.txt。爬蟲糾偏,讓爬蟲花更多的精力放在我的詳情頁面上。
2、用戶訪問網站情況
關於用戶網站訪問情況, 主要分析用戶訪問網站行為軌跡及用戶屬性,大兵seo在這就不進行講述
Ⅷ 如何進行網站日誌分析
1、下載網站日誌:
流程如下:主機獨立控制面板——網站情報系統分析——網站日誌——下載WebLog日誌——右鍵點擊查看,鏈接另存為
在主機獨立控制面板中,找到網站情報系統分析板塊,裡面就能看到網站日誌了,點擊下載WebLog日誌,能看到最近幾天的網站日誌,但是點擊查看進去,會發現是一堆看不懂的代碼,沒有關系,我們先不要進去查看,而是右鍵點擊查看,鏈接另存為,下載網站日誌。
——————
2、代碼看不懂的話,可以使用光年日誌分析軟體GnAnalyzer,這是一個可以幫助我們進行網站日誌分析的軟體。比如蜘蛛抓取的情況,日誌裡面都有顯示。
——————
3、光年日誌分析軟體的使用:
下載好網站日誌後,就可以使用光年日誌分析軟體進行網站日誌的分析了。
流程如下:光年日誌分析軟體文件夾中的GnAnalyzer.exe——文件菜單,新建任務——添加(類型選擇所有文件)——下一步,保存——馬上分析
——————
4、網站日誌分析:
馬上分析後,就可以查看當天:蜘蛛分析(概要分析、目錄抓取、頁面抓取、IP排行);搜索引擎分析(關鍵字分析);狀態碼分析(用戶狀態碼、蜘蛛狀態碼)的相關信息。
文章參考自www.bjtcliuyan.com
Ⅸ 如何分析正確網站日誌
這個太多內容了,不過找下面幾個代碼就可以完成分析了
狀態碼:(只列出常見到並能直接反正網站問題的狀態碼)
200狀態碼:請求已成功,請求所希望的響應頭或數據體將隨此響應返回。
302狀態碼:請求的資源現在臨時從不同的URI響應請求。
404狀態碼:請求失敗,請求所希望得到的資源未被在伺服器上發現。
500狀態碼:伺服器遇到了一個未曾預料的狀況,導致了它無法完成對請求的處理。
- - 提供了哪些網頁被爬蟲運行到並反應出什麼樣的問題。
從哪裡來:雖然這不一定是有用的分析搜索機器人,它是非常有價值的,其他的流量分析。
哪種爬蟲:這個會告訴你哪個搜索引擎爬蟲在你的網頁上運行的。
Ⅹ SEO優化如何進行網站日誌分析
網站日誌中數據量過大,所以我們一般需要藉助網站日誌分析工具來查看。常用的日誌分析工具有:光年日誌分析工具、web log exploer 、WPS表格等
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE8.0;Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"
分析:
117.26.203.167:來訪ip
02/May/2011:01:57:44 -0700 訪問日期 -時區
GET/index.php HTTP/1.1 根據HTTP/1.1 協議 抓取(域名下)/index.php 這個頁面(GET表示伺服器動作)
500:伺服器響應狀態碼
伺服器響應狀態碼通常狀態碼有以下幾種:200,301,302,304,404,500等。200代表用戶成功的獲取到了所請求的文件,如果是搜索引擎,則證 明蜘蛛在這次爬行中順利的發現了一些新的內容。而301則代表用戶所訪問的某個頁面url已經做了301重定向(永久性)處理,302則是暫時性重 定向。404則代表所訪問的頁面已經不存在了,或者說訪問的url根本就是個錯誤的。500則是伺服器的錯誤。
19967:表示抓取了19967個位元組
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0;
AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa
Toolbar表示訪問者使用火狐瀏覽器及Alexa Toolbar 等訪問端信息如果你的日誌里格式不是如此,則代表日誌格式設置不同。
很多日誌里可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是通過查看每日的日誌里網路蜘蛛抓取次數來獲知,抓取頻率並沒有一個規范的時間表或頻率數字,我們一般通過多日的日誌對比來判斷,當然,我們希望網路蜘蛛每日抓取的次數越多越好,這里分享下如何分辨網路蜘蛛《如何分辨真假網路搜索引擎蜘蛛IP》。
有時候我們的路徑不統一出現帶斜杠和不帶斜杠的問題,蜘蛛會自動識別為301跳轉到帶斜杠的頁面,這里我們就發現了搜索引擎是可以判斷我們的目錄的,所以我們要對我們的目錄進行統一。
我們分析日誌分析時間長了,我們能夠看出蜘蛛的抓取規律,同一目錄下面的單個文件的抓取頻率間隔和不同目錄的抓取頻率間隔都可以看出來,這些抓取頻率間隔時間是蜘蛛根據網站權重和網站更新頻率來自動確定的。
蜘蛛對於我們的頁面的抓取是分等級的,是根據權重依次遞減的,一般順序為首頁、目錄頁、內頁