網站日志是站長們會接觸到的一項數據,一般不會作為網站分析的主要數據來源,但我們可以通過網站日志了解到用戶的行為和解析用戶的瀏覽目的。本文綠夏SEO跟大家講下網站日志是什么?網站日志分析了什么內容?
一、網站日志格式分類
目前常見的網站日志格式主要有兩類:
1、Apache的NCSA日志格式:NCSA格式又分為NCSA普通日志格式(CLF)和NCSA擴展日志格式(ECLF)兩類,目前最常用的是NCSA擴展日志格式及基于自定義類型的Apache日志格式。
2、IIS的W3C日志格式:W3C擴展日志格式(ExLF)具備了更為豐富的輸出信息,主要是微軟IIS(Internet Information Services)中應用。
二、網站日志是什么
網站日志(Web log)是一種記錄網站服務器與用戶之間交互行為的文件。當用戶訪問網站時,服務器會自動將用戶的訪問信息寫入日志文件中。網站日志主要包括訪問日志、錯誤日志和其他類型的日志。這些日志文件有助于網站管理員分析網站的運行狀況,監測服務器性能,診斷問題,分析用戶行為等。
網站日志通常包含以下信息:
1、IP地址:用戶的IP地址,用于識別訪問者的地理位置和網絡服務商。
2、訪問時間:用戶訪問網站的日期和時間。
3、請求方法:用戶使用的HTTP方法,如GET、POST等。
4、請求資源:用戶請求的網頁或資源的URL地址。
5、HTTP狀態碼:服務器返回給訪問者的HTTP響應狀態碼,如200表示請求成功,404是請求資源未找到等。
6、用戶代理:訪問者使用的瀏覽器和操作系統的信息,有助于了解訪問者的設備和瀏覽習慣。
7、來源頁面:用戶從哪個頁面跳轉至當前頁面的URL地址,有助于了解網站的內部鏈接和外部來源。
8、數據傳輸量:用戶請求的資源大小,用于統計網站的流量消耗。
三、典型的網站日志文件
網站日志數據的優勢在于不需要安裝跟蹤代碼,只要你的網站上線,即網站代碼在服務器運行時,它就會開始記錄數據。用戶訪問你網站觸發的任何行為,網站日志都會一一記錄,比如當用戶訪問你網站一個頁面,這時你的網站日志就會記錄一行。當同一個用戶訪問網站上的另一個頁面或圖像,網站日志又會記錄另一行。
下圖是一個典型的網站日志記錄。用戶使用IP:82.168.22.10成功訪問了網站首頁(/)(即HTTP的返回碼是200)、流量來源是谷歌搜索、用戶使用的是火狐瀏覽器。
四、網站日志文件的缺點
從網站日志中獲得的數據并不是完整的,很多網站使用的是JavaScript等代碼來實現用戶在網站上的交互行為,但網站日志不能記錄這些由JavaScript代碼產生的交互行為,所以會缺失一部分用戶數據。一些流量數據統計分析工具可以跟蹤JavaScript的交互行為。
當你的網站有網站靜態的緩存文件時,文件緩存機制將只會返回用戶的緩存文件。例如,圖像文件、CSS文件、JavaScript文件等文件類型適用于文件緩存機制。所以,當你的網站日志返回用戶緩存文件時,將不會被記錄到網站日志中。
當網站每天的訪問數超過100,000時將會生成一個至少30G的網站日志文件,那一個月就會累計1TB的原始數據。從如此大的原始數據中提取分析出人們易懂的日常報表是非常困難而且非常耗時的,而且還占用了很多寶貴的儲存資源。