Web日志挖掘分析的方法 · 日志管理

#### Web日志挖掘分析的方法 * * * * * 日志文件的格式及其包含的信息 > ①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico > ⑥Mozilla/5.0+(Windows；+U；+Windows+NT+5.1；+zh-CN；+rv：1.8.0.3)+Gecko/20060426 > +Firefox/1.5.0.3。 > ①訪問時間；②用戶IP地址；③訪問的URL，端口；④請求方法(“GET”、“POST”等)； > ⑤訪問模式；⑥agent，即用戶使用的操作系統類型和瀏覽器軟件。 #### 一、日志的簡單分析 1. 注意那些被頻繁訪問的資源 2. 注意那些你網站上不存在資源的請求。常見的掃描式攻擊還包括傳遞惡意參數等： 3. 觀察搜索引擎蜘蛛的來訪情況 4. 觀察訪客行為應敵之策： 1. 封殺某個IP 2. 封殺某個瀏覽器類型（Agent） 3. 封殺某個來源（Referer） 4. 防盜鏈 5. 文件重命名作用： 1.對訪問時間進行統計，可以得到服務器在某些時間段的訪問情況。 2.對IP進行統計，可以得到用戶的分布情況。 3.對請求URL的統計，可以得到網站頁面關注情況。 4.對錯誤請求的統計，可以更正有問題的頁面。 #### 二、Web挖掘根據所挖掘的Web 數據的類型，可以將Web 數據挖掘分為以下三類：Web 內容挖掘(Web Content Mining)、Web 結構挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)（也稱為Web日志挖掘）。 ①Web內容挖掘。Web內容挖掘是指從文檔的內容中提取知識。Web內容挖掘又分為文本挖掘和多媒體挖掘。目前多媒體數據的挖掘研究還處于探索階段,Web文本挖掘已經有了比較實用的功能。Web文本挖掘可以對Web上大量文檔集合的內容進行總結、分類、聚類、關聯分析,以及利用Web文檔進行趨勢預測等。Web文檔中的標記,例如<Title>和<Heading>等蘊含了額外的信息,可以利用這些信息來加強Web文本挖掘的作用。 ②Web結構挖掘。Web結構挖掘是從Web的組織結構和鏈接關系中推導知識。它不僅僅局限于文檔之間的超鏈接結構,還包括文檔內部的結構。文檔中的URL目錄路徑的結構等。Web結構挖掘能夠利用網頁間的超鏈接信息對搜索引擎的檢索結果進行相關度排序,尋找個人主頁和相似網頁,提高Web搜索蜘蛛在網上的爬行效率,沿著超鏈接優先爬行。Web結構挖掘還可以用于對Web頁進行分類、預測用戶的Web鏈接使用及Web鏈接屬性的可視化。對各個商業搜索引擎索引用的頁數量進行統計分析等。 ③Web使用記錄挖掘。Web使用記錄挖掘是指從Web的使用記錄中提取感興趣的模式，目前Web使用記錄挖掘方面的研究較多,WWW中的每個服務器都保留了訪問日志,記錄了關于用戶訪問和交互的信息,可以通過分析和研究Web日志記錄中的規律,來識別網站的潛在用戶;可以用基于擴展有向樹模型來識別用戶瀏覽序列模式,從而進行Web日志挖掘;可以根據用戶訪問的Web記錄挖掘用戶的興趣關聯規則,存放在興趣關聯知識庫中,作為對用戶行為進行預測的依據,從而為用戶預取一些Web頁面,加快用戶獲取頁面的速度，分析這些數據還可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。通過對Web服務器日志中大量的用戶訪問記錄深入分析，發現用戶的訪問模式和興趣愛好等有趣、新穎、潛在有用的以及可理解的未知信息和知識，用于分析站點的使用情況，從而輔助管理和支持決策。當前，web日志挖掘主要被用于個性化服務與定制、改進系統性能和結構、站點修改、商業智能以及web特征描述等諸多領域。 #### 三、Web日志挖掘的方法（一）首先，進行數據的預處理。從學習者的訪問日志中得到的原始日志記錄并不適于挖掘，必須進行適當的處理才能進行挖掘。因此，需要通過日志清理，去除無用的記錄；對于某些記錄，我們還需要通過站點結構信息，把URL路徑補充成完整的訪問序列；然后劃分學習者，并把學習者的會話劃分成多個事務。（二）其次，進行模式發現一旦學習者會話和事務識別完成，就可以采用下面的技術進行模式發現。模式發現, 是對預處理后的數據用數據挖掘算法來分析數據。分有統計、分類、聚類、關等多種方法。 ① 路徑分析。它可以被用于判定在一個站點中最頻繁訪問的路徑，還有一些其它的有關路徑的信息通過路徑分析可以得出。路徑分析可以用來確定網站上的頻繁訪問路徑, 從而調整和優化網站結構, 使得用戶訪問所需網頁更加簡單快捷, 還可以根據用戶典型的瀏覽模式用于智能推薦和有針對性的電子商務活動。例如：70% 的學習者在訪問/ E-Business /M2時，是從/EB開始，經過/ E-Business /SimpleDescription，/ E-Business /M1；65%的學習者在瀏覽4個或更少的頁面內容后就離開了。利用這些信息就可以改進站點的設計結構。 ② 關聯規則。使用關聯規則發現方法，可以從Web的訪問事務中找到的相關性。關聯規則是尋找在同一個事件中出現的不同項的相關性，用數學模型來描述關聯規則發現的問題：x=>y的蘊含式，其中x,y為屬性——值對集(或稱為項目集)，且X∩Y空集。在數據庫中若S%的包含屬性——值對集X的事務也包含屬性——值集Y，則關聯規則X=>Y的置信度為C%。 ③ 序列模式。在時間戳有序的事務集中，序列模式的發現就是指那些如“一些項跟隨另一個項”這樣的內部事務模式。它能發現數據庫中如“在某一段時間內，客戶購買商品A，接著會購買商品B，爾后又購買商品C，即序列A→B→C出現的頻率高”之類的信息。序列模式描述的問題是：在給定的交易序列數據庫中，每個序列按照交易的時間排列的一組交易集，挖掘序列函數作用是返回該數據庫中高頻率出現有序列。 ④ 分類分析。發現分類規則可以給出識別一個特殊群體的公共屬性的描述，這種描述可以用于分類學習者。分類包括的挖掘技術將找出定義了一個項或事件是否屬于數據中某特定子集或類的規則。該類技術是最廣泛應用于各類業務問題的一類挖掘技術。分類算法最知名的是決策樹方法，此外還有神經元網絡、Bayesian分類等。例如：在/ E-Business /M4學習過的學習者中有40％是20左右的女大學生。 ⑤聚類分析。可以從Web訪問信息數據中聚類出具有相似特性的學習者。在Web事務日志中，聚類學習者信息或數據項能夠便于開發和設計未來的教學模式和學習群體。聚類是將數據集劃分為多個類，使得在同一類中的數據之間有較高的相似度，而在不同類中的數據差別盡可能大。在聚類技術中，沒有預先定義好的類別和訓練樣本存在，所有記錄都根據彼此相似程度來加以歸類。主要算法有k—means、DBSCAN等。聚類分析是把具有相似特征的用戶或數據項歸類,在網站管理中通過聚類具有相似瀏覽行為的用戶。基于模糊理論的Web頁面聚類算法與客戶群體聚類算法的模糊聚類定義相同，客戶訪問情況可用URL(Uj)表示。有Suj={(Ci，fSuj(Ci))|Ci∈C}，其中fSuj(Ci)→[0，1]是客戶Ci和URL(Uj)間的關聯度：式中m為客戶的數量，hits(Ci)表示客戶Ci訪問URL(Uj)的次數。利用Suj和模糊理論中的相似度度量Sfij定義建立模糊相似矩陣，再根據相似類[Xi]R的定義構造相似類，合并相似類中的公共元素得到的等價類即為相關Web頁面。 ⑥統計。統計方法是從Web 站點中抽取知識的最常用方法, 它通過分析會話文件, 對瀏覽時間、瀏覽路徑等進行頻度、平均值等統計分析。雖然缺乏深度, 但仍可用于改進網站結構, 增強系統安全性, 提高網站訪問的效率等。 ⑦協同過濾。協同過濾技術采用最近鄰技術，利用客戶的歷史、喜好信息計算用戶之間的距離，目標客戶對特點商品的喜好程度由最近鄰居對商品的評價的加權平均值來計算。（三）最后，進行模式分析。模式分析。基于以上的所有過程，對原始數據進行進一步分析，找出用戶的瀏覽模式規律，即用戶的興趣愛好及習慣，并使其可視化，為網頁的規劃及網站建設的決策提供具體理論依據。其主要方法有：采用SQL查詢語句進行分析；將數據導入多維數據立方體中，用OLAP工具進行分析并給出可視化的結果輸出。（分類模式挖掘、聚類模式挖掘、時間序列模式挖掘、序列模式挖掘、關聯規則等） #### 四、關聯規則（一）關聯規則顧名思義，關聯規則（association rule）挖掘技術用于于發現數據庫中屬性之間的有趣聯系。一般使用支持度（support）和置信度（confidence）兩個參數來描述關聯規則的屬性。（二）Apriori方法簡介 Apriori算法最先是由Agrawal等人于1993年提出的，它的基本思想是：首先找出所有具有超出最小支持度的支持度項集，用頻繁的(k—1)-項集生成候選的頻繁k-項集；其次利用大項集產生所需的規則；任何頻繁項集的所有子集一定是頻繁項集是其核心。 Apriori算法需要兩個步驟：第一個是生成條目集；第二個是使用生成的條目集創建一組關聯規則。當我們把最小置信度設為85%，通過關聯規則的形成以及對應置信度的計算，我們可以從中得到以下有用的信息： 1.置信度大于最小置信度時：我們可以這樣認為，用戶群體在瀏覽相關網頁時，所呈列的鏈接之間是有很大關聯的，他們是用戶群的共同愛好，通過網頁布局的調整，從某種意義上，可以帶來更高的點擊率及潛在客戶； 2.置信度小于最小置信度時：我們可以這樣認為，用戶群體對所呈列鏈接之間沒太多的關聯，亦或關聯規則中的鏈接在爭奪用戶。 #### 五、網站中Web日志挖掘內容（1）網站的概要統計。網站的概要統計包括分析覆蓋的時間、總的頁面數、訪問數、會話數、惟一訪問者、以及平均訪問、最高訪問、上周訪問、昨日訪問等結果集。（2）內容訪問分析。內容訪問分析包括最多及最少被訪問的頁面、最多訪問路徑、最多訪問的新聞、最高訪問的時間等。（3）客戶信息分析。客戶信息分析包括訪問者的來源省份統計、訪問者使用的瀏覽器及操作系統分析、訪問來自的頁面或者網站、來自的IP地址以及訪問者使用的搜索引擎。（4）訪問者活動周期行為分析。訪問者活動周期行為分析包括一周7天的訪問行為、一天24小時的訪問行為、每周的最多的訪問日、每天的最多訪問時段等。（5）主要訪問錯誤分析。主要訪問錯誤分析包括服務端錯誤、頁面找不到錯誤等。（6）網站欄目分析。網站欄目分析包括定制的頻道和欄目設定，統計出各個欄目的訪問情況，并進行分析。（7）商務網站擴展分析。商務網站擴展分析是專門針對專題或多媒體文件或下載等內容的訪問分析。（8）有4個方向可以選擇:①對用戶點擊行為的追蹤，click stream研究；②對網頁之間的關聯規則的研究；③對網站中各個頻道的瀏覽模式的研究；④根據用戶瀏覽行為，對用戶進行聚類，細分研究；（如果你能夠結合現有的互聯網產品和應用提出一些自己的建議和意見，那就更有價值了。）（9）發現用戶訪問模式。通過分析和探究Web日志記錄中的規律，可以識別電子商務的潛在客戶，提高對最終用戶的服務質量，并改進Web服務器系統的性能。（10）反競爭情報活動。反競爭情報是企業競爭情報活動的重要組成部分。 #### 六、相關軟件及算法（一）相關軟件： 1. 數據挖掘的專用軟件wake。 2. 用OLAP工具 3. 已經有部分公司開發出了商用的網站用戶訪問分析系統，如WebTrends公司的CommerceTrends 3.0,它能夠讓電子商務網站更好地理解其網站訪問者的行為，幫助網站采取一些行動來將這些訪問者變為顧客。CommerceTrends主要由3部分組成：Report Generation Server、Campain Analyzer和Webhouse Builder。 4. Accrue公司的Accrue Insight，它是一個綜合性的Web分析工具,它能夠對網站的運行狀況有個深入、細致和準確的分析，通過分析顧客的行為模式，幫助網站采取措施來提高顧客對于網站的忠誠度，從而建立長期的顧客關系。（二）相關算法： 1. 運用各種算法進行數據挖掘：GSP算法, Prefixspana算法， 2. 關聯規則分析：Apriori、FP-growth算法等。 3. Apriori算法及其變種算法 4. 基于數據庫投影的序列模式生長技術（database project based sequential pattern growth） 5. Wake算法、MLC++等 6. PageRank算法和HITS算法利用Web頁面間的超鏈接信息計算“權威型”（Authorities）網頁和“目錄型”（Hubs）網頁的權值。Web結構挖掘通常需要整個Web的全局數據，因此在個性化搜索引擎或主題搜索引擎研究領域得到了廣泛的應用。 7.參考檢索引擎的挖掘算法，比如Apache的lucene等。 #### 七、日志分析的價值或應用 ①在自己的網站上安裝了網站統計的代碼，如Google analytics、量子統計、百度統計、cnzz、#等，這些工具可以統計網站的流量，也就是網站上訪客可看到的所有頁面的訪問量，但是這些統計工具都不能統計你主機上資源的原始訪問信息，例如某個圖片被誰下載了。 ②如果你的網站遭到了攻擊、非法盜鏈和不良請求等，通過分析原始訪問日志能大概分析出端倪來，例如：往主機上傳了一個mp3，不幸被百度mp3收錄，引來大量的盜鏈，導致我的主機流量猛增！通過分析日志，可以找出問題根源，刪除了那個mp3，主機流量也降下來了。 ③分析訪客來源（Referer）。這一段是告訴我們訪客是從哪里來到這一個網頁。有可能是網站其他頁，有可能是來自搜索引擎的搜索頁等。通過這條來源信息，你可以揪出盜鏈者的網頁。 ④網站日志分析軟件都能提供關于服務器的瀏覽量、統計網站所有頁面和相關文件被顯示的次數、訪問最多的網頁、客戶端訪問最頻繁的文件、訪問者的IP分布、每日訪問統計、每周每月等的統計結果。1.訪問者訪問時段分析。結合IP地址和時段之間的關系可以將來訪者大致的身份作一個基本的判斷。如按上班前、工作期間、下班后、節假日等，可以針對訪客的初步性質安排合適的內容，如產品信息和廣告；2.訪問者地區分布。分析通過將訪問者的IP地址轉換為地理區間可以分析出來訪者的大致地理分布范圍。 ⑤相關產品推薦。通過以上的關聯分析，有了用戶頻繁訪問路徑和鏈接之間的興趣度，可以構建個性化推薦系統模型。對于實證例子，我們可以在置信度高于最低置信度的相關鏈接之間，建立某種信息快速互聯的橋梁，亦或是在網頁規劃中，充分考慮鏈接之間的關聯關系，從而為更人性化、合理化的網頁設計提供決策依據。如：當客戶瀏覽/newimg/num1.gif時，有0.91的概率會瀏覽/newimg/num4.gif，那么，在兩者之間就存在很高的關聯性，從而我們有必要對這兩個鏈接建立某種跟緊密的聯系。 ⑥個性挖掘：針對單個用戶的使用記錄對該用戶進行建模，結合該用戶基本信息分析他的使用習慣、個人喜好，目的是在電子商務環境下為該用戶提供與眾不同的個性化服務。 ⑦系統改進：Web服務（數據庫、網絡等）的性能和其他服務質量是衡量用戶滿意度的關鍵指標，Web 用法挖掘可以通過用戶的擁塞記錄發現站點的性能瓶頸，以提示站點管理者改進Web緩存策略、網絡傳輸策略、流量負載平衡機制和數據的分布策略。此外，可以通過分析網絡的非法入侵數據找到系統弱點，提高站點安全性，這在電子商務環境下尤為重要。 ⑧站點修改：站點的結構和內容是吸引用戶的關鍵。Web 用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點設計者提供改進的依，比如頁面連接情況應如何組織、那些頁面應能夠直接訪問等。 ⑨智能商務：用戶怎樣使用Web站點的信息無疑是電子商務銷售商關心的重點，用戶一次訪問的周期可分為被吸引、駐留、購買和離開四個步驟，Web用法挖掘可以通過分析用戶點擊流等Web日志信息挖掘用戶行為的動機，以幫助銷售商合理安排銷售策略。 ⑩Web特征描述：這類研究跟關注這樣通過用戶對站點的訪問情況統計各個用戶在頁面上的交互情況，對用戶訪問情況進行特征描述。