* 輿情的覆蓋度如何保證?
集合了市面上的各大新聞搜索引擎的結果,對一些重點新聞、財經、論壇網站進行定向
監控,同時包含微博、微信、各大論壇數據。
* 輿情的更新頻率?
每日四次高頻掃描;
* 輿情摘要的生成邏輯?
利用 TextRank 算法生成若干權重較高的句子拼接而成。
* 分類標簽的邏輯?
首先有機器學習模型進行大的分類。(這一步目前還沒有,如果問起來可以說,目前的算
法模型是 SVM,大類是指,體育類、娛樂類、財經類、新聞類、垃圾信息等,財經和新聞
是我們關注的)
然后利用多模式匹配算法結合關鍵詞模型,對文本進行分類
* 情感標簽的邏輯?
結合多個機器學習模型進行投票,產生最后的情感傾向性結果。(目前的算法模型有
SVM 和隨機森林,沒問的話先不用說)
* 輿情監控優勢?
主要從以下幾點出發:
* 覆蓋范圍廣,包括微信、微博、論壇;
* 服務器多,高頻次網頁監控,每日 4 次;
* 自動摘要,基于 TextRank 算法,有內部參數調優;
* 情感準確,內部包含多個機器學習模型,按權重進行結果聚合,最后產生結果;
* 分類準確,首先基于機器學習模型進行一次分類,然后利用多模式匹配算法結合;關鍵詞模型,對文本進行分類;分類類別可定制。