## xici(關鍵詞分組)
----
多功能分詞工具:
1. 按詞數(關鍵詞長度)分組,相同字數的詞分到一組。
2. 按是否包含數字分組, 包含數字的關鍵詞分到一組。
3. 按是否包含字母分組, 包含字母的關鍵詞分到一組。
4. 按是否包含特殊符號分組,包含特殊符號的關鍵詞分到一組。
5. 按核心詞匯分組。
6. 按核心詞匯的組合分組,組合長度不限。例如:`Java
+費用`,組合間用 `'+'`連接。
7. 支持核心詞組合分組時的匹配模式控制,即:
* `"包含"` 模式:只要關鍵詞包含所有的核心詞便分到該組下(不論核心詞位置的先后)。
* `"相同"` 模式: 只有包含核心詞并且排列結果相同時才分到該組下(核心詞的先后位置一致)。
8. 支持將符合核心詞、核心詞組合的關鍵詞進一步按照關鍵詞的長度進一步細分分組。
9. 支持先刪除符合條件的關鍵詞,然后再分組。
>提示:
>
>刪除關鍵詞的規則的寫法與分組規則一致,核心詞、核心詞組合、包含數字、包含字母、包含特殊符號。刪除規則中不支持長度規則);
>
>字母、數字、特殊符號因某些原因可能存在遺漏——匹配不上導致關鍵詞中依然存在包含這些特殊內容的關鍵詞。
### 準備文件
#### 關鍵詞文件
* 關鍵詞文件須是 `.txt` 類型文件。
* 內容:一行一個關鍵詞。
##### 分詞規則文件
* 規則文件為 `.csv ` 類型文件。
* 具體標題(表頭)見《分詞模板》*運行 rankman template 獲得*
### 規則列填寫說明
#### "保留" 規則
* `&s` —— 包含數字;可匹配包含數字的關鍵詞。
* `&z` —— 包含字母;可匹配包含英文字母的關鍵詞。
* `&f` —— 包含符號;可匹配包含特殊符號的關鍵詞。
* `&c` —— 按關鍵詞長度(詞數)分組,長度相同的關鍵詞分到一組。
* 指定長度分組;寫具體的數字,比如: `10`,則所有長度為10(10個字)的關鍵詞分到該組下。
* 范圍長度分組;寫兩個數字并用 "`_`" 連起來;如:`5_10`,則所有長度大于或等于5,小于或等于10 范圍內的關鍵詞將分到該組下。
* 核心字符(詞組)—— 按包含核心字符進行分組。
* 核心字符(詞組)組合 —— 按包含或者結構與核心字符組合相同進行分組。它有兩種分配規則:
1. 全部包含核心字符;
2. 與核心字符組合的結構相同(占位的順序一致)
#### "刪除"規則
“刪除”的規則與 “保留” 規則基本一致,但涉及關鍵詞**長度**的規則不可用。
#### isPullAfterDone
在分詞時,是否不斷地將已經分出去的詞移除。
* 填 "是" 或者 "否"
結果:
* "是", 在所有的分組中每個關鍵詞都是唯一的。
* "否", 在不同的分組中可能存在相同的關鍵詞。
#### isGroupByLength
作用在核心字符(詞組) 規則上。是否對已分好組的關鍵詞再次按長度進行按長度細分。
* 填 "是" 或者 "否"
結果: 如果“是”,則對已分好組的關鍵詞再次按長度進行按長度細分,按長度歸類并輸出文件名為 核心字符+長度+模式.txt 的文本文件。
#### findMod
作用在核心字符組合(詞組) 規則上。
* 填 “相同” 或者 “包含”
說明:
* "包含", 當關鍵詞包含 全部 核心字符 時,將關鍵詞分到該組下。
* "相同", 當關鍵詞的結構 與 核心字符組合 一致時,將關鍵詞分到該組下。