令牌計數矢量化器(文本處理) · PHP-ML中文文檔

### 令牌計數矢量化器 > 將文本樣本集合轉換為令牌計數向量。 ### 構造函數參數 `$tokenizer`（Tokenizer） - tokenizer對象（見下文） `$minDF`（float） - 忽略采樣頻率嚴格低于給定閾值的標記。該值在文獻中也稱為截止值。（默認為0） ``` use Phpml\FeatureExtraction\TokenCountVectorizer; use Phpml\Tokenization\WhitespaceTokenizer; $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer()); ``` ***** ### 轉換要轉換文本樣本集合，請使用`transform`方法。例： ``` $samples = [ 'Lorem ipsum dolor sit amet dolor', 'Mauris placerat ipsum dolor', 'Mauris diam eros fringilla diam', ]; $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer()); // Build the dictionary. $vectorizer->fit($samples); // Transform the provided text samples into a vectorized list. $vectorizer->transform($samples); // return $samples = [ // [0 => 1, 1 => 1, 2 => 2, 3 => 1, 4 => 1], // [5 => 1, 6 => 1, 1 => 1, 2 => 1], // [5 => 1, 7 => 2, 8 => 1, 9 => 1], //]; ``` ***** ### 詞匯您可以使用`getVocabulary()`方法提取詞匯表。例： ``` $vectorizer->getVocabulary(); // return $vocabulary = ['Lorem', 'ipsum', 'dolor', 'sit', 'amet', 'Mauris', 'placerat', 'diam', 'eros', 'fringilla']; ``` ***** ### 分詞 `WhitespaceTokenizer` - 按空格選擇標記。 `WordTokenizer` - 選擇2個或更多字母數字字符的標記（標點符號完全被忽略，并始終被視為標記分隔符）。