電影評論情感分類（imdb） · AADeepLearning

# 電影評論情感分類（imdb）數據集來自 IMDB 的 25,000 條電影評論，以情緒（正面/負面）標記。評論已經過預處理，并編碼為詞索引（整數）的序列表示。為了方便起見，將詞按數據集中出現的頻率進行索引，例如整數 3 編碼數據中第三個最頻繁的詞。這允許快速篩選操作，例如：「只考慮前 10,000 個最常用的詞，但排除前 20 個最常見的詞」。作為慣例，0 不代表特定的單詞，而是被用于編碼任何未知單詞。 ## 用法： ~~~ from AADeepLearning.datasets import imdb (x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3) ~~~ * **返回：** * 2 個元組： * **x\_train, x\_test**: 序列的列表，即詞索引的列表。如果指定了`num_words`參數，則可能的最大索引值是`num_words-1`。如果指定了`maxlen`參數，則可能的最大序列長度為`maxlen`。 * **y\_train, y\_test**: 整數標簽列表 (1 或 0)。 * **參數:** * **path**: 如果你本地沒有該數據集 (在`'~/.aadeeplearning/datasets/' + path`)，它將被下載到此目錄。 * **num\_words**: 整數或 None。要考慮的最常用的詞語。任何不太頻繁的詞將在序列數據中顯示為`oov_char`值。 * **skip\_top**: 整數。要忽略的最常見的單詞（它們將在序列數據中顯示為`oov_char`值）。 * **maxlen**: 整數。最大序列長度。任何更長的序列都將被截斷。 * **seed**: 整數。用于可重現數據混洗的種子。 * **start\_char**: 整數。序列的開始將用這個字符標記。設置為 1，因為 0 通常作為填充字符。 * **oov\_char**: 整數。由于`num_words`或`skip_top`限制而被刪除的單詞將被替換為此字符。 * **index\_from**: 整數。使用此數以上更高的索引值實際詞匯索引的開始。