# 電影評論情感分類(imdb)
數據集來自 IMDB 的 25,000 條電影評論,以情緒(正面/負面)標記。評論已經過預處理,并編碼為詞索引(整數)的序列表示。為了方便起見,將詞按數據集中出現的頻率進行索引,例如整數 3 編碼數據中第三個最頻繁的詞。這允許快速篩選操作,例如:「只考慮前 10,000 個最常用的詞,但排除前 20 個最常見的詞」。
作為慣例,0 不代表特定的單詞,而是被用于編碼任何未知單詞。
## 用法:
~~~
from AADeepLearning.datasets import imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
num_words=None,
skip_top=0,
maxlen=None,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
~~~
* **返回:**
* 2 個元組:
* **x\_train, x\_test**: 序列的列表,即詞索引的列表。如果指定了`num_words`參數,則可能的最大索引值是`num_words-1`。如果指定了`maxlen`參數,則可能的最大序列長度為`maxlen`。
* **y\_train, y\_test**: 整數標簽列表 (1 或 0)。
* **參數:**
* **path**: 如果你本地沒有該數據集 (在`'~/.aadeeplearning/datasets/' + path`),它將被下載到此目錄。
* **num\_words**: 整數或 None。要考慮的最常用的詞語。任何不太頻繁的詞將在序列數據中顯示為`oov_char`值。
* **skip\_top**: 整數。要忽略的最常見的單詞(它們將在序列數據中顯示為`oov_char`值)。
* **maxlen**: 整數。最大序列長度。 任何更長的序列都將被截斷。
* **seed**: 整數。用于可重現數據混洗的種子。
* **start\_char**: 整數。序列的開始將用這個字符標記。設置為 1,因為 0 通常作為填充字符。
* **oov\_char**: 整數。由于`num_words`或`skip_top`限制而被刪除的單詞將被替換為此字符。
* **index\_from**: 整數。使用此數以上更高的索引值實際詞匯索引的開始。
- 序言
- 安裝
- 快速體驗
- 配置
- 層(layer)
- 展平(flatten)
- 全連接(fully connected)
- 卷積(convolutional)
- 池化(pooling)
- 標準化(batch normalization)
- 失活(dropout)
- 循環(RNN)
- 長短期記憶(LSTM)
- 激活函數(activation)
- relu
- sigmoid
- tanh
- 損失(loss)
- 交叉熵損失(softmax)
- 折頁損失(SVM或Hinge)
- 優化器(optimizer)
- 帶動量學習率自適應(adam)
- 動量(momentum)
- 學習率自適應(rmsprop)
- 隨機梯度下降(sgd)
- 模型(model)
- 保存(save)
- 載入(reload)
- 繼續訓練(continue train)
- 數據集(datasets)
- 手寫數字(mnist)
- 時尚物品(Fashion-MNIST)
- 10種物體分類(cifar10)
- 100種物體分類(cifar100)
- 電影評論情感分類(imdb)
- 路透社新聞主題分類(reuters)
- 可視化(visualization)
- 損失曲線(loss)
- 準確率曲線(accuracy)