介紹 · TensorFlow 機器學習秘籍中文第二版

# 介紹到目前為止，我們只考慮過主要使用數字輸入的機器學習算法。如果我們想要使用文本，我們必須找到一種方法將文本轉換為數字。有很多方法可以做到這一點，我們將在本章中探討一些常用的方法。如果我們考慮句子`TensorFlow makes machine learning easy`，我們可以按照我們觀察它們的順序將單詞轉換為數字。這將使句子成為`1 2 3 4 5`。然后，當我們看到一個新句子`machine learning is easy`時，我們可以將其翻譯為`3 4 0 5,`，表示我們沒有看到的索引為零的單詞。通過這兩個例子，我們將詞匯量限制為六個數字。對于大塊文本，我們可以選擇我們想要保留多少單詞，并且通常保留最常用的單詞，用零索引標記其他所有單詞。如果單詞`learning`的數值為 4，單詞`makes` 的數值為 2，則自然會認為`learning`是`makes`的兩倍。由于我們不希望單詞之間存在這種類型的數字關系，我們可以假設這些數字代表的是類別，而不是關系數字。另一個問題是這兩個句子的大小不同。我們所做的每個觀察（在這種情況下，句子）需要具有與我們希望創建的模型相同的大小輸入。為了解決這個問題，我們必須在稀疏向量中創建每個句子，如果該單詞出現在該索引中，則該特定索引中的值為 1： | `TensorFlow` | `makes` | `machine` | `learning` | `easy` | | --- | --- | --- | --- | --- | | 1 | 2 | 3 | 4 | 5 | ```py first_sentence = [0,1,1,1,1,1] ``` 為了進一步解釋前面的向量，我們的詞匯由六個不同的單詞組成（五個已知單詞和一個未知單詞）。對于這些單詞中的每一個，我們要么具有零值或 1 值。零表示單詞不出現在我們的句子中，1 表示它至少出現一次。因此值為零表示該單詞不會出現，值為 1 表示它出現 | `machine` | `learning` | `is` | `easy` | | --- | --- | --- | --- | | 3 | 4 | 0 | 5 | ```py second_sentence = [1,0,0,1,1,1] ``` 這種方法的缺點是我們失去了任何詞序的指示。兩個句子`TensorFlow makes machine learning easy`和`machine learning makes TensorFlow easy`將產生相同的句子向量。值得注意的是，這些向量的長度等于我們選擇的詞匯量的大小。選擇非常大的詞匯量是很常見的，因此這些句子向量可能非常稀疏。這種類型的嵌入稱為詞袋。我們將在下一節中實現這一點。另一個缺點是單詞`is`和`TensorFlow`具有相同的數字索引值：1。有意義的是，單詞`is`可能不如單詞`TensorFlow`的出現重要。我們將在本章中探索不同類型的嵌入，試圖解決這些問題，但首先我們將開始實現字袋算法。