#語音識別
語音識別(**SpeechRecognizer**),包括聽寫、語法識別功能。語音識別技術(Auto Speech Recognize, 簡稱ASR)即把人的自然語言音頻數據轉換成文本數據。除了聽寫、語法識別外,還有語義理解 SpeechUnderstander(見后面章節)。關于文本數據轉語音的功能,請參考語音合成類 SpeechSynthesizer (見后面章節)。
語法識別,是基于語法規則,將與語法一致的自然語言音頻轉換為文本輸出的技術。語法識別的結果值域只在語法文件所列出的規則里,故有很好的匹配率,另外,語法識別結果攜帶了結果的置信度,應用可以根據置信分數,決定這個結果是否有效。語法識別多用于要更準確結果且有限說法的語音控制,如空調的語音控制等。在使用語法識別時,應用需要先構建一個語法文件上傳給服務器,并在會話時,傳入語法ID,以使用該語法。
聽寫,是基于自然語言處理,將自然語言音頻轉換為文本輸出的技術。語音聽寫技術與語法識別技術的不同在于,語音聽寫不需要基于某個具體的語法文件,其識別范圍是整個語種內的詞條。在聽寫時,應用還可以上傳個性化的詞表,如聯系人列表等,提高列表中詞語的匹配率(見后面章節)。