語音識別,包括聽寫、語法識別功能。語音識別技術(Auto Speech Recognize,簡稱ASR)即把人的自然語言音頻數據轉換成文本數據。
聽寫,是基于自然語言處理,將自然語言音頻轉換為文本輸出的技術。語音聽寫技術與語法識別技術的不同在于,語音聽寫不需要基于某個具體的語法文件,其識別范圍是整個語種內的詞條。在聽寫時,應用還可以上傳個性化的詞表,如聯系人列表等,提高列表中詞語的匹配率。
語法識別,是基于語法規則,將與語法一致的自然語言轉換為文本輸出的技術。語法識別相比聽寫,有更高的匹配率,多用于要更準確結果且有限說法的語音控制,如空調的語音控制等。在使用語法識別時,應用需要先構建一個語法文件上傳給服務器,并在會話時,傳入語法ID,以使用該語法。