語音識別效果不好 · 客客推AI機器人系統

# 語音識別效果不好 ### 語音識別效果不好如果每次用戶說話的前 2個字識別不到可以關閉靜音抑制。具體到語音網關找到相關配置。 1 為什么科大輸入法識別效果很好，我們的系統識別效果卻不好科大輸入發是 16000hz采樣的聲音電話是 8000hz采樣的聲音。不具有可比性 2 能不能把聲音也轉換成 16000hz的然后再識別呢 100萬像素的圖片，你轉成 1000萬像素保存，圖片會變清晰嗎，聲音也是一個道理，聲音的采樣率和圖片像素是一個概念。所以 8000轉到16000完全沒用。 3 到底怎么樣可以提高識別率 1）想辦法提高聲音質量，比如用數字線路，如果無線網關放信號好的位置，用g711編碼。 2）可以換一個語音識別引擎，比如科大SDK試試。多個識別引擎對比一下，找一個合適你的。 3）把關鍵詞上傳到識別引擎后臺，科大語音聽寫SDK接口的上傳關鍵詞地方是（服務管理->個性化聽寫） 4） GOIP設備設備放到信號好的地方（信號不好會丟包）關閉設備的靜音抑制功能（開了靜音抑制，容易出現前1-2個字沒識別到）設備后臺把用戶說話(輸入)音量調大（如果用戶說話音量不夠大容易出現，機器人在說話時，用戶說話識別不到，也就是不能打斷，很多設備對雙方同時說話支持不好） 4 線路聲音編碼和識別率有影響嗎有的，各種聲音編碼都是有損壓縮，識別率最好的情況是 e1或者IMS (G711編碼)。g729,編碼后的聲音會更不清晰。 5 什么線路音質最好 e1 > ims > sim E1 就是數字中繼 IMS 就是數字中繼IP化 SIM 就是手機卡 5 SIM卡音質怎么樣現在SIM還是用 GSM網絡，或者3G網絡或者CDMA網絡我網上找了一個資料，大家可以自己看看 (總之現在 4G只用數據功能語音還是 2G或者3G聲音都不如E1或者IMS) 一音頻采樣 GSM作為一個全數字的系統，對于語音數據首先進行數字化的量化。也就是模擬的音頻信號轉化成數字信號，再進行數字化的傳輸。聲音的數字化就包括采樣和量化。 GSM主要是傳輸人的聲音，因此人發出的聲音的頻率也就影響了系統的采樣頻率。通常人發出的聲音頻率在85～1100HZ，其中人耳敏感的頻率范圍是1～4KHZ。聲波的主要頻率分布20～3400HZ。 1. `奈奎特定律證明：只要取樣的頻率大于原始信號的頻率兩倍之上，信號可以完全有采樣樣本來恢復。因此GSM規范采用8KHZ的采樣頻率，完全滿足人耳分辨聲音的需要。` 二語音編碼對于麥克風里面的聲音，以8KHZ采樣率13位精度進行采樣，得到的速率就是104kbps的源數據流。這樣的碼率對于GSM來說比較大，因此要對語音進行壓縮編碼，以便于傳輸。 GSM系統通常采用四種編解碼器： 1）半速率位速率5.6Kbps 壓縮比18.4 編解碼類型VSELP 最早的GSM網絡使用GSM-HR(Half Rate)標準，編碼速率低，感覺普遍不佳。 2）EFR 位速率12.2Kbps 壓縮比8.5 編解碼類型ACELP 1. `EFR聲碼器是一種代數碼激勵線性預測(ACELP)編碼器` 3）全速率位速率13Kbps 壓縮比8 編解碼類型RTE-LTP LPC 長期預測(LTP)與規則脈沖激勵(RPE)，而全速率編解碼器就被稱為RPE-LTP線性預測編碼器。 4）AMR 位速率12.2-4.75 壓縮比8.5-21.9 編解碼類型ACELP 1. `WCDMA網絡主要是采用AMR編碼方案。GSM主要還是EFR或者是全速率，屬于窄帶技術。` 三 AMR-NB與AMR-WB AMR-WB+ AMR NB的語音帶寬范圍：300－3400Hz，8KHz采樣 AMR WB的語音帶寬范圍： 50－7000Hz，16KHz采樣 AMR-WB+的采樣速率是在16～48 kHz之間。這使得它的語音帶寬更寬(24 kHz) 在4G時代，LTE網絡采用AMR-WB 和AMR-WB+,來傳輸高清語音數據。總結：當前的語音網絡中，GSM普遍采用全速率或者EFR。3G通信普遍使用AMR-NB。AMR-WB或者AMR-WB+目前在國內的運營商還沒有采用。編碼器對每20ms采用的語音信號封裝成塊，經過編碼處理，最后形成數據幀。發送到網絡上。