奥门威尼斯网址-奥门威尼斯网址登录

语音识别效果不好

如果每次 用户说话的前 2个字识别不到 可以关闭 静音抑制。 具体到语音网关 找到相关配置。

1 为什么 科大输入法识别效果很好,我们的系统识别效果却不好

科大输入发是 16000hz采样的声音 电话是 8000hz采样的声音。不具有可比性

2 能不能把声音也转换成 16000hz的然后再识别呢

100万像素的图片,你转成 1000万像素保存,图片会变清晰吗, 声音也是一个道理,声音的采样率和图片像素是一个概念。所以 8000转到16000完全没用。

3 到底怎么样可以提高识别率
1) 想办法提高声音质量,比如用数字线路,如果无线网关放信号好的位置,用g711编码。
2) 可以换一个语音识别引擎,比如科大SDK试试。 多个识别引擎对比一下,找一个合适你的。
3) 把关键词上传到识别引擎后台,科大语音听写SDK接口的上传关键词地方是 (服务管理->个性化听写)
4) GOIP设备
设备放到信号好的地方 (信号不好会丢包)
关闭设备的静音抑制功能 (开了静音抑制,容易出现前1-2个字 没识别到)
设备后台把用户说话(输入)音量调大 (如果用户说话音量不够大容易出现,机器人在说话时,用户说话识别不到,也就是不能打断,很多设备对双方同时说话支持不好)

4 线路声音编码和识别率有影响吗
有的,各种声音编码都是有损压缩,识别率最好的情况是 e1或者IMS (G711编码)。g729,编码后的声音会更不清晰。

5 什么线路音质最好
e1 > ims > sim
E1 就是数字中继
IMS 就是数字中继IP化
SIM 就是手机卡

5 SIM卡音质怎么样
现在SIM还是用 GSM网络,或者3G网络或者CDMA网络
我网上找了一个资料,大家可以自己看看 (总之现在 4G只用数据功能语音还是 2G或者3G声音都不如E1或者IMS)

一 音频采样

GSM作为一个全数字的系统,对于语音数据首先进行数字化的量化。也就是模拟的音频信号转化成数字信号,再进行数字化的传输。声音的数字化就包括采样和量化。

GSM主要是传输人的声音,因此人发出的声音的频率也就影响了系统的采样频率。通常人发出的声音频率在85~1100HZ,其中人耳敏感的频率范围是1~4KHZ。声波的主要频率分布20~3400HZ。


  1. 奈奎特定律证明:只要取样的频率大于原始信号的频率两倍之上,信号可以完全有采样样本来恢复。因此GSM规范采用8KHZ的采样频率,完全满足人耳分辨声音的需要。

二 语音编码

对于麦克风里面的声音,以8KHZ采样率13位精度进行采样,得到的速率就是104kbps的源数据流。这样的码率对于GSM来说比较大,因此要对语音进行压缩编码,以便于传输。

GSM系统通常采用四种编解码器:

1) 半速率 位速率5.6Kbps 压缩比18.4 编解码类型VSELP

最早的GSM网络使用GSM-HR(Half Rate)标准,编码速率低,感觉普遍不佳。

2)EFR 位速率12.2Kbps 压缩比8.5 编解码类型ACELP


  1. EFR声码器是一种代数码激励线性预测(ACELP)编码器

3)全速率 位速率13Kbps 压缩比8 编解码类型RTE-LTP LPC

长期预测(LTP)与规则脉冲激励(RPE),而全速率编解码器就被称为RPE-LTP线性预测编码器。

4)AMR 位速率12.2-4.75 压缩比8.5-21.9 编解码类型ACELP


  1. WCDMA网络主要是采用AMR编码方案。GSM主要还是EFR或者是全速率,属于窄带技术。

三 AMR-NB与AMR-WB AMR-WB+

AMR NB的语音带宽范围:300-3400Hz,8KHz采样 AMR WB的语音带宽范围: 50-7000Hz,16KHz采样 AMR-WB+的采样速率是在16~48 kHz之间。这使得它的语音带宽更宽(24 kHz)

在4G时代,LTE网络采用AMR-WB 和AMR-WB+,来传输高清语音数据。

总结:

当前的语音网络中,GSM普遍采用全速率或者EFR。3G通信普遍使用AMR-NB。AMR-WB或者AMR-WB+目前在国内的运营商还没有采用。编码器对每20ms采用的语音信号封装成块,经过编码处理,最后形成数据帧。发送到网络上。


XML 地图 | Sitemap 地图