四大输入法语音识别功能,谁能听懂我说话?

四大输入法语音识别功能,谁能听懂我说话?

​​现代快报讯(记者 蔡梦莹 王益 宋敏慧 见习记者 申阳)手里拎着东西,又要给朋友回短信,这可怎么办?现在,手机输入法都推出了语音识别功能,比如搜狗输入法、百度输入法、讯飞输入法和 iPhone 输入法,它们的正确率如何呢?现代快报记者进行了一番评测,告诉你哪个最好用。

评果评测本次评测选取了 8 段语音,包括普通话、方言、古诗文、绕口令、超快语速和英文,看四大输入法能否全部 " 听懂 " 并 " 写对 "。

1. 普通话

节选自现代快报《夜读》栏目 5 月 14 日的《愿你慢慢长大》,全文 178 个字,由快报当红主播韩飞周游朗读。

其中,文字正确率最高的是搜狗输入法,达到 99.22%。紧随其后的是讯飞输入法,正确率有 98.27%。垫底的是 iPhone 输入法。

断句正确率最高的是搜狗输入法,正确率为 60%。

2. 南京话

材料同上,由南京籍记者用南京话朗读。朗读中,没有替换词语。

文字正确率最高的是讯飞输入法,达到 91%,第二是搜狗。iPhone 仍旧排最后,正确率只有 29.77%,很多字无法识别,最后竟然自动关闭了。

比较有趣的是,讯飞输入法有南京话模式,在该模式下,正确率达 96.07%。

断句上,最高的是讯飞输入法,达到 75%。

3. 山西话

材料同上,由山西晋中籍编辑用当地方言朗读。

文字正确率最高的是百度,达到 28.48%,其他三个也都没有及格。搜狗输入法更是牛头不对马嘴,甚至出现了英文。不过,讯飞输入法有山西话模式,在该模式下,正确率达 66%。

此外,只有讯飞和百度有断句,百度的正确率达到 40%。

4. 粤语

粤语日常对话,总共 55 个字。

同样在粤语模式下,文字正确率最高的是讯飞,达到 100%。第二是搜狗,为 80%,第三是百度,为 66.67%。iPhone 输入法没有粤语模式,一个字都对不上。

测评的粤语是生活中的一些短对话,搜狗断句的正确率能够达到 50%,非常不错。

5. 超快语速

材料使用的是 " 中国好舌头 " 华少的口播录音,语速较快,共有 220 个字。

在这次考验中,四个输入法表现都不好,正确率最高的搜狗也只有 15%,剩下三个几乎交的 " 白卷 "。

6. 绕口令

经典绕口令《刘奶奶买牛奶》,全文 116 个字,由播音主持专业的记者沈冰青朗读。

这一次得分最高的是百度输入法,文字正确率有 97.41%,紧随其后的是讯飞和搜狗,iPhone 输入法只有 56.9%。

7. 古文

使用的是《岳阳楼记》前两段,同样由沈冰青朗读,共 151 个字。

文字正确率排名依次为搜狗、讯飞、百度和 iPhone 输入法,前三者不分上下,都在 94% 以上,只有 iPhone 输入法未达到 60%。

断句中,搜狗输入法的正确率高达 88.89%,语音识别古文本身就有一定难度,断句正确率达到 80% 以上,古文的识别真的非常厉害。

8. 英语

节选自英文小说《小王子》,两段共有 66 个英文单词,也是由沈冰青现场朗读。

表现最好的是搜狗和讯飞。这两个输入法都有英文模式,正确率咬得很近,都靠近 90%。百度输入法无法识别英文,直接罢工。

断句正确率最高的是搜狗输入法,高达 88.89%。英文的断句还是比较难的,评测用的是《小王子》的选段,断句是需要考虑一些语境的,讯飞输入法的断句正确率也有 55.56%。

专家解释语音是如何转化成文字的?

东南大学信息科学与工程学院教授赵力告诉记者,语音识别系统实际上依据了两个模型,以声学模型为主,语言模型为辅。

当我们说话时,每个单字的发音都是由音素组成的。于是,科学家将汉语的发音分成 36 个元音和 22 个辅音,从而组成由 58 个音素组成的识别模型,专业上叫做隐马尔可夫模型。当语音识别系统工作时,会将每个单字分解成一个个音素,然后和这 58 个小单元进行比对,再组成一串由音素组成的字符串,最后根据模型翻译成一句话。

而语言模型实际上起到一个辅助作用。" 比如我说‘大学’, 后面可能跟‘生’,组成一个单词。" 赵力解释说。这一模型缩减了比对的范围,从而提高识别的精准度。

语音识别目前多用于日常对话

目前,各大公司开发的语音识别引擎基本都是基于隐马尔可夫模型进行研发的。只不过,有的在模型制作更加仔细。赵力告诉记者,比如有的在方言、声调等方面考虑得更加全面。

南京某 APP 产品技术经理郝天翔介绍,相比于人眼识别、指纹识别,语音识别难度大、精准度低。目前,语音识别在安静低噪声的环境下,准确率非常高,运用较为广泛," 比如在微信语音转文字这类的日常会话、手机导航等应用中发挥比较大的作用。"

今后,语音识别领域的研究往两个方向发展,一是基于情感的语言处理,现在语音识别已经能做到能听懂,但并不能识别说话人的情感,怎样在语音识别中理解情感,这是以后一大发展方向;二是语音会话系统,就是不仅能识别语音,理解说话人的意思,还能就相关话题聊起来。

(编辑 刘魏)​​​​

相关推荐

口袋妖怪单机版凤王怎么获得
365体育APP官网

口袋妖怪单机版凤王怎么获得

📅 06-30 👁️ 9330
如何访问cpci数据库检索会议文献
bat365app官网入口登录

如何访问cpci数据库检索会议文献

📅 06-28 👁️ 7278
猫里奥联机版
bat365app官网入口登录

猫里奥联机版

📅 07-20 👁️ 1985