AI时代到来,分享一款好用的本地语音识别输入工具    

耳麦 05-04 19:29:04 83 0

大家好,我是波导终结者。

这几年AI的发展非常的迅速,也涌现出了不少好用的工具。我之前跟大家分享过,比如说人声分离呀,语音和文字的互转呀,这些工具都很实用。最近有不少厂家都在布局AI相关方面的应用,而在开源界,其实也有很多很不错的项目或者大神。今天跟大家分享的就是一款非常好用的语音识别输入工具,完全本地运行,无需联网。

这个项目在github的地址是,作者HaujetZhao,项目名CapsWriter-Offline(之后统一用CapsWriter称之),由于一些众所周知,却又不方便说的原因,这里可能给不了大家直接的地址,这种东西确实需要一点点的门槛。项目开源,使用的是阿里巴巴开源的 Paraformer 模型和标点符号模型。作者已经把Windows的可执行文件和模型都做好打包了,理论上只需要下载解压运行就可以。个人觉得有点搞笑的是中文语音输入的模型只有230MB大小,而标点符号模型却有1GB大小,但怎么样也算非常小了。

这个项目的运行完全依赖于本地模型,但是杠精肯定会说,你这不是有服务端跟客户端吗?是的,相关的技术问题我也懒得科普,其实大部分工具都是这么个模式,只是把服务端跟客户端一起打包隐藏起来了而已。这个项目所使用的服务端,因为技术原因只支持win10,作者又很贴心的给客户端提供了32位win7的版本,而已。如果你是win10本机运行,虽然需要服务端跟客户端,但是我实测完全就是127.0.0.1的本机访问而已,不需要互联网。

解压完之后,目录下的config.py是主要的配置文件,使用记事本即可打开编辑,这里我也把几个比较重要的选项用红框标注了出来。首先是识别模式,支持长按和按键切换开关两种模式,我个人还是习惯使用长按。而默认的快捷键是大小写键,这也正是此项目叫做CapsWriter的原因,我这里是把它改成了键盘上的Scroll Lock键,知道这个键的都跟我一样,是老家伙了吧。然后软件还支持把输入进行一个录音,如果没有需要的话,你可以关闭这个功能,以免占用硬盘空间。标点符号、阿拉伯数字的转换、中英文之间是否有空格等,这些根据自己的实际使用习惯来调整,其他的默认就可以。

CapsWriter比较好用的是支持中文热词功能,识别率还挺高的。完全依赖本地离线模型的工具是有这个问题,就是你不太好去扩充词库,除非重新训练模型。而热词功能就可以基本解决这个问题。

同时它还有英文热词的功能,但个人感觉识别准确度跟中文还是有一点差距。也不知道是我的英文不准,还是模型本来就侧重于中文。

还有一些不属于识别错误,但是是常用词或者专有名词替换的,也可以在hot-rule.txt里进行设置。但不管怎么样,目前肯定是达不到百分百的正确率的,还是需要自己进行一些后期的校对。

在服务端跟客户端窗口,也都可以看到每一句的识别结果。这篇文章也有一部分,我是使用语音识别来进行输入的。当然,每一句每一个词我都有进行校对,而且它也并不是AI生成文章,只是换成了语音输入而已。以目前的使用体验来看,我觉得比不少的联网或者收费工具都要来的好用,更别说手机上了。手机不管是各家的输入法,还是什么王者荣耀的语音识别,正确率基本都是零,每一句话都有好几个的错误,真的是不堪大用。

这个项目的配置要求也非常低,仅对服务端要求64位WIN10,占用4G左右的系统内存。客户端可以使用32位的win7,局域网本地IP连接。另外,它还有什么关键字、日志、视频文件转录等功能,但我觉得这并不是它的核心需求和强项。

感谢大家的观看点赞和关注,有什么疑问和需求,可以在评论区里交流,我们下期再见。


AI时代到来,分享一款好用的本地语音识别输入工具   
网友评论