推荐一些个人觉得比较好用的工具
语音识别工具
之前也分享过百度ai提供的api的SDk,虽然免费 但是不太够用。所以找了找有没有类似的替代品。这个项目使用tensorFlow.keras基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。 ASRT star 数很多,看起来也挺好用的。
该工具原理即 调用深度学习训练的 DCNN + CTC 声学模型 将语音模拟信号数据生成拼音序列 再利用 统计语言模型 生成文字。
提供了一个 demo 页面以及对应的 sdk 对应调用其网站后端的识别 api 供开发(api接口说明)。同时也很贴心的准备了录音工具 dockerfile 来生成镜像直接部署执行。
如果想自己改进算法或训练模型,需要数据集 开源的中文语音数据集 和最低要求 1080ti的显卡,我直接开摆🏃🏃,好在 Release 压缩包内包含训练好的语音模型,直接拿来用吧。
# 安装环境
pip install -r requirements.txt
部分文件功能介绍
ASRT_v1.2.0>:.
│ asrserver.py # 启用http后台服务器 对应 client.py
│ asrserver_http.py # 启用flask 框架的 restful 风格 的 http后台服务器 对应 client_http.py
│ asrt_config.json # 数据集对应位置配置
│ speech_model.py # 声学模型基础功能模板定义
│ speech_model_zoo.py # 声学模型模型的实现
│ speech_recorder.py # 一个配置为可用于ASRT语音识别系统的录音程序
| dict.txt # 音标对应文字 字典
|
├─assets
│ default.html
│
├─model_language # 统计语言模型
│ dic_pinyin.txt
│ language_model1.txt
│ language_model2.txt
│
├─save_models # 语音识别训练模型 h5可视化 可以用 vitables python 程序浏览层次化数据
│ SpeechModel251bn.model.base.h5
│ SpeechModel251bn.model.h5
pip install pywin
pipwin install pyaudio
python3 speech_recorder.py
# 即可录制声音 默认是output.wav文件
安装 pyaudio 包如果报错可以使用pipwin来安装 (windows缺少对应编译打包环境)参考stackoverflow回答)
# 如下会识别当前目录下的 filename.wav
python3 predict_speech_file.py
测试语音:二毛你今天沒课嘛还和李霞聊天
文档说的80%正确率看来不是谦虚😂 转拼音识别率不错 就是转语句仍需训练
基本测试完毕后就可以进行改造和调用了。
MD转换工具
markdown 拿来写手册做记录还是很不错的,排版简洁 语法简单。
某次分享记录时,对方没有MD阅读软件,想用 Typora 导出pdf或html格式的文件分享给其他人,可惜格式不太好看。
github上找了找,找到个轻量简单的 MD文档转html格式的 小工具 MDcat,其html模板也可以修改生成的html具有黑暗模式,支持语法高亮。导出
看了下源码 是直接调用像 github的 https://api.github.com/markdown
接口发送post请求生成的html。生成的 html 渲染风格和 github 一样。
这不直接clone试试好不好用。
执行主文件直接生成在当前目录
python3 mdcat.py md文件名
# 注意关闭网络代理
效果还不错,推荐。