工具推荐:语音识别 MD转换

推荐一些个人觉得比较好用的工具

语音识别工具

之前也分享过百度ai提供的api的SDk,虽然免费 但是不太够用。所以找了找有没有类似的替代品。这个项目使用tensorFlow.keras基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。 ASRT star 数很多,看起来也挺好用的。

该工具原理即 调用深度学习训练的 DCNN + CTC 声学模型 将语音模拟信号数据生成拼音序列 再利用 统计语言模型 生成文字。

提供了一个 demo 页面以及对应的 sdk 对应调用其网站后端的识别 api 供开发(api接口说明)。同时也很贴心的准备了录音工具 dockerfile 来生成镜像直接部署执行。

如果想自己改进算法或训练模型,需要数据集 开源的中文语音数据集 和最低要求 1080ti的显卡,我直接开摆🏃‍🏃‍,好在 Release 压缩包内包含训练好的语音模型,直接拿来用吧。

# 安装环境
pip install -r requirements.txt
部分文件功能介绍
ASRT_v1.2.0>:.
│  asrserver.py         # 启用http后台服务器  对应  client.py
│  asrserver_http.py    # 启用flask 框架的 restful 风格 的 http后台服务器 对应 client_http.py
│  asrt_config.json     # 数据集对应位置配置
│  speech_model.py      # 声学模型基础功能模板定义
│  speech_model_zoo.py  # 声学模型模型的实现
│  speech_recorder.py   # 一个配置为可用于ASRT语音识别系统的录音程序
|  dict.txt             # 音标对应文字 字典
|
├─assets
│      default.html
│
├─model_language        # 统计语言模型
│      dic_pinyin.txt
│      language_model1.txt
│      language_model2.txt
│
├─save_models           # 语音识别训练模型 h5可视化 可以用 vitables python 程序浏览层次化数据
│      SpeechModel251bn.model.base.h5
│      SpeechModel251bn.model.h5

pip install pywin
pipwin install pyaudio
python3 speech_recorder.py
# 即可录制声音 默认是output.wav文件

安装 pyaudio 包如果报错可以使用pipwin来安装 (windows缺少对应编译打包环境)参考stackoverflow回答

# 如下会识别当前目录下的 filename.wav
python3 predict_speech_file.py

测试语音:二毛你今天沒课嘛还和李霞聊天

文档说的80%正确率看来不是谦虚😂 转拼音识别率不错 就是转语句仍需训练

基本测试完毕后就可以进行改造和调用了。

MD转换工具

markdown 拿来写手册做记录还是很不错的,排版简洁 语法简单。

某次分享记录时,对方没有MD阅读软件,想用 Typora 导出pdf或html格式的文件分享给其他人,可惜格式不太好看。

github上找了找,找到个轻量简单的 MD文档转html格式的 小工具 MDcat,其html模板也可以修改生成的html具有黑暗模式,支持语法高亮。导出

看了下源码 是直接调用像 github的 https://api.github.com/markdown 接口发送post请求生成的html。生成的 html 渲染风格和 github 一样。

这不直接clone试试好不好用。

执行主文件直接生成在当前目录

python3 mdcat.py md文件名
# 注意关闭网络代理

效果还不错,推荐。