工具推荐：语音识别 MD转换

2022-04-23 工具 python 评论字数统计: 1003字

推荐一些个人觉得比较好用的工具

语音识别工具

之前也分享过百度ai提供的api的SDk，虽然免费但是不太够用。所以找了找有没有类似的替代品。这个项目使用tensorFlow.keras基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。 ASRT star 数很多，看起来也挺好用的。

该工具原理即调用深度学习训练的 DCNN + CTC 声学模型 将语音模拟信号数据生成拼音序列再利用 统计语言模型 生成文字。

提供了一个 demo 页面以及对应的 sdk 对应调用其网站后端的识别 api 供开发(api接口说明)。同时也很贴心的准备了录音工具 dockerfile 来生成镜像直接部署执行。

如果想自己改进算法或训练模型，需要数据集开源的中文语音数据集和最低要求 1080ti的显卡，我直接开摆🏃‍🏃‍，好在 Release 压缩包内包含训练好的语音模型，直接拿来用吧。

# 安装环境
pip install -r requirements.txt
部分文件功能介绍
ASRT_v1.2.0>:.
│  asrserver.py         # 启用http后台服务器  对应  client.py
│  asrserver_http.py    # 启用flask 框架的 restful 风格 的 http后台服务器 对应 client_http.py
│  asrt_config.json     # 数据集对应位置配置
│  speech_model.py      # 声学模型基础功能模板定义
│  speech_model_zoo.py  # 声学模型模型的实现
│  speech_recorder.py   # 一个配置为可用于ASRT语音识别系统的录音程序
|  dict.txt             # 音标对应文字 字典
|
├─assets
│      default.html
│
├─model_language        # 统计语言模型
│      dic_pinyin.txt
│      language_model1.txt
│      language_model2.txt
│
├─save_models           # 语音识别训练模型 h5可视化 可以用 vitables python 程序浏览层次化数据
│      SpeechModel251bn.model.base.h5
│      SpeechModel251bn.model.h5

pip install pywin
pipwin install pyaudio
python3 speech_recorder.py
# 即可录制声音 默认是output.wav文件

安装 pyaudio 包如果报错可以使用pipwin来安装（windows缺少对应编译打包环境）参考stackoverflow回答）

# 如下会识别当前目录下的 filename.wav
python3 predict_speech_file.py

测试语音：二毛你今天沒课嘛还和李霞聊天

文档说的80%正确率看来不是谦虚😂 转拼音识别率不错就是转语句仍需训练

基本测试完毕后就可以进行改造和调用了。

MD转换工具

markdown 拿来写手册做记录还是很不错的，排版简洁语法简单。

某次分享记录时，对方没有MD阅读软件，想用 Typora 导出pdf或html格式的文件分享给其他人，可惜格式不太好看。

github上找了找，找到个轻量简单的 MD文档转html格式的小工具 MDcat，其html模板也可以修改生成的html具有黑暗模式，支持语法高亮。导出

看了下源码是直接调用像 github的 https://api.github.com/markdown 接口发送post请求生成的html。生成的 html 渲染风格和 github 一样。

这不直接clone试试好不好用。

执行主文件直接生成在当前目录

python3 mdcat.py md文件名
# 注意关闭网络代理

效果还不错，推荐。

LK233

三无青年

工具推荐：语音识别 MD转换

语音识别工具

MD转换工具