sensevoice的cli工具，支持英文、中文、粤以、日韩的语音识别

shenjinti 发表于 2025-11-04 17:09

Tags：asr,sensevoice,onnxruntime,ort

sensevoice是阿里开源的中日韩+粤语的语音识别模型，主流都是用python实现

我用onnxruntime写了一个rust版本：

自动从huggingface.co 下载模型（也支持hf-mirrors.com)
支持mp3/ogg/wav 多声道转录
性能比python版本略好
采用silero-vad 做语音分割，比较精确
全静态链接，直接打包到自己的程序里去调用

使用很简单：

sensevoice-cli path/to/audio.wav

输出：

[
  {
    "channel": 0,
    "duration_sec": 5.592,
    "rtf": 0.019642152,
    "segments": [
      {
        "start_sec": 0.77,
        "end_sec": 5.31,
        "text": "开放时间早上九点至下午五点",
        "tags": []
      }
    ]
  }
]

Ext Link: https://github.com/restsend/sensevoice-cli

评论区

写评论

还没有评论

1 共 0 条评论, 1 页