🚀 俄语语音识别模型
本项目是一个用于自动语音识别的模型,基于openai/whisper-large-v3-turbo
基础模型,在俄语数据集上进行训练,能够准确地将俄语语音转换为文本。
🚀 快速开始
本模型使用transformers
库进行开发,以下是使用示例:
from transformers import pipeline
import gradio as gr
import time
pipe = pipeline(
model="dvislobokov/whisper-large-v3-turbo-russian",
tokenizer="dvislobokov/whisper-large-v3-turbo-russian",
task='automatic-speech-recognition',
device='cpu'
)
def transcribe(audio):
start = time.time()
text = pipe(audio, return_timestamps=True)['text']
print(time.time() - start)
return text
iface = gr.Interface(
fn=transcribe,
inputs=gr.Audio(sources=['microphone', 'upload'], type='filepath'),
outputs='text'
)
iface.launch(share=True)
✨ 主要特性
- 训练资源:本模型使用两块A100 40GB GPU、128GB内存和两颗至强48核2.4GHz CPU进行训练。
- 训练时间:约7小时。
- 训练数据集:使用了来自Mozilla Common Voice 17的11.8万个音频样本。
📦 安装指南
由于文档未提供具体安装命令,此章节跳过。
💻 使用示例
基础用法
from transformers import pipeline
import gradio as gr
import time
pipe = pipeline(
model="dvislobokov/whisper-large-v3-turbo-russian",
tokenizer="dvislobokov/whisper-large-v3-turbo-russian",
task='automatic-speech-recognition',
device='cpu'
)
def transcribe(audio):
start = time.time()
text = pipe(audio, return_timestamps=True)['text']
print(time.time() - start)
return text
iface = gr.Interface(
fn=transcribe,
inputs=gr.Audio(sources=['microphone', 'upload'], type='filepath'),
outputs='text'
)
iface.launch(share=True)
高级用法
文档未提供高级用法示例,此部分内容暂缺。
📚 详细文档
由于文档未提供详细说明,此章节跳过。
🔧 技术细节
由于文档中关于技术细节的描述未超过50字,此章节跳过。
📄 许可证
本项目采用MIT许可证。
📋 模型信息
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
mozilla-foundation/common_voice_17_0 |
基础模型 |
openai/whisper-large-v3-turbo |
评估指标 |
准确率 |
库名称 |
transformers |
标签 |
语音通话 |