🚀 w2v-bert-uk v2.1
w2v-bert-uk v2.1
是一款用于乌克兰语自动语音识别的模型,基于 facebook/w2v-bert-2.0
基础模型构建,在相关数据集上取得了良好的指标表现,可通过特定代码示例进行使用。
🚀 快速开始
安装依赖
代码示例
import torch
import soundfile as sf
from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
model_name = 'Yehor/w2v-bert-uk-v2.1'
device = 'cuda:0'
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
sampling_rate = 16_000
asr_model = AutoModelForCTC.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)
processor = Wav2Vec2BertProcessor.from_pretrained(model_name)
paths = [
'sample1.wav',
]
audio_inputs = []
for path in paths:
audio_input, _ = sf.read(path)
audio_inputs.append(audio_input)
inputs = processor(audio_inputs, sampling_rate=sampling_rate).input_features
features = torch.tensor(inputs).half().to(device)
with torch.inference_mode():
logits = asr_model(features).logits
predicted_ids = torch.argmax(logits, dim=-1)
predictions = processor.batch_decode(predicted_ids)
print('Predictions:')
print(predictions)
✨ 主要特性
- 多渠道社区支持:提供 Discord 社区以及语音识别和语音合成的 Telegram 群组,方便用户交流。
- 可参考其他模型:提供了其他乌克兰语语音识别模型的链接,便于用户拓展使用。
- 可视化演示:可通过 Hugging Face 的特定空间查看模型对音频的处理效果。
📦 安装指南
pip install -U torch soundfile transformers
💻 使用示例
基础用法
import torch
import soundfile as sf
from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
model_name = 'Yehor/w2v-bert-uk-v2.1'
device = 'cuda:0'
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
sampling_rate = 16_000
asr_model = AutoModelForCTC.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)
processor = Wav2Vec2BertProcessor.from_pretrained(model_name)
paths = [
'sample1.wav',
]
audio_inputs = []
for path in paths:
audio_input, _ = sf.read(path)
audio_inputs.append(audio_input)
inputs = processor(audio_inputs, sampling_rate=sampling_rate).input_features
features = torch.tensor(inputs).half().to(device)
with torch.inference_mode():
logits = asr_model(features).logits
predicted_ids = torch.argmax(logits, dim=-1)
predictions = processor.batch_decode(predicted_ids)
print('Predictions:')
print(predictions)
📚 详细文档
社区交流
查看其他乌克兰语模型:点击查看
模型概述
这是 https://huggingface.co/Yehor/w2v-bert-uk 的下一代模型。
指标
- AM (F16):
- 词错误率(WER):0.1734(17.34%)
- 字符错误率(CER):0.0333(3.33%)
- 单词准确率:82.66%
- 字符准确率:96.67%
演示
使用 https://huggingface.co/spaces/Yehor/w2v-bert-uk-v2.1-demo 空间查看模型如何处理你的音频。
模型信息表格
属性 |
详情 |
基础模型 |
facebook/w2v-bert-2.0 |
库名称 |
transformers |
语言 |
乌克兰语(uk) |
许可证 |
apache-2.0 |
任务类别 |
自动语音识别 |
标签 |
音频 |
数据集 |
Yehor/openstt-uk |
评估指标 |
词错误率(wer) |
模型名称 |
w2v-bert-uk-v2.1 |
任务结果数据集 |
common_voice_10_0(乌克兰语测试集) |
任务结果指标(WER) |
17.34 |
任务结果指标(CER) |
3.33 |
📄 许可证
本模型使用 apache-2.0
许可证。
🔗 引用
@misc {smoliakov_2025,
author = { {Smoliakov} },
title = { w2v-bert-uk-v2.1 (Revision 094c59d) },
year = 2025,
url = { https://huggingface.co/Yehor/w2v-bert-uk-v2.1 },
doi = { 10.57967/hf/4554 },
publisher = { Hugging Face }
}