🚀 w2v-bert-uk v2.1
w2v-bert-uk v2.1
是一款用於烏克蘭語自動語音識別的模型,基於 facebook/w2v-bert-2.0
基礎模型構建,在相關數據集上取得了良好的指標表現,可通過特定代碼示例進行使用。
🚀 快速開始
安裝依賴
代碼示例
import torch
import soundfile as sf
from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
model_name = 'Yehor/w2v-bert-uk-v2.1'
device = 'cuda:0'
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
sampling_rate = 16_000
asr_model = AutoModelForCTC.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)
processor = Wav2Vec2BertProcessor.from_pretrained(model_name)
paths = [
'sample1.wav',
]
audio_inputs = []
for path in paths:
audio_input, _ = sf.read(path)
audio_inputs.append(audio_input)
inputs = processor(audio_inputs, sampling_rate=sampling_rate).input_features
features = torch.tensor(inputs).half().to(device)
with torch.inference_mode():
logits = asr_model(features).logits
predicted_ids = torch.argmax(logits, dim=-1)
predictions = processor.batch_decode(predicted_ids)
print('Predictions:')
print(predictions)
✨ 主要特性
- 多渠道社區支持:提供 Discord 社區以及語音識別和語音合成的 Telegram 群組,方便用戶交流。
- 可參考其他模型:提供了其他烏克蘭語語音識別模型的鏈接,便於用戶拓展使用。
- 可視化演示:可通過 Hugging Face 的特定空間查看模型對音頻的處理效果。
📦 安裝指南
pip install -U torch soundfile transformers
💻 使用示例
基礎用法
import torch
import soundfile as sf
from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
model_name = 'Yehor/w2v-bert-uk-v2.1'
device = 'cuda:0'
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
sampling_rate = 16_000
asr_model = AutoModelForCTC.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)
processor = Wav2Vec2BertProcessor.from_pretrained(model_name)
paths = [
'sample1.wav',
]
audio_inputs = []
for path in paths:
audio_input, _ = sf.read(path)
audio_inputs.append(audio_input)
inputs = processor(audio_inputs, sampling_rate=sampling_rate).input_features
features = torch.tensor(inputs).half().to(device)
with torch.inference_mode():
logits = asr_model(features).logits
predicted_ids = torch.argmax(logits, dim=-1)
predictions = processor.batch_decode(predicted_ids)
print('Predictions:')
print(predictions)
📚 詳細文檔
社區交流
查看其他烏克蘭語模型:點擊查看
模型概述
這是 https://huggingface.co/Yehor/w2v-bert-uk 的下一代模型。
指標
- AM (F16):
- 詞錯誤率(WER):0.1734(17.34%)
- 字符錯誤率(CER):0.0333(3.33%)
- 單詞準確率:82.66%
- 字符準確率:96.67%
演示
使用 https://huggingface.co/spaces/Yehor/w2v-bert-uk-v2.1-demo 空間查看模型如何處理你的音頻。
模型信息表格
屬性 |
詳情 |
基礎模型 |
facebook/w2v-bert-2.0 |
庫名稱 |
transformers |
語言 |
烏克蘭語(uk) |
許可證 |
apache-2.0 |
任務類別 |
自動語音識別 |
標籤 |
音頻 |
數據集 |
Yehor/openstt-uk |
評估指標 |
詞錯誤率(wer) |
模型名稱 |
w2v-bert-uk-v2.1 |
任務結果數據集 |
common_voice_10_0(烏克蘭語測試集) |
任務結果指標(WER) |
17.34 |
任務結果指標(CER) |
3.33 |
📄 許可證
本模型使用 apache-2.0
許可證。
🔗 引用
@misc {smoliakov_2025,
author = { {Smoliakov} },
title = { w2v-bert-uk-v2.1 (Revision 094c59d) },
year = 2025,
url = { https://huggingface.co/Yehor/w2v-bert-uk-v2.1 },
doi = { 10.57967/hf/4554 },
publisher = { Hugging Face }
}