w2v-bert-uk-v2.1開源烏克蘭語語音識別模型

首頁

W2v Bert Uk V2.1

由Yehor開發

基於facebook/w2v-bert-2.0的烏克蘭語語音識別模型，在Yehor/openstt-uk數據集上微調

語音識別

Transformers

其他開源協議:Apache-2.0 #烏克蘭語語音識別 #低詞錯誤率(WER)#高字符準確率

下載量 492

發布時間 : 8/7/2024

模型概述

烏克蘭語自動語音識別(ASR)模型，能夠將烏克蘭語語音轉換為文本

模型特點

高準確率

在Common Voice烏克蘭語測試集上達到17.34%的詞錯誤率和3.33%的字符錯誤率

優化推理

支持FP16精度推理，可在GPU上高效運行

社區支持

擁有活躍的烏克蘭語語音技術社區支持

模型能力

烏克蘭語語音識別

音頻轉文本

支持16kHz採樣率音頻處理

使用案例

語音轉錄

會議記錄轉錄

將烏克蘭語會議錄音轉換為文字記錄

準確率82.66%

媒體字幕生成

為烏克蘭語視頻內容自動生成字幕

字符準確率96.67%

🚀 w2v-bert-uk `v2.1`

w2v-bert-uk v2.1 是一款用於烏克蘭語自動語音識別的模型，基於 facebook/w2v-bert-2.0 基礎模型構建，在相關數據集上取得了良好的指標表現，可通過特定代碼示例進行使用。

🚀 快速開始

安裝依賴

# pip install -U torch soundfile transformers

代碼示例

import torch
import soundfile as sf
from transformers import AutoModelForCTC, Wav2Vec2BertProcessor

# Config
model_name = 'Yehor/w2v-bert-uk-v2.1'
device = 'cuda:0' # or cpu
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
sampling_rate = 16_000

# Load the model
asr_model = AutoModelForCTC.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)
processor = Wav2Vec2BertProcessor.from_pretrained(model_name)

paths = [
  'sample1.wav',
]

# Extract audio
audio_inputs = []
for path in paths:
  audio_input, _ = sf.read(path)
  audio_inputs.append(audio_input)

# Transcribe the audio
inputs = processor(audio_inputs, sampling_rate=sampling_rate).input_features
features = torch.tensor(inputs).half().to(device)

with torch.inference_mode():
  logits = asr_model(features).logits

predicted_ids = torch.argmax(logits, dim=-1)
predictions = processor.batch_decode(predicted_ids)

# Log results
print('Predictions:')
print(predictions)

✨ 主要特性

多渠道社區支持：提供 Discord 社區以及語音識別和語音合成的 Telegram 群組，方便用戶交流。
可參考其他模型：提供了其他烏克蘭語語音識別模型的鏈接，便於用戶拓展使用。
可視化演示：可通過 Hugging Face 的特定空間查看模型對音頻的處理效果。

📦 安裝指南

pip install -U torch soundfile transformers

💻 使用示例

基礎用法

# pip install -U torch soundfile transformers

import torch
import soundfile as sf
from transformers import AutoModelForCTC, Wav2Vec2BertProcessor

# Config
model_name = 'Yehor/w2v-bert-uk-v2.1'
device = 'cuda:0' # or cpu
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
sampling_rate = 16_000

# Load the model
asr_model = AutoModelForCTC.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)
processor = Wav2Vec2BertProcessor.from_pretrained(model_name)

paths = [
  'sample1.wav',
]

# Extract audio
audio_inputs = []
for path in paths:
  audio_input, _ = sf.read(path)
  audio_inputs.append(audio_input)

# Transcribe the audio
inputs = processor(audio_inputs, sampling_rate=sampling_rate).input_features
features = torch.tensor(inputs).half().to(device)

with torch.inference_mode():
  logits = asr_model(features).logits

predicted_ids = torch.argmax(logits, dim=-1)
predictions = processor.batch_decode(predicted_ids)

# Log results
print('Predictions:')
print(predictions)

📚 詳細文檔

社區交流

Discord：點擊加入
語音識別 Telegram 群組：點擊加入
語音合成 Telegram 群組：點擊加入

查看其他烏克蘭語模型：點擊查看

模型概述

這是 https://huggingface.co/Yehor/w2v-bert-uk 的下一代模型。

指標

AM (F16)：
- 詞錯誤率（WER）：0.1734（17.34%）
- 字符錯誤率（CER）：0.0333（3.33%）
- 單詞準確率：82.66%
- 字符準確率：96.67%

演示

使用 https://huggingface.co/spaces/Yehor/w2v-bert-uk-v2.1-demo 空間查看模型如何處理你的音頻。

模型信息表格

屬性	詳情
基礎模型	facebook/w2v-bert-2.0
庫名稱	transformers
語言	烏克蘭語（uk）
許可證	apache-2.0
任務類別	自動語音識別
標籤	音頻
數據集	Yehor/openstt-uk
評估指標	詞錯誤率（wer）
模型名稱	w2v-bert-uk-v2.1
任務結果數據集	common_voice_10_0（烏克蘭語測試集）
任務結果指標（WER）	17.34
任務結果指標（CER）	3.33

📄 許可證

本模型使用 apache-2.0 許可證。

🔗 引用

@misc {smoliakov_2025,
	author       = { {Smoliakov} },
	title        = { w2v-bert-uk-v2.1 (Revision 094c59d) },
	year         = 2025,
	url          = { https://huggingface.co/Yehor/w2v-bert-uk-v2.1 },
	doi          = { 10.57967/hf/4554 },
	publisher    = { Hugging Face }
}