🚀 KBLab的wav2vec 2.0大模型VoxRex瑞典語(C)搭配4-gram模型
本聲學模型由KBLab訓練而成。更多詳情請見 VoxRex-C。本倉庫在此聲學模型基礎上,引入社交媒體4-gram語言模型,以提升性能。
🚀 快速開始
本模型可用於瑞典語的自動語音識別任務,通過結合聲學模型和4-gram語言模型,能有效提升識別準確率。
✨ 主要特性
- 基於KBLab訓練的聲學模型VoxRex-C。
- 引入社交媒體4-gram語言模型,提升識別性能。
- 可用於瑞典語的自動語音識別任務。
📦 安裝指南
文檔未提及具體安裝步驟,可參考transformers
庫的安裝方式:
pip install transformers
💻 使用示例
基礎用法
以下是使用pipeline
的簡單示例:
import torch
from transformers import pipeline
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
pipe = pipeline(model=model_name).to(device)
output = pipe('path/to/audio.mp3')['text']
高級用法
以下是對Common Voice測試集的1%進行轉錄的示例。模型期望輸入的音頻採樣率為16kHz,因此會將其他採樣率的音頻重採樣至16kHz。
from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
from datasets import load_dataset
import torch
import torchaudio.functional as F
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device);
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)
common_voice = load_dataset('common_voice', 'sv-SE', split='test[:1%]')
def speech_file_to_array(sample):
sampling_rate = sample['audio']['sampling_rate']
sample['speech'] = F.resample(torch.tensor(sample['audio']['array']), sampling_rate, 16_000)
return sample
common_voice = common_voice.map(speech_file_to_array)
inputs = processor(common_voice['speech'], sampling_rate=16_000, return_tensors='pt', padding=True).to(device)
with torch.no_grad():
logits = model(**inputs).logits
transcripts = processor.batch_decode(logits.cpu().numpy()).text
📚 詳細文檔
模型描述
VoxRex-C模型通過從瑞典文化計量學千兆詞料庫(Språkbanken提供)中提取的子集來估計4-gram語言模型。該子集包含2010年至2015年間社交媒體領域的4000萬個單詞。
訓練過程
n-gram模型的文本數據會進行預處理,移除不在wav2vec 2.0詞彙表中的字符,並將所有字符轉換為大寫。預處理完成後,將每個文本樣本存儲在文本文件的新行中,然後使用KenLM模型進行估計。更多詳情請見 此教程。
評估結果
該模型在Common Voice測試集完整版6.1上進行了評估。VoxRex-C在未使用語言模型時的字錯率(WER)為9.03%,使用語言模型後降至6.47%。
📄 許可證
本模型採用CC0-1.0許可證。
信息表格
屬性 |
詳情 |
模型類型 |
wav2vec 2.0大模型VoxRex瑞典語(C)搭配4-gram模型 |
訓練數據 |
Common Voice、NST瑞典語ASR數據庫、P4、瑞典文化計量學千兆詞料庫 |
評估指標 |
字錯率(WER) |
評估數據集 |
Common Voice測試集6.1版本 |
無語言模型WER |
9.03% |
有語言模型WER |
6.47% |