🚀 KBLabのwav2vec 2.0 large VoxRex Swedish (C) with 4-gramモデル
この音響モデルのトレーニングはKBLabによるものです。詳細はVoxRex - Cを参照してください。このリポジトリでは、音響モデルにソーシャルメディアの4-gram言語モデルを追加し、パフォーマンスを向上させています。
📦 モデル情報
属性 |
详情 |
モデルタイプ |
Wav2vec 2.0 large VoxRex Swedish (C) with 4-gram |
トレーニングデータ |
common_voice、NST_Swedish_ASR_Database、P4、The_Swedish_Culturomics_Gigaword_Corpus |
ライセンス |
cc0 - 1.0 |
✨ 主な機能
VoxRex - Cは、SpråkbankenのThe Swedish Culturomics Gigaword Corpusから抽出したサブセットを元に推定された4-gram言語モデルで拡張されています。このサブセットには、2010年から2015年までのソーシャルメディアジャンルの4000万語が含まれています。
💻 使用例
基本的な使用法
import torch
from transformers import pipeline
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
pipe = pipeline(model=model_name).to(device)
output = pipe('path/to/audio.mp3')['text']
高度な使用法
Common Voiceのテスト分割の1%を文字起こしする例です。モデルは16kHzの音声を想定しているため、他のサンプリングレートの音声は16kHzにリサンプリングされます。
from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
from datasets import load_dataset
import torch
import torchaudio.functional as F
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device);
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)
common_voice = load_dataset('common_voice', 'sv-SE', split='test[:1%]')
def speech_file_to_array(sample):
sampling_rate = sample['audio']['sampling_rate']
sample['speech'] = F.resample(torch.tensor(sample['audio']['array']), sampling_rate, 16_000)
return sample
common_voice = common_voice.map(speech_file_to_array)
inputs = processor(common_voice['speech'], sampling_rate=16_000, return_tensors='pt', padding=True).to(device)
with torch.no_grad():
logits = model(**inputs).logits
transcripts = processor.batch_decode(logits.cpu().numpy()).text
🔧 技術詳細
n-gramモデルのテキストデータは、wav2vec 2.0の語彙に含まれない文字を削除し、すべての文字を大文字に変換することで前処理されます。前処理後、各テキストサンプルをテキストファイルの新しい行に保存した後、KenLMモデルが推定されます。詳細はこのチュートリアルを参照してください。
📚 評価結果
このモデルは、Common Voiceの完全なテストセットバージョン6.1で評価されました。VoxRex - Cは、言語モデルなしでは9.03%、言語モデルありでは6.47%のWERを達成しました。
📄 ライセンス
このモデルはcc0 - 1.0ライセンスの下で提供されています。