wav2vec2-large-voxrex-swedish-4gramオープンソースモデル - 無料でスウェーデン語の自動音声認識を実現

ホーム

Wav2vec2 Large Voxrex Swedish 4gram

viktor-enzellによって開発

これはスウェーデン語の自動音声認識(ASR)用モデルで、VoxRex-C音響モデルとソーシャルメディアデータに基づく4-gram言語モデルを統合しています。

音声認識

Transformers

その他#スウェーデン語音声認識 #低い単語誤り率 #ソーシャルメディアテキスト最適化

ダウンロード数 5,891

リリース時間 : 5/26/2022

モデル概要

このモデルは、スウェーデン文化グループの10億語コーパスに基づく4-gram言語モデルを追加することでVoxRex-C音響モデルの性能を強化し、特にスウェーデン語音声認識タスクに特化しています。

モデル特徴

強化された言語モデル

4000万のソーシャルメディア語彙に基づく4-gram言語モデルを統合し、認識精度を大幅に向上

高性能

公共音声6.1テストセットで6.47%の単語誤り率を達成

事前学習済み音響モデル

VoxRex-C事前学習モデルベースで、優れた音響特徴抽出能力を有する

モデル能力

スウェーデン語音声認識

音声文字起こし

16kHz音声処理

使用事例

音声文字起こし

ソーシャルメディア音声文字起こし

ソーシャルメディアプラットフォーム上のスウェーデン語音声コンテンツをテキストに変換

非公式な口語表現の処理に適している

音声アシスタント

スウェーデン語音声アシスタントアプリケーションの音声認識コンポーネントとして使用

高精度な音声コマンド認識

🚀 KBLabのwav2vec 2.0 large VoxRex Swedish (C) with 4-gramモデル

この音響モデルのトレーニングはKBLabによるものです。詳細はVoxRex - Cを参照してください。このリポジトリでは、音響モデルにソーシャルメディアの4-gram言語モデルを追加し、パフォーマンスを向上させています。

📦 モデル情報

属性	详情
モデルタイプ	Wav2vec 2.0 large VoxRex Swedish (C) with 4-gram
トレーニングデータ	common_voice、NST_Swedish_ASR_Database、P4、The_Swedish_Culturomics_Gigaword_Corpus
ライセンス	cc0 - 1.0

✨ 主な機能

VoxRex - Cは、SpråkbankenのThe Swedish Culturomics Gigaword Corpusから抽出したサブセットを元に推定された4-gram言語モデルで拡張されています。このサブセットには、2010年から2015年までのソーシャルメディアジャンルの4000万語が含まれています。

💻 使用例

基本的な使用法

import torch
from transformers import pipeline

# モデルをロードします。利用可能であればGPUを使用します
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
pipe = pipeline(model=model_name).to(device)

# 音声ファイルで推論を実行します
output = pipe('path/to/audio.mp3')['text']

高度な使用法

Common Voiceのテスト分割の1%を文字起こしする例です。モデルは16kHzの音声を想定しているため、他のサンプリングレートの音声は16kHzにリサンプリングされます。

from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
from datasets import load_dataset
import torch
import torchaudio.functional as F

# モデルとプロセッサをインポートします。利用可能であればGPUを使用します
model_name = 'viktor-enzell/wav2vec2-large-voxrex-swedish-4gram'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device);
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)

# 音声データをインポートして処理します
common_voice = load_dataset('common_voice', 'sv-SE', split='test[:1%]')

def speech_file_to_array(sample):
    # 音声ファイルを配列に変換し、16 kHzにダウンサンプリングします
    sampling_rate = sample['audio']['sampling_rate']
    sample['speech'] = F.resample(torch.tensor(sample['audio']['array']), sampling_rate, 16_000)
    return sample

common_voice = common_voice.map(speech_file_to_array)

# 推論を実行します
inputs = processor(common_voice['speech'], sampling_rate=16_000, return_tensors='pt', padding=True).to(device)

with torch.no_grad():
    logits = model(**inputs).logits

transcripts = processor.batch_decode(logits.cpu().numpy()).text