wav2vec2-large-xlsr-53-swオープンソースモデル - 16kHz音声をサポートするスワヒリ語自動認識

ホーム

Wav2vec2 Large Xlsr 53 Sw

alokmattaによって開発

XLSR - 53大規模モデルを基に微調整されたスワヒリ語自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

音声認識その他オープンソースライセンス:Apache-2.0 #スワヒリ語音声認識 #低リソース音声処理 #XLSR微調整モデル

ダウンロード数 158

リリース時間 : 3/2/2022

モデル概要

このモデルは、Facebookのwav2vec2 - large - xlsr - 53モデルをスワヒリ語データセットで微調整した自動音声認識(ASR)モデルで、スワヒリ語の音声をテキストに変換するために使用できます。

モデル特徴

複数データセットでの微調整

ALFFA、Gamayun、IWSLTの3つのスワヒリ語データセットで微調整を行い、認識精度を向上させます。

16kHzサンプリングレートのサポート

16kHzサンプリングレートの音声入力に特化して最適化されています。

言語モデル不要

追加の言語モデルのサポートなしで直接使用できます。

モデル能力

スワヒリ語音声認識

音声からテキストへの変換

自動音声文字起こし

使用事例

音声文字起こし

スワヒリ語音声文字起こし

スワヒリ語の音声内容をテキスト形式に変換します。

テストの単語誤り率(WER)は40%です。

音声アシスタント

スワヒリ語音声インタラクション

スワヒリ語の音声アシスタントに音声認識機能を提供します。

🚀 スワヒリ語Wav2Vec2-Large-XLSR-53モデル

本プロジェクトは、スワヒリ語データセットで facebook/wav2vec2-large-xlsr-53 モデルを微調整した音声認識モデルです。スワヒリ語の音声データを効果的に処理し、スワヒリ語の自動音声認識の解決策を提供します。

🚀 クイックスタート

このモデルを使用する際には、入力する音声のサンプリングレートが16kHzであることを確認してください。

✨ 主な機能

複数データセットでの訓練：ALFFA、Gamayun、IWSLT など、複数のスワヒリ語データセットを用いて訓練されており、モデルの汎化能力が保証されています。
高精度な認識：テストセットで40%の文字誤り率（WER）を達成しており、高い認識精度を持っています。

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

processor = Wav2Vec2Processor.from_pretrained("alokmatta/wav2vec2-large-xlsr-53-sw")

model = Wav2Vec2ForCTC.from_pretrained("alokmatta/wav2vec2-large-xlsr-53-sw").to("cuda")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def load_file_to_data(file):
    batch = {}
    speech, _ = torchaudio.load(file)
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    return batch

def predict(data):
    features = processor(data["speech"], sampling_rate=data["sampling_rate"], padding=True, return_tensors="pt")
    input_values = features.input_values.to("cuda")
    attention_mask = features.attention_mask.to("cuda")
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    return processor.batch_decode(pred_ids)

predict(load_file_to_data('./demo.wav'))

📚 ドキュメント

属性	詳細
モデルタイプ	スワヒリ語 XLSR - 53 Wav2Vec2.0 大モデル
訓練データ	ALFFA、Gamayun、IWSLTデータセット
評価指標	文字誤り率（WER）
ラベル	オーディオ、自動音声認識、音声、xlsr - 微調整週