wav2vec2-large-xlsr-53-levantine-arabicオープンソースモデル - 無料で高精度なアラビア語音声認識を実現

ホーム

Wav2vec2 Large Xlsr 53 Levantine Arabic

elgeishによって開発

facebook/wav2vec2-large-xlsr-53モデルを基に、アラビア語音声コーパスデータセットでファインチューニングしたアラビア語音声認識モデル

音声認識アラビア語オープンソースライセンス:Apache-2.0 #アラビア語音声認識 #高精度音声書き起こし #言語モデル不要

ダウンロード数 46

リリース時間 : 3/2/2022

モデル概要

これはアラビア語に最適化された自動音声認識(ASR)モデルで、アラビア語音声をテキストに変換できます。

モデル特徴

アラビア語最適化

アラビア語音声に特化してファインチューニングされており、アラビア語音声の認識精度が向上しています

言語モデル不要

追加の言語モデルサポートなしで直接使用可能

16kHzサンプリングレート対応

16kHzサンプリングレートの音声入力をサポート

モデル能力

アラビア語音声認識

音声からテキストへの変換

使用事例

音声書き起こし

アラビア語音声から文字列への変換

アラビア語音声コンテンツをテキスト形式に変換

音声アシスタント

アラビア語音声コマンド認識

アラビア語音声アシスタントや音声制御システム向けの音声認識コンポーネント

🚀 Wav2Vec2-Large-XLSR-53-アラビア語版

このモデルは、facebook/wav2vec2-large-xlsr-53モデルをベースに、アラビア語音声コーパスデータセットでファインチューニングされています。このモデルを使用する際には、音声入力のサンプリングレートが16kHzであることを確認してください。

プロパティ	詳細
モデルタイプ	Wav2Vec2-Large-XLSR-53-アラビア語版
トレーニングデータ	アラビア語音声コーパスデータセット
ライセンス	Apache-2.0

🚀 クイックスタート

このモデルは、言語モデルを必要とせずに直接使用できます。以下に使用例を示します。

基本的な使用法

import librosa  
import torch  
from datasets import load_dataset  
from lang_trans.arabic import buckwalter  
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor  

dataset = load_dataset("arabic_speech_corpus", split="test")  # 使用"test[:n]"指定前n个样本  
processor = Wav2Vec2Processor.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")  
model = Wav2Vec2ForCTC.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")  
model.eval()  

def prepare_example(example):  
    example["speech"], _ = librosa.load(example["file"], sr=16000)  
    example["text"] = example["text"].replace("-", " ").replace("^", "v")  
    example["text"] = " ".join(w for w in example["text"].split() if w != "sil")  
    return example  

dataset = dataset.map(prepare_example, remove_columns=["file", "orthographic", "phonetic"])  

def predict(batch):  
    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")  
    with torch.no_grad():  
        predicted = torch.argmax(model(inputs.input_values).logits, dim=-1)  
    predicted[predicted == -100] = processor.tokenizer.pad_token_id  # 参见微调脚本  
    batch["predicted"] = processor.tokenizer.batch_decode(predicted)  
    return batch  

dataset = dataset.map(predict, batched=True, batch_size=1, remove_columns=["speech"])  

for reference, predicted in zip(dataset["text"], dataset["predicted"]):  
    print("参考文本:", reference)  
    print("预测结果:", predicted)  
    print("参考文本(非转写):", buckwalter.untrans(reference))  
    print("预测结果(非转写):", buckwalter.untrans(predicted))  
    print("--")