🚀 XLS-R-1B-ITALIAN-DOC4LM-5GRAM
イタリア語の音声認識用にファインチューニングされたXLS - R 1Bモデルです。
このモデルは、Common Voice 8.0、Multilingual TEDx、Multilingual LibriSpeech、およびVoxpopuliのトレーニングと検証データセットを使用して、イタリア語でfacebook/wav2vec2-xls-r-1bをファインチューニングしたものです。
このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。
🚀 クイックスタート
このモデルは、イタリア語の音声認識に特化してファインチューニングされています。使用する際には、音声入力のサンプリングレートが16kHzであることを確認してください。
✨ 主な機能
- イタリア語の音声認識に特化したファインチューニング済みモデルです。
- 複数のデータセットを使用してトレーニングされており、高い精度を実現しています。
📦 インストール
イタリア語用のCommonVoice8.0データセットのダウンロード
from datasets import load_dataset
dataset = load_dataset("mozilla-foundation/common_voice_8_0", "it", use_auth_token=True)
💻 使用例
基本的な使用法
このコードを使用することで、イタリア語用のCommonVoice8.0データセットをダウンロードできます。
from datasets import load_dataset
dataset = load_dataset("mozilla-foundation/common_voice_8_0", "it", use_auth_token=True)
高度な使用法
mozilla-foundation/common_voice_8_0
のtest
スプリットで評価するには、以下のコマンドを使用します。
python eval.py --model_id radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram --dataset mozilla-foundation/common_voice_8_0 --config it --split test --log_outputs --greedy
mv log_mozilla-foundation_common_voice_8_0_it_test_predictions.txt log_mozilla-foundation_common_voice_8_0_it_test_predictions_greedy.txt
mv log_mozilla-foundation_common_voice_8_0_it_test_targets.txt log_mozilla-foundation_common_voice_8_0_it_test_targets_greedy.txt
mv mozilla-foundation_common_voice_8_0_it_test_eval_results.txt mozilla-foundation_common_voice_8_0_it_test_eval_results_greedy.txt
python eval.py --model_id radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram --dataset mozilla-foundation/common_voice_8_0 --config it --split test --log_outputs
mv log_mozilla-foundation_common_voice_8_0_it_test_predictions.txt log_mozilla-foundation_common_voice_8_0_it_test_predictions_lm.txt
mv log_mozilla-foundation_common_voice_8_0_it_test_targets.txt log_mozilla-foundation_common_voice_8_0_it_test_targets_lm.txt
mv mozilla-foundation_common_voice_8_0_it_test_eval_results.txt mozilla-foundation_common_voice_8_0_it_test_eval_results_lm.txt
📚 ドキュメント
言語モデル情報
言語モデルは、イタリア語のウィキペディア記事のデータセットと、ラジオ新聞やテレビ番組の手動文字起こしを使用して生成されました。
評価結果
評価指標 |
値 |
Test WER |
9.04 |
Test CER |
2.2 |
Test WER (+LM) |
6.24 |
Test CER (+LM) |
1.67 |
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。
引用
このモデルを引用する場合は、以下のBibTeXを使用できます。
@misc{crits2022wav2vec2-xls-r-1b-italian-doc4lm-5gram,
title={XLS-R Wav2Vec2 Italian by radiogroup crits},
author={Teraoni Prioletti Raffaele, Casagranda Paolo and Russo Francesco},
publisher={Hugging Face},
journal={Hugging Face Hub},
howpublished={\url{https://huggingface.co/radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram}},
year={2022}
}