wav2vec2-xls-r-1b-italian-doc4lm-5gramオープンソースモデル - 言語モデル付きのイタリア語音声認識をサポート

ホーム

Wav2vec2 Xls R 1b Italian Doc4lm 5gram

radiogroup-critsによって開発

XLS-R 10億パラメータモデルをファインチューニングしたイタリア語音声認識モデルで、言語モデル対応の認識をサポート

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #イタリア語音声認識 #低文字誤り率 #放送ニュース文字起こし

ダウンロード数 19

リリース時間 : 3/29/2022

モデル概要

これはイタリア語音声認識に最適化されたXLS-Rモデルで、複数のイタリア語データセットを使用してファインチューニングされており、言語モデル対応の高精度認識をサポートします

モデル特徴

大規模事前学習モデル

10億パラメータのXLS-Rモデルをベースにファインチューニングされており、強力な音声特徴抽出能力を有する

複数データセット学習

Common Voice 8.0、Multilingual TEDx、Multilingual LibriSpeech、Voxpopuliなどの複数のイタリア語データセットを使用して学習

言語モデルサポート

5-gram言語モデル対応バージョンを提供し、認識精度を大幅に向上

低誤り率

Common Voice 8.0テストセットで6.24%の単語誤り率(WER)と1.67%の文字誤り率(CER)を達成

モデル能力

イタリア語音声認識

高精度音声テキスト変換

16kHzサンプリングレート音声処理対応

使用事例

音声文字起こし

放送コンテンツ文字起こし

イタリア語放送番組を自動的にテキストに変換

高精度な文字起こし結果で、コンテンツアーカイブや分析に適している

音声アシスタント

イタリア語音声アシスタントに音声認識機能を提供

低遅延で高精度な音声コマンド認識

教育

言語学習アプリ

学習者のイタリア語発音とリスニング練習を支援

正確な発音評価とテキストフィードバック

🚀 XLS-R-1B-ITALIAN-DOC4LM-5GRAM

イタリア語の音声認識用にファインチューニングされたXLS - R 1Bモデルです。

このモデルは、Common Voice 8.0、Multilingual TEDx、Multilingual LibriSpeech、およびVoxpopuliのトレーニングと検証データセットを使用して、イタリア語でfacebook/wav2vec2-xls-r-1bをファインチューニングしたものです。

このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、イタリア語の音声認識に特化してファインチューニングされています。使用する際には、音声入力のサンプリングレートが16kHzであることを確認してください。

✨ 主な機能

イタリア語の音声認識に特化したファインチューニング済みモデルです。
複数のデータセットを使用してトレーニングされており、高い精度を実現しています。

📦 インストール

イタリア語用のCommonVoice8.0データセットのダウンロード

from datasets import load_dataset

dataset = load_dataset("mozilla-foundation/common_voice_8_0", "it", use_auth_token=True)

💻 使用例

基本的な使用法

このコードを使用することで、イタリア語用のCommonVoice8.0データセットをダウンロードできます。

from datasets import load_dataset

dataset = load_dataset("mozilla-foundation/common_voice_8_0", "it", use_auth_token=True)

高度な使用法

mozilla-foundation/common_voice_8_0のtestスプリットで評価するには、以下のコマンドを使用します。

python eval.py --model_id radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram --dataset mozilla-foundation/common_voice_8_0 --config it --split test --log_outputs --greedy

mv log_mozilla-foundation_common_voice_8_0_it_test_predictions.txt log_mozilla-foundation_common_voice_8_0_it_test_predictions_greedy.txt

mv log_mozilla-foundation_common_voice_8_0_it_test_targets.txt log_mozilla-foundation_common_voice_8_0_it_test_targets_greedy.txt

mv mozilla-foundation_common_voice_8_0_it_test_eval_results.txt mozilla-foundation_common_voice_8_0_it_test_eval_results_greedy.txt

python eval.py --model_id radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram --dataset mozilla-foundation/common_voice_8_0 --config it --split test --log_outputs

mv log_mozilla-foundation_common_voice_8_0_it_test_predictions.txt log_mozilla-foundation_common_voice_8_0_it_test_predictions_lm.txt

mv log_mozilla-foundation_common_voice_8_0_it_test_targets.txt log_mozilla-foundation_common_voice_8_0_it_test_targets_lm.txt

mv mozilla-foundation_common_voice_8_0_it_test_eval_results.txt mozilla-foundation_common_voice_8_0_it_test_eval_results_lm.txt

📚 ドキュメント

言語モデル情報

言語モデルは、イタリア語のウィキペディア記事のデータセットと、ラジオ新聞やテレビ番組の手動文字起こしを使用して生成されました。

評価結果

評価指標	値
Test WER	9.04
Test CER	2.2
Test WER (+LM)	6.24
Test CER (+LM)	1.67

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

引用

このモデルを引用する場合は、以下のBibTeXを使用できます。

@misc{crits2022wav2vec2-xls-r-1b-italian-doc4lm-5gram,
  title={XLS-R Wav2Vec2 Italian by radiogroup crits},
  author={Teraoni Prioletti Raffaele, Casagranda Paolo and Russo Francesco},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram}},
  year={2022}
}