wav2vec2-xls-r-300m-italian-robustオープンソースモデル - イタリア語の自動音声認識を高精度で実現

ホーム

Wav2vec2 Xls R 300m Italian Robust

dbdmgによって開発

facebook/wav2vec2-xls-r-300mをベースに、複数のイタリア語音声データセットで微調整された自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #イタリア語音声認識 #複数データセットの微調整 #低CER性能

ダウンロード数 28

リリース時間 : 3/2/2022

モデル概要

これはイタリア語用の自動音声認識（ASR）モデルで、XLS - Rアーキテクチャに基づき、Common Voiceなどの公開データセットで微調整され、言語モデルを用いた強化認識をサポートします。

モデル特徴

複数データセットでの訓練

Common Voice、LibriSpeech、TEDなどの多言語データセットで微調整し、モデルのロバスト性を向上させます。

言語モデルによる強化

言語モデルを組み合わせた認識をサポートし、WERが約30％相対的に低下します。

異なるシーンへの適応

ロバストな音声イベントデータセットで良好な性能を発揮し、異なる録音環境に適応します。

モデル能力

イタリア語音声からテキストへの変換

言語モデルを用いた強化認識

複数のアクセントの認識

使用事例

音声文字起こし

会議記録

イタリア語の会議録音を文字記録に変換します。

CER 3.52%（言語モデル使用時）

メディア字幕生成

イタリア語のビデオコンテンツに自動的に字幕を生成します。

音声インタラクション

音声アシスタント

イタリア語の音声指令の認識をサポートします。

属性	详情
モデルタイプ	自動音声認識
生成元	Trainer
ランキング	hf-asr-leaderboard
イベント	robust-speech-event
データセット	mozilla-foundation/common_voice_7_0
ベースモデル	facebook/wav2vec2-xls-r-300m

データセット	WER	CER	WER (+LM)	CER (+LM)
Common Voice 7	17.17	4.27	12.07	3.52
Robust Speech Event - Dev Data	24.29	8.1	17.36	7.94
Robust Speech Event - Test Data	33.66	-	-	-

学習損失	エポック	ステップ	検証損失	WER
No log	0.06	400	0.7508	0.7354
2.3127	0.11	800	0.5888	0.5882
0.7256	0.17	1200	0.5121	0.5247
...	...	...	...	...
0.2402	9.98	72400	0.1633	0.1636

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Xls R 300m Italian Robust

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-xls-r-300m-italian-robust

📚 ドキュメント

モデル情報

モデル評価結果

🔧 技術詳細

学習ハイパーパラメータ

学習結果

フレームワークバージョン

📄 ライセンス