wav2vec2-lar-xlsr-es-colオープンソースモデル - 無料でデプロイして高精度のスペイン語音声認識を実現

ホーム

Wav2vec2 Lar Xlsr Es Col

Santiagot1105によって開発

このモデルは、jonatasgrosman/wav2vec2-large-xlsr-53-spanishをベースに微調整されたバージョンで、スペイン語の音声認識タスクに使用されます。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #スペイン語音声認識 #低い単語誤り率 #XLSR微調整

ダウンロード数 26

リリース時間 : 3/2/2022

モデル概要

これはスペイン語用に最適化された音声認識モデルで、wav2vec2-large-xlsr-53アーキテクチャをベースに微調整され、評価セットで18.84%の単語誤り率を達成しました。

モデル特徴

低い単語誤り率

評価セットで18.84%の単語誤り率を達成し、優れた性能を示しました。

XLSRアーキテクチャに基づく

クロス言語音声表現学習(XLSR)アーキテクチャを採用し、強力な音声特徴抽出能力を持っています。

スペイン語最適化

スペイン語に特化して微調整と最適化が行われています。

モデル能力

スペイン語音声認識

音声をテキストに変換

使用事例

音声文字起こし

会議録の自動文字起こし

スペイン語の会議録音を自動的に文字起こしします

単語誤り率約18.84%

音声アシスタント

スペイン語の音声アシスタントの音声認識モジュールに使用されます

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.8446	8.51	400	2.8174	0.9854
0.5146	17.02	800	0.1022	0.2020
0.0706	25.53	1200	0.0947	0.1884

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Lar Xlsr Es Col

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-lar-xlsr-es-col

🚀 クイックスタート

🔧 技術詳細

トレーニングのハイパーパラメータ

トレーニング結果

フレームワークのバージョン

📄 ライセンス