wav2vec2_common_voice_accentsオープンソース音声認識モデル - 多くのアクセントの認識をサポートし、非常に実用的

ホーム

Wav2vec2 Common Voice Accents

willcaiによって開発

facebook/wav2vec2-xls-r-300mをベースにcommon_voiceデータセットで微調整した音声認識モデルで、複数のアクセント認識をサポート

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #多アクセント音声認識 #低単語誤り率 #大規模事前学習と微調整

ダウンロード数 24

リリース時間 : 3/10/2022

モデル概要

このモデルは複数のアクセント音声認識に最適化されたwav2vec2モデルで、common_voiceデータセットで微調整されており、異なるアクセントの音声を処理する必要があるシナリオに適しています

モデル特徴

多アクセントサポート

common_voiceデータセットで微調整されており、複数のアクセントの音声を認識・処理できます

効率的なトレーニング

混合精度トレーニングと分散トレーニング技術を使用し、トレーニング効率を向上させました

最適化された性能

30エポックのトレーニング後、単語誤り率(WER)が0.4269に低下しました

モデル能力

音声認識

多アクセント処理

音声からテキストへ

使用事例

音声文字起こし

会議議事録

異なるアクセントを含む会議録音を自動的に文字起こし

単語誤り率0.4269

音声アシスタント

音声アシスタントにより正確なアクセント認識能力を提供

教育

言語学習アプリ

言語学習者が発音を認識し修正するのを支援

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.0135	5.33	400	1.3259	0.8067
0.5608	10.67	800	0.7832	0.5024
0.1441	16.0	1200	0.9309	0.4698
0.0724	21.33	1600	0.9750	0.4461
0.0444	26.67	2000	0.9095	0.4269

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Common Voice Accents

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2_common_voice_accents

📚 ドキュメント

トレーニング手順

トレーニングハイパーパラメータ

トレーニング結果

フレームワークバージョン

📄 ライセンス