wav2vec2-xls-r-300m-hy-AM-CV8-v1オープンソース音声認識モデル

ホーム

Wav2vec2 Xls R 300m Hy AM CV8 V1

emreによって開発

facebook/wav2vec2-xls-r-300mを基に汎用音声データセットでファインチューニングした音声認識モデル

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ロバストな音声認識 #多言語サポート #低い単語誤り率

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2-xls-r-300mのファインチューン版で、音声認識タスクに特化しており、汎用音声データセットで訓練されています。

モデル特徴

wav2vec2-xls-rアーキテクチャ採用

facebookのwav2vec2-xls-r-300mをベースモデルとして使用し、強力な音声特徴抽出能力を備えています

汎用音声データセットでファインチューニング

汎用音声データセットでファインチューニングを行い、モデルの汎化能力を向上させました

低い単語誤り率

評価データセットで0.9598の単語誤り率(WER)を達成しました

モデル能力

音声認識

音声からテキストへの変換

使用事例

音声文字起こし

会議議事録の自動転記

会議録音を自動的に文字記録に変換

単語誤り率0.9598

音声アシスタント

音声アシスタントのバックエンド認識エンジンとして

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
5.7132	83.31	500	1.9274	1.0523
1.017	166.62	1000	0.9145	0.9598

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Xls R 300m Hy AM CV8 V1

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-xls-r-300m-hy-AM-CV8-v1

🚀 クイックスタート

📄 ライセンス

🔧 技術詳細

学習ハイパーパラメータ

学習結果

フレームワークのバージョン