wav2vec2-large-xls-r-300m-kyrgyzオープンソースモデル - キルギス語の音声内容を正確に識別

ホーム

Wav2vec2 Large Xls R 300m Kyrgyz

infinitejoyによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをキルギス語音声データセットでファインチューニングした自動音声認識(ASR)モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #キルギス語音声認識 #低リソース言語ASR #XLS - Rアーキテクチャ

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはキルギス語に特化して最適化されており、キルギス語の音声をテキストに変換することができ、音声書き起こしなどのアプリケーションシーンに適しています。

モデル特徴

多言語対応

XLS - Rアーキテクチャに基づいており、複数の言語を処理する能力を持っています。

効率的な音声認識

キルギス語音声認識タスクで良好な性能を発揮します。

事前学習+ファインチューニングアーキテクチャ

大規模な事前学習モデルを利用し、特定の言語データでファインチューニングすることで、より良い性能を得ることができます。

モデル能力

キルギス語音声認識

音声をテキストに変換

音声書き起こし

使用事例

音声書き起こし

キルギス語音声を文字に変換

キルギス語の音声内容を編集可能なテキストに変換します。

単語誤り率(WER)40.9%、文字誤り率(CER)11.0%

音声アシスタント

キルギス語音声指令認識

キルギス語をサポートする音声アシスタントシステムの構築に使用します。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.5412	18.69	2000	0.6161	0.5747
1.311	37.38	4000	0.5707	0.5070
1.1367	56.07	6000	0.5372	0.4664
0.9696	74.77	8000	0.5443	0.4328
0.8163	93.46	10000	0.5916	0.4124

プロパティ	詳細
モデルタイプ	XLS-R-300M - キルギス語
学習データ	mozilla-foundation/common_voice_7_0
タスク	自動音声認識
評価指標	Test WER: 40.908, Test CER: 10.999

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Large Xls R 300m Kyrgyz

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-large-xls-r-300m-kyrgyz

📚 ドキュメント

モデルの概要

想定される用途と制限

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス

📦 モデル情報