Fine-Tune-XLSR-Wav2Vec2-Speech2Text-Vietnameseオープンソースモデル - ベトナム語の音声認識結果を高精度で修正

ホーム

Fine Tune XLSR Wav2Vec2 Speech2Text Vietnamese

leduytan93によって開発

これはMT5アーキテクチャに基づくベトナム語自動音声認識(ASR)修復モデルで、ベトナム語音声認識タスク向けにファインチューニングされています。

音声認識その他オープンソースライセンス:Apache-2.0 #ベトナム語音声認識 #XLSRファインチューニング #低単語誤り率

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

このモデルは主にベトナム語の自動音声認識タスクに使用され、ベトナム語音声をテキストに変換できます。モデルはCommon Voiceベトナム語データセットでファインチューニングされており、単語誤り率(WER)は25.2%です。

モデル特徴

ベトナム語音声認識

ベトナム語に特化して最適化された音声認識能力

MT5アーキテクチャベース

MT5モデルアーキテクチャを使用した音声認識タスク

Common Voiceでファインチューニング

Common Voiceベトナム語データセットを使用したファインチューニング

モデル能力

ベトナム語音声認識

音声からテキストへの変換

使用事例

音声文字起こし

ベトナム語音声文字起こし

ベトナム語音声コンテンツをテキストに変換

単語誤り率25.2%

音声アシスタント

ベトナム語音声アシスタント

ベトナム語音声アシスタントシステム構築に使用

Property	Details
Model Type	言語モデル
Training Data	- common_voice - FOSD: https://data.mendeley.com/datasets/k9sxg2twv4/4

タスク	データセット	評価指標	値
音声認識 (automatic-speech-recognition)	Common Voice vi (common_voice, vi)	Test WER (wer)	25.207182

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Fine Tune XLSR Wav2Vec2 Speech2Text Vietnamese

モデル概要

モデル特徴

モデル能力

使用事例

🚀 MT5 Fix Asr Vietnamese by Ontocord

🚀 クイックスタート

✨ 主な機能

📦 インストール

📚 ドキュメント

データセット

評価指標

タグ

モデル評価結果

📄 ライセンス