W

Wav2vec2 Base Vn 270h

dragonSwingによって開発
約270時間のベトナム語注釈データでファインチューニングされた音声認識モデルで、ベトナム語の自動音声認識タスクをサポート
ダウンロード数 202
リリース時間 : 3/2/2022

モデル概要

このモデルはWav2Vec2アーキテクチャに基づくベトナム語自動音声認識(ASR)モデルで、Common Voice、VIVOS、VLSP2020などのデータセットから合計約270時間の注釈付き音声データを使用してファインチューニングされています。

モデル特徴

複数データセットでの学習
Common Voice、VIVOS、VLSP2020など複数のベトナム語音声データセットを統合して学習
低単語誤り率
VIVOSテストセットで3.70%のWERを達成し、優れた性能を発揮
言語モデル対応
4-gram言語モデルと組み合わせて使用可能で、認識精度が大幅に向上

モデル能力

ベトナム語音声認識
音声からテキストへの変換
16kHzサンプリングレートの音声処理

使用事例

音声文字起こし
ベトナム語会議議事録
ベトナム語の会議録音を自動的に文字記録に変換
90%以上の精度
音声アシスタント
ベトナム語音声アシスタントに音声認識機能を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase