W

Wav2vec2 Large Vi Vlsp2020

nguyenvulebinhによって開発
wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル。1.3万時間の未ラベルYouTube音声で事前学習し、250時間のラベル付きデータでファインチューニング
ダウンロード数 385
リリース時間 : 11/4/2022

モデル概要

このモデルはベトナム語音声認識タスク専用に設計され、16kHzサンプリングレートの音声入力をサポートし、転記テキストを出力します。基本版と大型版の2バージョンがあり、言語モデルとの統合で認識精度向上が可能です。

モデル特徴

大規模事前学習
1.3万時間のベトナム語YouTube音声で事前学習し、豊富な音声特徴表現を学習
ドメインファインチューニング
VLSP ASRデータセットの250時間ラベル付きデータでファインチューニングし、ベトナム語認識性能を最適化
言語モデル統合
5-gram言語モデルとの統合をサポートし、単語誤り率(WER)を大幅に低減
高性能
VLSP T1テストセットで5.32%の単語誤り率を達成(言語モデル使用時)

モデル能力

ベトナム語音声認識
音声転記
16kHzサンプリングレート音声処理をサポート

使用事例

音声転記
ベトナム語会議議事録
ベトナム語会議録音を自動的に文字記録に転記
93%以上の精度(言語モデル使用時)
メディア字幕生成
ベトナム語動画コンテンツに自動字幕を生成
音声アシスタント
ベトナム語音声コマンド認識
ベトナム語音声アシスタントのフロントエンド音声認識モジュールとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase