W

Wav2vec2 Base Vietnamese 250h

nguyenvulebinhによって開発
wav2vec 2.0アーキテクチャに基づくベトナム語自動音声認識モデルで、13,000時間の未ラベル付きオーディオと250時間のラベル付きデータで訓練されています。
ダウンロード数 6,868
リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドのベトナム語音声認識システムで、Facebookのwav2vec 2.0アーキテクチャを採用し、CTCアルゴリズムで微調整され、ベトナム語の音声をテキストに変換するタスクをサポートします。

モデル特徴

大規模事前学習
13,000時間のベトナム語YouTubeオーディオで事前学習を行います。
効率的な微調整
250時間のラベル付き音声データを使用して微調整し、音声認識性能を最適化します。
言語モデル統合をサポート
4 - gram言語モデルと組み合わせて使用でき、単語誤り率(WER)を大幅に低下させます。
エンドツーエンドソリューション
従来のASRプロセスを簡素化し、個別の音響モデルと言語モデルのコンポーネントを必要としません。

モデル能力

ベトナム語音声認識
オーディオをテキストに変換
16kHzサンプリングレートのオーディオ処理をサポート

使用事例

音声文字起こし
会議記録
ベトナム語の会議録音を文字記録に変換します。
VIVOSテストセットで6.15%の単語誤り率を達成します。
音声アシスタント
ベトナム語の音声アシスタントに音声認識機能を提供します。
Common Voiceベトナム語テストセットで11.52%の単語誤り率を達成します。
教育アプリケーション
言語学習
学習者がベトナム語の発音と聴解を練習するのを支援します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase