W

Wav2vec2 Base Vietnamese

dragonSwingによって開発
Wav2Vec2アーキテクチャに基づくベトナム語音声認識モデル、VSLPデータセットでファインチューニング済み、16kHzサンプリングレートの音声入力をサポート
ダウンロード数 16
リリース時間 : 3/2/2022

モデル概要

このモデルはベトナム語に最適化された自動音声認識(ASR)システムで、FacebookのWav2Vec2アーキテクチャを基に、100時間の注釈付きデータでファインチューニングされており、音声からテキストへの変換タスクに直接使用可能

モデル特徴

ベトナム語最適化
ベトナム語の音声特性に特化して訓練・最適化
言語モデル不要
追加の言語モデルサポートなしで直接使用可能
効率的な処理
16kHzサンプリングレートの音声入力をサポートし、リアルタイムアプリケーションに適している

モデル能力

ベトナム語音声認識
音声からテキストへの変換
自動音声認識

使用事例

音声文字起こし
音声テキスト化
ベトナム語音声内容をテキストに変換
Common VoiceテストセットでWER31.35%
スマートアシスタント
ベトナム語音声コマンド認識
ベトナム語音声アシスタントの人間とコンピュータのインタラクションに使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase