W

Wav2vec2 Large Xlsr Vietnamese

Nhutによって開発
facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングしたベトナム語自動音声認識モデル
ダウンロード数 22
リリース時間 : 3/2/2022

モデル概要

このモデルはベトナム語に最適化された自動音声認識(ASR)モデルで、XLSR Wav2Vec2アーキテクチャを基に、Common Voice、FOSD、VIVOSデータセットを使用してファインチューニングされています。

モデル特徴

複数データセットファインチューニング
Common Voice、FOSD、VIVOSの3つのベトナム語データセットを使用してトレーニングし、モデルの適応性を向上
16kHzサンプリングレート対応
16kHzサンプリングレートの音声入力を最適化処理
言語モデル不要
追加の言語モデルサポートなしで直接使用可能

モデル能力

ベトナム語音声認識
自動音声テキスト変換

使用事例

音声書き起こし
ベトナム語音声文字起こし
ベトナム語音声コンテンツをテキストに変換
Common Voiceベトナム語テストセットでWER49.59%
音声アシスタント
ベトナム語音声コマンド認識
ベトナム語音声アシスタントやスマートホームデバイスの音声コマンド認識に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase