V

Viwav2vec2 Base 3k

dragonSwingによって開発
このモデルは3千時間のベトナム語音声データで事前学習されたWav2Vec2ベースモデルで、ベトナム語音声認識タスクに適しており、下流タスクで微調整して使用する必要があります。
ダウンロード数 41
リリース時間 : 5/3/2022

モデル概要

これは3千時間のベトナム語音声データ(自発的会話、朗読、放送音声を含む)で事前学習されたWav2Vec2ベースモデルです。ベトナム語自動音声認識などの下流タスクで微調整することで最高の効果を発揮します。

モデル特徴

大規模ベトナム語事前学習
3千時間のベトナム語音声データに基づく事前学習で、多様な音声タイプを含む
16kHzサンプリングレート対応
16kHzでサンプリングされた音声データに最適化されており、入力データがこのサンプリングレートに一致する必要がある
下流タスクでの微調整必要
音声認識などの下流タスクで微調整することで最高の効果を発揮する

モデル能力

ベトナム語音声特徴抽出
音声表現学習

使用事例

音声技術
ベトナム語音声認識システム
モデルを微調整してベトナム語自動音声認識システムを構築
音声分析アプリケーション
ベトナム語音声コンテンツ分析に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase