W

Wav2vec2 Bartpho

nguyenvulebinhによって開発
これはベトナム語をサポートする自動音声認識モデルで、正規化されたテキストの出力、タイムスタンプの付与、および複数話者のセグメンテーションが可能です。
ダウンロード数 472
リリース時間 : 10/5/2023

モデル概要

このモデルはwav2vec2とbartphoアーキテクチャに基づいており、ベトナム語の自動音声認識タスク専用に設計されており、タイムスタンプ付きテキストと複数話者セグメンテーションの出力をサポートします。

モデル特徴

タイムスタンプ付与
認識されたテキストに正確なタイムスタンプを付与可能
複数話者セグメンテーション
異なる話者の音声を認識しセグメント化する機能をサポート
テキスト正規化
正規化された認識テキストを出力

モデル能力

ベトナム語音声認識
タイムスタンプ付与
複数話者セグメンテーション
テキスト正規化出力

使用事例

音声文字起こし
ニュース文字起こし
ベトナム語ニュース放送をタイムスタンプ付きテキストに変換
出力例には正確な時間マーキングとセグメンテーションが含まれる
会議記録
複数話者会議記録
会議中の異なる発言者の音声を自動認識しセグメント化
異なる話者を区別し発言時間をマーク可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase