C

Chunkformer Large Vie

khanhldによって開発
ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識モデルで、約3000時間のベトナム語公開音声データで微調整され、優れた性能を発揮します。
ダウンロード数 1,765
リリース時間 : 2/1/2025

モデル概要

ChunkFormer-Large-Vieはベトナム語に特化して最適化された自動音声認識モデルで、ChunkFormerアーキテクチャを採用し、複数の公開データセットで最先端の性能を達成しました。

モデル特徴

高性能ベトナム語認識
Common Voice ViとVIVOSデータセットでSOTA成績を達成、WERはそれぞれ6.66と4.18です。
長音声処理能力
長音声の文字起こしをサポートし、チャンク処理技術によりメモリ使用量と計算効率を最適化します。
多データセット訓練
約3000時間の多様なベトナム語音声データで訓練され、様々なシナリオとアクセントをカバーしています。

モデル能力

ベトナム語音声認識
長音声文字起こし
リアルタイム音声テキスト変換

使用事例

音声書き起こし
会議議事録
ベトナム語会議録音を自動で文字記録に変換
高精度な書き起こし結果
音声アシスタント
ベトナム語音声アシスタントに音声認識機能を提供
低遅延・高精度な認識
教育
言語学習
学習者がベトナム語の発音とリスニングを練習するのを支援
正確な発音評価を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase