W

Wav2vec2 Xlsr Khmer

gagan3012によって開発
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたクメール語音声認識モデルで、OpenSLRクメール語データセットでWER24.96%を達成。
ダウンロード数 172
リリース時間 : 3/2/2022

モデル概要

このモデルはクメール語自動音声認識(ASR)システムで、Facebookのwav2vec2-large-xlsr-53モデルを基にファインチューニングされ、16kHzサンプリングレートの音声入力をサポートします。

モデル特徴

高精度クメール語認識
OpenSLRクメール語テストセットで24.96%のWERを達成し、優れた性能を発揮
XLSR大規模モデルベース
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしており、強力なクロスランゲージ音声表現能力を有する
言語モデル不要
追加の言語モデルサポートなしで直接使用可能

モデル能力

クメール語音声認識
16kHzオーディオ処理
エンドツーエンド音声テキスト変換

使用事例

音声文字起こし
クメール語音声テキスト変換
クメール語音声コンテンツをテキストに変換
WER 24.96%
音声アシスタント
クメール語音声コマンド認識
クメール語音声アシスタントシステムのコマンド認識に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase