W

Wav2vec2 Xls R 300m Zh HK Lm V2

w11woによって開発
XLS-Rアーキテクチャに基づく自動音声認識モデルで、広東語(zh-HK)向けに最適化され、Common Voiceデータセットで微調整され、5-gram言語モデルが追加されています。
ダウンロード数 25
リリース時間 : 3/2/2022

モデル概要

このモデルは広東語(zh-HK)向けに最適化された自動音声認識(ASR)モデルで、FacebookのWav2Vec2-XLS-R-300Mアーキテクチャを微調整し、PyCantoneseコーパスでトレーニングされた5-gram言語モデルを統合して認識精度を向上させています。

モデル特徴

広東語最適化
広東語(zh-HK)向けに特別に最適化された音声認識モデルで、Common Voice広東語データセットで微調整されています。
5-gram言語モデル強化
PyCantoneseコーパスでトレーニングされた5-gram言語モデルを統合し、認識精度を大幅に向上させています。
ロバスト性能
HuggingFaceが主催するロバスト音声チャレンジに参加し、様々なデータセットで安定した性能を発揮しています。

モデル能力

広東語音声認識
自動音声テキスト変換
複数の音声データセットをサポート

使用事例

音声書き起こし
広東語音声からテキストへ
広東語音声コンテンツをテキスト記録に変換
Common VoiceデータセットでCERが24.09%
音声アプリケーション開発
広東語音声アシスタント
広東語をサポートする音声インタラクションアプリケーションの開発
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase