W

Wav2vec2 Large Xlsr Greek 2

skylordによって開発
facebook/wav2vec2-large-xlsr-53を基に、ギリシャ語Common Voiceデータセットでファインチューニングした音声認識モデル。合成女性音声データでトレーニングセットのバランスを調整
ダウンロード数 15
リリース時間 : 3/2/2022

モデル概要

これはギリシャ語向けの自動音声認識(ASR)モデルで、FacebookのXLSR-53大規模モデルをファインチューニングしたもの。ギリシャ語音声データの性別不均衡問題に特別に対処

モデル特徴

性別バランス調整トレーニングデータ
Google TTSで合成した女性音声データを追加し、元のデータセットで男性音声が支配的だった問題を解決
多段階ファインチューニング
段階的なファインチューニング戦略を採用。最初に元のデータでトレーニング後、合成データを追加して継続トレーニング
ギリシャ語最適化
ギリシャ語の音声特性に特化して最適化。ギリシャ語特有の発音やイントネーションに対応

モデル能力

ギリシャ語音声認識
16kHz音声処理
言語モデルなし直接推論

使用事例

音声からテキストへ
ギリシャ語音声文字起こし
ギリシャ語音声コンテンツをテキストに変換
Common Voiceテストセットで45.05% WERを達成
音声アシスタント
ギリシャ語音声コマンド認識
ギリシャ語音声アシスタントの基礎音声認識コンポーネントとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase