W

Wav2vec2 Large Xlsr Cnh

gchhablaniによって開発
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたハカチン語音声認識モデルで、汎用音声データセットでトレーニングされ、テストWERは31.38%です。
ダウンロード数 22
リリース時間 : 3/2/2022

モデル概要

これはハカチン語の自動音声認識(ASR)のためのモデルで、Wav2Vec2 Large XLSR-53アーキテクチャをファインチューニングしており、ハカチン語音声をテキストに変換できます。

モデル特徴

XLSR-53アーキテクチャベース
facebookのwav2vec2-large-xlsr-53をベースモデルとして使用しており、このアーキテクチャは大規模なクロスランゲージ音声表現学習で優れた性能を発揮します。
低リソース言語サポート
ハカチン語のようなリソースが少ない言語に特化して最適化されており、言語の多様性保護に役立ちます。
言語モデル不要
追加の言語モデルなしで直接使用でき、導入プロセスを簡素化します。

モデル能力

音声認識
ハカチン語音声からテキストへの変換
16kHzオーディオ処理

使用事例

音声技術
ハカチン語音声文字起こし
ハカチン語音声コンテンツを自動的にテキストに変換
単語誤り率(WER)31.38%
音声アシスタント開発
ハカチン語ユーザー向け音声インタラクションアプリケーションの開発
言語保護
少数民族言語のデジタル化
ハカチン語などの少数民族言語の保存とデジタル化を支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase