xls-r-300m-etオープンソースエストニア語音声認識モデル - 800時間以上のデータで訓練され、超実用的

ホーム

Xls R 300m Et

TalTechNLPによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングしたエストニア語自動音声認識モデルで、約800時間の多様なデータでトレーニング

音声認識

Transformers

その他#エストニア語認識 #放送音声最適化 #低CER

ダウンロード数 58

リリース時間 : 3/2/2022

モデル概要

これは汎用エストニア語ASRモデルで、主に放送対話、インタビュー、講義などのシナリオでの音声認識に使用されます

モデル特徴

多様なトレーニングデータ

約800時間の多様なエストニア語データを使用してトレーニングされており、放送音声、自発音声、高齢者音声など様々なタイプを含みます

優れた性能

Common VoiceなどのテストセットでWERが12.5-13.4%、CERが2.7-3.0%と優れた性能を発揮

エストニア語に特化

エストニア語に特化して最適化されており、汎用多言語モデルと比べてエストニア語認識でより良い性能を発揮

モデル能力

エストニア語音声認識

放送音声文字起こし

講義内容文字起こし

使用事例

メディアコンテンツ処理

放送番組文字起こし

放送対話、インタビューなどをテキストに変換

WER 6.1-7.9%

教育アプリケーション

講義内容記録

講義、スピーチなどを自動的にテキストに変換

種類	量 (時間)
放送音声	591
即興音声	53
高齢者音声コーパス	53
講演、講義	49
議会演説	31
合計	761

データセット	WER
jutusaated.devset	7.9
jutusaated.testset	6.1
Common Voice 6.1	12.5
Common Voice 8.0	13.4

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Xls R 300m Et

モデル概要

モデル特徴

モデル能力

使用事例

🚀 XLS-R-300m-ET

✨ 主な機能

📚 ドキュメント

想定される用途と制限

使い方

制限とバイアス

学習データ

学習手順

評価結果

WER

📄 ライセンス