whisper-large-etオープンソース音声認識モデル - 無料でエストニア語の高精度な音声認識を実現

ホーム

Whisper Large Et

TalTechNLPによって開発

OpenAI Whisper-large-v2をファインチューニングしたエストニア語音声認識モデルで、タルトゥ大学が開発し、約1200時間の学習データを使用

音声認識

Transformers

その他#エストニア語音声認識 #放送音声最適化 #マルチシーンASR

ダウンロード数 245

リリース時間 : 4/13/2023

モデル概要

これは汎用型エストニア語自動音声認識(ASR)モデルで、放送対話、インタビュー、講義など様々なシーンの音声から文字への変換タスクに適しています

モデル特徴

高精度エストニア語認識

Common VoiceテストセットでWER 11.35-12.03の優れた性能を達成

多様な学習データ

約1200時間の多様なエストニア語データで学習しており、放送、スピーチ、議会記録などが含まれます

Whisperアーキテクチャベース

業界をリードするWhisper-large-v2モデルをファインチューニングしており、その優れたアーキテクチャ特性を継承しています

モデル能力

エストニア語音声から文字変換

放送音声認識

講義内容文字起こし

インタビュー記録生成

使用事例

メディアコンテンツ処理

放送番組文字起こし

エストニア語放送番組を自動的に文字原稿に変換

WER約12%の高精度文字起こし

インタビュー記録生成

インタビュー対話の文字記録を自動生成

教育応用

講義内容文字起こし

大学講義の内容を自動的に文字に変換

🚀 Whisper-large-et

このモデルは、約1200時間の多様なエストニア語データで微調整されたWhisper-large-v2モデル openai/whisper-large-v2 です。

📚 ドキュメント

モデルの説明

これは、TalTechの言語技術研究所で学習された汎用的なエストニア語の自動音声認識（ASR）モデルです。

想定される用途と制限

このモデルは、放送会話、インタビュー、講演などの汎用的な音声認識に使用することを想定しています。

使用方法

推奨: faster-whisper を使用します。

基本的な使用法

HFモデルをCT2形式に変換する:

ct2-transformers-converter --model TalTechNLP/whisper-large-et --output_dir whisper-large-et.ct2  --copy_files tokenizer.json --quantization float16

デコードする:

whisper-ctranslate2 --model_directory whisper-large-et.ct2 --task transcribe --language et --beam_size 5 some_file.mp3

制限とバイアス

このモデルは主に放送音声とウェブ上のテキストで学習されているため、以下の音声のデコードに問題が生じる可能性があります。

技術用語や特定のドメイン用語を含む音声
子供の音声
非ネイティブの音声
非常にノイズの多い環境で録音された音声、または話者から離れたマイクで録音された音声
非常に即興的で重複する音声

学習データ

音響学習データ:

タイプ	量 (時間)
放送音声	991
即興音声	53
高齢者音声コーパス	53
講演、講義	49
議会演説	31
合計	1161

学習手順

Espnetを使用して微調整し、その後このスクリプトを使用してtransformers形式に変換しました。微調整手順はこのモデルと類似しています。微調整は3エポック行い、学習の最後にモデルの平均化を行いました。

更新: 2023年10月3日版のモデルは、長いセグメントで学習されている（元のWhisperモデルと同様）ため、例えば faster-whisper を使用して長い音声録音を「エンドツーエンド」で文字起こしするのに特に適しています（つまり、事前のセグメンテーションなしで）。

評価結果

WER

以下のWER結果は、貪欲デコード（つまり、ビームサイズ1）を使用して得られました。

データセット	WER
Common Voice 8.0	11.3
Common Voice 11.0	12.0

📄 ライセンス

このモデルはCC-BY-4.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご