whisper-medium-etオープンソース音声認識モデル - 一般的なシチュエーションに適したエストニア語音声認識

ホーム

Whisper Medium Et

TalTechNLPによって開発

約800時間の多様なエストニア語データでファインチューニングされたWhisper-mediumモデルで、汎用音声認識シナリオに適しています

音声認識

Transformers

#エストニア語ASR #放送音声認識 #多様なシナリオの音声書き起こし

ダウンロード数 115

リリース時間 : 3/20/2023

モデル概要

これはタリン工科大学言語技術研究所で訓練された汎用エストニア語自動音声認識(ASR)モデルで、放送対話、インタビュー、スピーチなどのシナリオに適しています

モデル特徴

多様な訓練データ

約800時間の多様なエストニア語データで訓練されており、放送音声、即興対話、高齢者音声など様々なタイプを含みます

高性能な認識

Common Voiceテストセットで13.8-14.7のWER性能を達成

汎用シナリオ対応

放送対話、インタビュー、スピーチなど様々な汎用音声認識シナリオに適用可能

モデル能力

エストニア語音声認識

自動音声テキスト変換

使用事例

メディアと放送

放送コンテンツの書き起こし

エストニア語放送番組を自動的にテキストに変換

会議記録

会議音声の書き起こし

エストニア語会議内容を自動的にテキスト記録に変換

🚀 Whisper-medium-et

このモデルは、openai/whisper-medium の Whisper-medium モデルを約800時間の多様なエストニア語データでファインチューニングしたものです。自動音声認識に役立ち、エストニア語の音声を高精度に認識できます。

🚀 クイックスタート

このモデルは、一般的な音声認識タスクに使用できます。HF transformers を介して他の Whisper モデルと同じように使用するか、faster-whisper のような高速デコーダーを使用することができます。

✨ 主な機能

一般的な音声認識に適用可能で、放送会話、インタビュー、講演などの様々なシナリオに対応。
エストニア語の音声を高精度に認識することができます。

📚 ドキュメント

モデルの説明

このモデルは、TalTech の言語技術研究所で訓練された汎用エストニア語 ASR モデルです。

想定される用途と制限

このモデルは、放送会話、インタビュー、講演などの汎用音声認識に使用されることを想定しています。

使用方法

HF transformers を介して他の Whisper モデルと同じように使用するか、faster-whisper のような高速デコーダーを使用することができます。

制限とバイアス

このモデルは主に放送音声とウェブ上のテキストで訓練されているため、以下のような音声の正しいデコードに問題が生じる可能性があります。

技術用語やその他の特定分野の用語を含む音声
子供の音声
非ネイティブの音声
非常にノイズの多い条件下で録音された音声、または話者から離れたマイクで録音された音声
非常に即興的で重なり合う音声

訓練データ

音響訓練データ:

タイプ	量 (h)
放送音声	591
即興音声	53
高齢者音声コーパス	53
講演、講義	49
議会演説	31
合計	761

訓練手順

Espnet を使用してファインチューニングし、その後このスクリプトを使用して transformers 形式に変換しました。ファインチューニング手順はこのモデルと類似しています。

評価結果

WER

以下の WER 結果は、貪欲デコード（すなわち、ビームサイズ 1）を使用して取得されました。

データセット	WER
Common Voice 8.0	13.8
Common Voice 11.0	14.7

📄 ライセンス

このモデルは CC BY 4.0 ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご