whisper-large-v3-turboオープンソース音声認識モデル - ヘブライ語の音声内容を高精度に認識する

ホーム

Whisper Large V3 Turbo

ivrit-aiによって開発

OpenAI Whisper Large v3 Turboモデルを基にヘブライ語向けに微調整した自動音声認識モデル

音声認識

Transformers

その他#ヘブライ語音声転写 #議会議事録転記 #クラウドソーシングデータ微調整

ダウンロード数 988

リリース時間 : 2/9/2025

モデル概要

本モデルはヘブライ語に最適化された自動音声認識(ASR)モデルで、ヘブライ語の音声転写シーンに適しています。

モデル特徴

ヘブライ語最適化

ヘブライ語に特化して微調整され、ヘブライ語の音声転写精度を向上

複数データセット学習

3つの異なるソースのヘブライ語データセットを使用して学習し、多様な音声シーンをカバー

効率的な学習

混合精度学習と最適化されたハイパーパラメータを採用し、8枚のA40 GPUでわずか9時間で学習完了

モデル能力

ヘブライ語音声転写

音声認識

使用事例

政府議事録

イスラエル議会議事録転写

イスラエル議会本会議のヘブライ語内容を転写するために使用

学習データには約325時間の議会議事録が含まれる

クラウドソーシング転写

公開音声ソース転写

様々な公開ソースのヘブライ語音声を転写するために使用

学習データには約300時間のクラウドソーシング転写データが含まれる

教育応用

ウィキペディアコンテンツ朗読転写

ヘブライ語ウィキペディアコンテンツの朗読音声を転写するために使用

学習データには約50時間のクラウドソーシング録音データが含まれる

🚀 モデルIDのモデルカード

このモデルは、OpenAIのWhisper Large v3 Turboモデルをヘブライ語でファインチューニング（継続的なトレーニング）したものです。

✨ 主な機能

このモデルは、OpenAIのWhisper Large v3 Turboモデルをベースに、ヘブライ語での音声文字起こしに特化してファインチューニングされています。

📚 ドキュメント

モデルの詳細

モデルの説明

プロパティ	詳細
開発者	ivrit-ai
言語	ヘブライ語
ライセンス	Apache-2.0
ファインチューニング元のモデル	openai/whisper-large-v3-turbo

バイアス、リスク、制限事項

⚠️ 重要な注意事項

このモデルの言語検出機能はトレーニング中に低下しており、主にヘブライ語の音声文字起こしを目的としています。言語トークンは明示的にヘブライ語に設定する必要があります。

また、翻訳タスクはトレーニングされておらず、性能も低下しています。このモデルは合理的なレベルでの翻訳ができません。

モデルの使い方

💡 使用上のヒント

モデルの使用方法の詳細については、元のモデルカードに従って、モデル名をこのモデルに置き換えてください。

他の重み形式や量子化については、ivrit aiのHFページで確認できます。

このモデルと重みを使用した簡単なサンプルスクリプトを作成しています。トレーニング用のGitHubリポジトリ内の"examples"フォルダで見つけることができます。

トレーニングの詳細

トレーニングデータ

このモデルは、以下のデータセットを使用してトレーニングされました。

ivrit-ai/crowd-transcribe-v5 - 公開されている音声ソースをセグメントごとにクラウドトランスクライブしたもの。約300時間。
ivrit-ai/crowd-recital-whisper-training - Wikipediaの記事の断片をクラウドソーシングで録音したもの。約50時間。
ivrit-ai/knesset-plenums-whisper-training - イスラエル国会の全会議録のサブセット。約325時間。

トレーニング手順

このモデルは、同じ設定で2回の別々の実行から得られた、評価損失が最も低いチェックポイント（エポック2の終わり近く）の加重平均です。トレーニングコードは、ivrit-aiのGitHub こちらで見つけることができます。

前処理

"crowd-recital"と"knesset"のデータセットには、Whisperが期待する入力形式に従ったタイムスタンプと前のテキストが含まれています。これらのデータセットのサンプルの40%からタイムスタンプを使用し、前のテキストの50%を使用しました。 "crowd-transcribe"データセットにはタイムスタンプや前のテキストがなく、この前処理ではメルスペクトル特徴抽出とテキストエンコーディングのみが行われました。前処理コードは、トレーニングコードのリポジトリ内で見つけることができます。データセットは、0.15:0.8:0.05の比率（knesset:crowd-transcribe:crowd-recital）でインターリーブされました。