whisper-large-v3オープンソースモデル - 無料でデプロイ可能、ヘブライ語の音声を的確に文字起こしすることに特化

ホーム

Whisper Large V3

ivrit-aiによって開発

OpenAI Whisper Large v3モデルをヘブライ語向けにファインチューニングしたバージョンで、ヘブライ語音声転写タスクに特化

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヘブライ語音声転写 #議会議事録 #クラウドソーシングデータトレーニング

ダウンロード数 2,068

リリース時間 : 3/4/2025

モデル概要

このモデルはWhisper Large v3のヘブライ語専用バージョンで、675時間のヘブライ語データでファインチューニングされており、ヘブライ語音声転写性能が最適化されていますが、言語検出と翻訳能力は低下しています

モデル特徴

ヘブライ語最適化

ヘブライ語音声に特化してファインチューニングされており、転写精度はオリジナルのWhisperを上回ります

多様なトレーニングデータ

議会記録、クラウドソーシング転写、朗読データを統合し、様々なヘブライ語使用シナリオをカバー

効率的なトレーニング

チェックポイント加重平均戦略を採用し、限られたトレーニング時間で最高の性能を獲得

モデル能力

ヘブライ語音声転写

音声からテキストへの変換

使用事例

政府記録

議会会議転写

イスラエル議会本会議の内容を自動転写

325時間の議会データを使用してトレーニング

教育

Wikipediaコンテンツ朗読転写

クラウドソーシングで録音されたヘブライ語Wikipediaコンテンツを転写

50時間の朗読データを使用してトレーニング

🚀 モデルIDのモデルカード

このモデルは、OpenAI Whisper Large v3モデルをヘブライ語でファインチューニング（継続トレーニング）したものです。

✨ 主な機能

ヘブライ語の音声を高精度に文字起こしすることができます。
OpenAI Whisper Large v3モデルをベースにしているため、安定した性能を発揮します。

📚 ドキュメント

モデルの詳細

モデルの説明

項目	詳細
開発者	ivrit-ai
言語	ヘブライ語
ライセンス	Apache - 2.0
ファインチューニング元のモデル	openai/whisper-large-v3

バイアス、リスク、制限事項

このモデルの言語検出機能はトレーニング中に低下しています。主にヘブライ語の音声文字起こしを目的としており、言語トークンは明示的にヘブライ語に設定する必要があります。

また、翻訳タスクについてはトレーニングされておらず、性能も低下しています。このモデルは合理的なレベルでの翻訳ができません。

モデルの使い方

使用方法の詳細については、元のモデルカードを参照し、モデル名をこのモデルに置き換えてください。

また、他の重み形式や量子化については、ivrit aiのHFページで確認できます。

私たちは、このモデルと重みを使用した簡単なサンプルスクリプトを作成しています。トレーニング用のGitHubリポジトリ内の"examples"フォルダで見つけることができます。

トレーニングの詳細

トレーニングデータ

このモデルは以下のデータセットを使用してトレーニングされました。

ivrit-ai/crowd-transcribe-v5 - 公開されている音声ソースをセグメントごとにクラウドトランスクライブしたもので、約300時間です。
ivrit-ai/crowd-recital-whisper-training - Wikipediaの記事の断片をクラウドソーシングで収録したもので、約50時間です。
ivrit-ai/knesset-plenums-whisper-training - イスラエル議会の全会議録のサブセットで、約325時間です。