🚀 NB-Whisper Large Distilled Turbo BETA
NB Whisper Large Distil Turbo BETA をご紹介します。これは、ノルウェー国立図書館によって開発されたノルウェー語の自動音声認識(ASR)モデルの軽量かつ高速なバージョンです。この蒸留モデルは、リソースが制限された環境でも最適化され、高い文字起こし品質を維持します。
元のNB - Whisper Largeモデルから蒸留プロセスを通じて派生しており、自動音声認識(ASR)タスクでのパフォーマンスを維持しながらパラメータ数を削減しています。
なお、このモデルは開発中のものです。テスト目的のみで公開されています。このモデルに関するすべてのフィードバックを大いに歓迎します。
🚀 クイックスタート
このモデルを使用するには、まず必要なライブラリをインストールし、Transformersパイプラインを使ってローカルで実行できます。
pip install transformers>=4.35.2
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])
✨ 主な機能
モデル概要
- モデルサイズ:パラメータ数が1550M(Large)から756M(蒸留)に削減。
- サポート言語:ノルウェー語(ボクマール)。
- ベースモデル:[NbAiLab/nb - whisper - large](https://huggingface.co/NbAiLab/nb - whisper - large) から派生。
- ライセンス:[Apache 2.0](https://www.apache.org/licenses/LICENSE - 2.0)。
主要な特徴
- 高速性:計算要件が少なく、推論が高速で、エッジデバイスに適しています。
- 軽量性:低メモリ使用量が必要なアプリケーションに最適です。
- 精度維持:単語誤り率(WER)と文字誤り率(CER)のベンチマークで競争力のあるパフォーマンスを維持します。
📦 インストール
ローカルで実行するには、必要なライブラリをインストールし、Transformersパイプラインを使用します。
pip install transformers>=4.35.2
💻 使用例
基本的な使用法
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])
📚 ドキュメント
トレーニングと蒸留の詳細
- 蒸留プロセス:このモデルは、教師 - 学生フレームワークを使用してNB - Whisper Largeモデルから蒸留され、精度の損失を最小限に抑えながらモデルサイズを削減しました。
- 使用されたデータセット:元のモデルと同じ高品質のデータセットを使用しています。
- NbAiLab/ncc_speech
- NbAiLab/NST
- NbAiLab/NPSC
- トレーニングステップ:蒸留には、サイズとパフォーマンスの最適なバランスを達成するために、数回の微調整が含まれていました。
パフォーマンス
この蒸留モデルは、多くのシナリオで完全なNB - Whisper Largeモデルと同様の結果を達成しますが、速度とリソース効率が最適化されています。ライブ文字起こしやモバイル使用などのリアルタイムアプリケーションに最適です。
例のユースケース
- 低リソースデバイスでのリアルタイム文字起こし。
- 低レイテンシ応答が必要なアプリケーションでの音声分析。
- モバイルまたは組み込みシステムでのエッジデプロイ。
API
シンプルなAPIを介してモデルにアクセスするための手順は、Spacesのデモに含まれています。ただし、これらのデモは一時的なもので、数週間のみ利用可能です。
トレーニングデータ
トレーニングデータは、Språkbankenとノルウェー国立図書館のデジタルコレクションに由来しています。
- NSTノルウェー語ASRデータベース(16kHz)とそれに対応するデータセット
- Språkbankenによるノルウェー議会の文字起こしされた演説
- テレビ放送(NRK)の字幕(NLNデジタルコレクション)
- オーディオブック(NLNデジタルコレクション)
下流の利用
これらのモデル、特に小さいモデルは、時折幻覚を起こし、文字起こしの一部を落とすことがあります。彼らは、話された言語を文法的に正しい文章に変換するように設計されていますが、必ずしも逐語的な翻訳ではない場合があります。異なる文字起こしスタイルを望むユーザーのために、2つの追加のモデルバリアントを作成しました。ユーザーには、モデルを自分で試して、よりよく理解することをお勧めします。
バイアス、リスク、および制限
適切なリスク評価と軽減策を行わずにこれらのモデルを使用することは、無責任な行為と見なされる可能性があります。これらのモデルにはバイアスやその他の望ましくない歪みが含まれている可能性があります。これらのモデルをデプロイするか、システムやサービスに統合するユーザーは、リスクを軽減し、適用されるAI規制に準拠する責任があります。モデルの所有者であるノルウェー国立図書館は、第三者によるこれらのモデルの使用に起因する結果について、一切の責任を負いません。
ソフトウェア
このモデルはJax/Flaxを使用してトレーニングされ、PyTorch、Tensorflow、whisper.cpp、およびONXX形式に変換されています。これらは Files and versions
の下で利用可能です。他の形式への変換要求も歓迎します。すべてのトレーニングコードとスクリプトは、GitHubリポジトリ [nb - whisper](https://github.com/NbAiLab/nb - whisper/) でApache License 2.0の下で公開されています。
引用と貢献者
NB - Whisper Largeモデルは、ノルウェー国立図書館のPer Egil Kummervold(@pere)が率いるNoSTramプロジェクトの成果物です。主要な貢献者には、Javier de la Rosa(@versae)、Freddy Wetjen(@freddyw)、およびRolv - Arild Braaten([@Rolv - Arild](https://huggingface.co/Rolv - Arild))が含まれます。Svein Arne Brygfjeld(@Brygfjeld)の指揮の下、NB AI - Labがプロジェクトの成功した完了をサポートしました。私たちのプロセスと調査結果に関する詳細な論文が近日公開されます。
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれている可能性があります。第三者がこれらのモデルのいずれかを使用してシステムやサービスをデプロイまたは提供する場合、またはモデルのユーザーになる場合、彼らはその使用に伴うリスクを軽減し、適用される規制、特にAIに関する規制に準拠する責任があります。いかなる場合も、モデルの所有者(ノルウェー国立図書館)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。
帰属
このモデルはApache - 2.0ライセンスの下で公開されています。ノルウェーでダウンロードする場合、ノルウェーの著作権法で指定されている帰属要件は、Apacheライセンスに明示的に記載されていなくても、関連する場合には依然として適用されます。他の国でモデルをダウンロードして使用する場合、帰属が必要ない場合がありますが、字幕に「Undertekster generert av NB - Whisper Medium v1.0」または「Subtitles generated by NB - Whisper Medium v1.0」とマーキングすることを強くお勧めします。これにより、将来のASRプログラムが機械生成の字幕でトレーニングされないようにすることもできます。
謝辞
トレーニングリソースを提供してくれた Google TPU Research Cloud、翻訳クレジットを提供してくれたGoogle Cloud、そして技術的なサポートを提供してくれたHuggingFaceのSanchit Ghandiに感謝します。SpråkbankenのPer Erik SolbergとのStortingetコーパスに関するコラボレーションにも特別な感謝を送ります。
連絡先
フィードバック、技術的な懸念、またはコラボレーションの問い合わせについては、ailab@nb.no までお問い合わせください。このモデルをあなたの研究に含める予定の場合は、引用目的で私たちの近日公開予定の論文に関する最新情報を得るために、私たちに連絡してください。
制限とリスク
蒸留モデルは効率的ですが、ユーザーは以下のことに気づくかもしれません。
- 一部のエッジケースでは、元の大きなモデルと比較してわずかなパフォーマンスの低下が見られます。
- トレーニングデータから引き継いだ潜在的なバイアスや文字起こしの不正確さがあります。
ユーザーは、特定のユースケースに対してモデルを評価し、必要に応じてリスクを軽減することをお勧めします。
引用と連絡先
あなたの研究でこのモデルを使用する場合は、ノルウェー国立図書館を引用してください。詳細や問い合わせについては、ailab@nb.no までお問い合わせください。