nb-whisper-large-distil-turbo-betaオープンソースモデル - ノルウェー語の音声を高速かつ正確に文字起こしするのを支援

ホーム

Nb Whisper Large Distil Turbo Beta

NbAiLabによって開発

ノルウェー国立図書館が開発したノルウェー語自動音声認識モデルの軽量化高速バージョン。蒸留プロセスによりパラメータ数を削減しながら、文字起こし品質を維持。

音声認識

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ノルウェー語音声認識 #軽量蒸留モデル #低リソースデバイス対応

ダウンロード数 478

リリース時間 : 11/28/2024

モデル概要

これはノルウェー語（ブークモール）に最適化された自動音声認識モデルで、リソースが限られた環境でのリアルタイム文字起こしに特に適しています。

モデル特徴

効率的な推論

パラメータ数を1550Mから756Mに削減し、推論速度を大幅に向上

リソース最適化

低メモリデバイスやエッジコンピューティングシナリオ向けに設計

精度維持

蒸留技術によりオリジナルの大規模モデルと同等の認識精度を保持

多フォーマット対応

PyTorch、TensorFlow、whisper.cpp、ONXXなど複数のフォーマットを提供

モデル能力

ノルウェー語音声テキスト変換

リアルタイム音声認識

低遅延文字起こし

エッジデバイス展開

使用事例

リアルタイム文字起こし

モバイル端末音声入力

スマートフォンなどのモバイルデバイスでリアルタイム音声テキスト変換を実現

会議議事録

会議の音声内容を自動的に文字起こし

メディア処理

放送コンテンツ字幕生成

ノルウェー放送協会(NRK)番組の字幕を自動生成

🚀 NB-Whisper Large Distilled Turbo BETA

NB Whisper Large Distil Turbo BETA をご紹介します。これは、ノルウェー国立図書館によって開発されたノルウェー語の自動音声認識（ASR）モデルの軽量かつ高速なバージョンです。この蒸留モデルは、リソースが制限された環境でも最適化され、高い文字起こし品質を維持します。元のNB - Whisper Largeモデルから蒸留プロセスを通じて派生しており、自動音声認識（ASR）タスクでのパフォーマンスを維持しながらパラメータ数を削減しています。

なお、このモデルは開発中のものです。テスト目的のみで公開されています。このモデルに関するすべてのフィードバックを大いに歓迎します。

🚀 クイックスタート

このモデルを使用するには、まず必要なライブラリをインストールし、Transformersパイプラインを使ってローカルで実行できます。

pip install transformers>=4.35.2

from transformers import pipeline

# 蒸留モデルをロード
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")

# 音声を文字起こし
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])

✨ 主な機能

モデル概要

モデルサイズ：パラメータ数が1550M（Large）から756M（蒸留）に削減。
サポート言語：ノルウェー語（ボクマール）。
ベースモデル：[NbAiLab/nb - whisper - large](https://huggingface.co/NbAiLab/nb - whisper - large) から派生。
ライセンス：[Apache 2.0](https://www.apache.org/licenses/LICENSE - 2.0)。

主要な特徴

高速性：計算要件が少なく、推論が高速で、エッジデバイスに適しています。
軽量性：低メモリ使用量が必要なアプリケーションに最適です。
精度維持：単語誤り率（WER）と文字誤り率（CER）のベンチマークで競争力のあるパフォーマンスを維持します。

📦 インストール

ローカルで実行するには、必要なライブラリをインストールし、Transformersパイプラインを使用します。

pip install transformers>=4.35.2

💻 使用例

基本的な使用法

from transformers import pipeline

# 蒸留モデルをロード
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")

# 音声を文字起こし
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])

📚 ドキュメント

トレーニングと蒸留の詳細

蒸留プロセス：このモデルは、教師 - 学生フレームワークを使用してNB - Whisper Largeモデルから蒸留され、精度の損失を最小限に抑えながらモデルサイズを削減しました。
使用されたデータセット：元のモデルと同じ高品質のデータセットを使用しています。
- NbAiLab/ncc_speech
- NbAiLab/NST
- NbAiLab/NPSC
トレーニングステップ：蒸留には、サイズとパフォーマンスの最適なバランスを達成するために、数回の微調整が含まれていました。

パフォーマンス

この蒸留モデルは、多くのシナリオで完全なNB - Whisper Largeモデルと同様の結果を達成しますが、速度とリソース効率が最適化されています。ライブ文字起こしやモバイル使用などのリアルタイムアプリケーションに最適です。

例のユースケース

低リソースデバイスでのリアルタイム文字起こし。
低レイテンシ応答が必要なアプリケーションでの音声分析。
モバイルまたは組み込みシステムでのエッジデプロイ。

API

シンプルなAPIを介してモデルにアクセスするための手順は、Spacesのデモに含まれています。ただし、これらのデモは一時的なもので、数週間のみ利用可能です。

トレーニングデータ

トレーニングデータは、Språkbankenとノルウェー国立図書館のデジタルコレクションに由来しています。

NSTノルウェー語ASRデータベース（16kHz）とそれに対応するデータセット
Språkbankenによるノルウェー議会の文字起こしされた演説
テレビ放送（NRK）の字幕（NLNデジタルコレクション）
オーディオブック（NLNデジタルコレクション）

下流の利用

これらのモデル、特に小さいモデルは、時折幻覚を起こし、文字起こしの一部を落とすことがあります。彼らは、話された言語を文法的に正しい文章に変換するように設計されていますが、必ずしも逐語的な翻訳ではない場合があります。異なる文字起こしスタイルを望むユーザーのために、2つの追加のモデルバリアントを作成しました。ユーザーには、モデルを自分で試して、よりよく理解することをお勧めします。

バイアス、リスク、および制限

適切なリスク評価と軽減策を行わずにこれらのモデルを使用することは、無責任な行為と見なされる可能性があります。これらのモデルにはバイアスやその他の望ましくない歪みが含まれている可能性があります。これらのモデルをデプロイするか、システムやサービスに統合するユーザーは、リスクを軽減し、適用されるAI規制に準拠する責任があります。モデルの所有者であるノルウェー国立図書館は、第三者によるこれらのモデルの使用に起因する結果について、一切の責任を負いません。

ソフトウェア

このモデルはJax/Flaxを使用してトレーニングされ、PyTorch、Tensorflow、whisper.cpp、およびONXX形式に変換されています。これらは Files and versions の下で利用可能です。他の形式への変換要求も歓迎します。すべてのトレーニングコードとスクリプトは、GitHubリポジトリ [nb - whisper](https://github.com/NbAiLab/nb - whisper/) でApache License 2.0の下で公開されています。

引用と貢献者

NB - Whisper Largeモデルは、ノルウェー国立図書館のPer Egil Kummervold（@pere）が率いるNoSTramプロジェクトの成果物です。主要な貢献者には、Javier de la Rosa（@versae）、Freddy Wetjen（@freddyw）、およびRolv - Arild Braaten（[@Rolv - Arild](https://huggingface.co/Rolv - Arild)）が含まれます。Svein Arne Brygfjeld（@Brygfjeld）の指揮の下、NB AI - Labがプロジェクトの成功した完了をサポートしました。私たちのプロセスと調査結果に関する詳細な論文が近日公開されます。

免責事項

このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれている可能性があります。第三者がこれらのモデルのいずれかを使用してシステムやサービスをデプロイまたは提供する場合、またはモデルのユーザーになる場合、彼らはその使用に伴うリスクを軽減し、適用される規制、特にAIに関する規制に準拠する責任があります。いかなる場合も、モデルの所有者（ノルウェー国立図書館）は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。

帰属

このモデルはApache - 2.0ライセンスの下で公開されています。ノルウェーでダウンロードする場合、ノルウェーの著作権法で指定されている帰属要件は、Apacheライセンスに明示的に記載されていなくても、関連する場合には依然として適用されます。他の国でモデルをダウンロードして使用する場合、帰属が必要ない場合がありますが、字幕に「Undertekster generert av NB - Whisper Medium v1.0」または「Subtitles generated by NB - Whisper Medium v1.0」とマーキングすることを強くお勧めします。これにより、将来のASRプログラムが機械生成の字幕でトレーニングされないようにすることもできます。

謝辞

トレーニングリソースを提供してくれた Google TPU Research Cloud、翻訳クレジットを提供してくれたGoogle Cloud、そして技術的なサポートを提供してくれたHuggingFaceのSanchit Ghandiに感謝します。SpråkbankenのPer Erik SolbergとのStortingetコーパスに関するコラボレーションにも特別な感謝を送ります。