ASR-Conformer - 大規模ASRオープンソース音声認識モデル - 無料でデプロイして英語音声を高精度に認識する

ホーム

Asr Conformer Largescaleasr

speechbrainによって開発

これはSpeechBrainフレームワークでトレーニングされたエンドツーエンドの自動音声認識システムで、Conformerアーキテクチャを使用して25,000時間の英語音声データでトレーニングされています。

音声認識

PyTorch

英語オープンソースライセンス:Apache-2.0 #大規模音声認識 #Conformerアーキテクチャ #マルチシーン適応

ダウンロード数 92

リリース時間 : 2/6/2025

モデル概要

このモデルは高性能な自動音声認識システムで、ConformerエンコーダーとCTC+Transformer連合デコーダーを組み合わせ、英語音声の転写をサポートします。

モデル特徴

大規模トレーニングデータ

25,000時間のLargeScaleASRデータセットに基づいてトレーニングされ、さまざまな音声シナリオをカバーしています

効率的なアーキテクチャ

CNNとTransformerの利点を組み合わせたConformerアーキテクチャを採用し、音声認識タスクに適しています

柔軟なデコード

大ビーム幅フルデコード、貪欲デコード、アテンションのみデコードなど、複数のデコード方法をサポートします

モデル能力

英語音声認識

音声転写

音声からテキストへ

使用事例

音声転写

会議議事録

会議録音を自動的にテキスト記録に転写

検証セットWER 6.8、テストセットWER 7.5

音声メモ

音声メモを検索可能なテキストに変換

支援技術

リアルタイム字幕生成

動画やライブコンテンツのリアルタイム字幕を生成

🚀 LargeScaleASRデータセットの25,000時間用Conformer

このモデルは、サムスンAIセンター・ケンブリッジによる貢献です。

このリポジトリは、SpeechBrain内でLargeScaleASR (EN) で事前学習されたエンドツーエンドシステムから自動音声認識を実行するために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrain についてもっと学ぶことをおすすめします。このモデルの性能は以下の通りです。

#パラメータ	検証WER	テストWER	LibriSpeech test-other	CommonVoice 18 test	Voxpopuli test	GPU
480M	6.8	7.5	4.6	12.0	6.9	8xV100 32GB

このデータセットで独自のモデルを学習させたい場合は、SpeechBrainツールキットを参照してください。

🚀 クイックスタート

📦 インストール

まずは、以下のコマンドでSpeechBrainをインストールしてください。

pip install speechbrain

SpeechBrain に関するチュートリアルを読み、もっと詳しく学ぶことをおすすめします。

💻 使用例

基本的な使用法

from speechbrain.inference.ASR import EncoderDecoderASR

# 大きなビームサイズでの完全なデコード（低速）:
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr")

# 貪欲デコード:
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr", overrides={"test_beam_size":"1"})

# アテンションのみのデコード（高速）:
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr", overrides={"scorer":None, "ctc_weight_decode":0.0})

# さらに高速なデコード
asr_model.transcribe_file("speechbrain/asr-conformer-largescaleasr/example.wav")

高度な使用法

# GPUで推論を行うには、from_hparamsメソッドを呼び出す際に `run_opts={"device":"cuda"}` を追加します。
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr", run_opts={"device":"cuda"})

バッチでの並列推論

事前学習済みモデルを使用して入力文のバッチを並列に文字起こしする方法については、このColabノートブックを参照してください。

✨ 主な機能

この自動音声認識（ASR）システムは、2つの異なるが関連するブロックで構成されています。

トークナイザー（ユニグラム）：単語をサブワードユニットに変換し、LargeScaleASRデータセットの学習用文字起こしデータで学習されます。
音響モデル：コンフォーマーエンコーダとCTC + トランスフォーマーを備えたジョイントデコーダで構成されています。したがって、デコードにはCTCの確率も組み込まれています。

このシステムは、16kHzでサンプリングされた録音（単一チャンネル）で学習されています。コードは、必要に応じて transcribe_file を呼び出す際に自動的にオーディオを正規化します（すなわち、リサンプリング + モノチャンネル選択）。

📚 ドキュメント

パイプラインの説明

このASRシステムは、2つの異なるが関連するブロックで構成されています。

トークナイザー（ユニグラム）：単語をサブワードユニットに変換し、LargeScaleASRデータセットの学習用文字起こしデータで学習されます。
音響モデル：コンフォーマーエンコーダとCTC + トランスフォーマーを備えたジョイントデコーダで構成されています。したがって、デコードにはCTCの確率も組み込まれています。

🔧 技術詳細

このASRシステムは、2つの異なるが関連するブロックで構成されています。トークナイザー（ユニグラム）は、単語をサブワードユニットに変換し、LargeScaleASRデータセットの学習用文字起こしデータで学習されます。音響モデルは、コンフォーマーエンコーダとCTC + トランスフォーマーを備えたジョイントデコーダで構成されています。したがって、デコードにはCTCの確率も組み込まれています。システムは、16kHzでサンプリングされた録音（単一チャンネル）で学習されています。コードは、必要に応じて transcribe_file を呼び出す際に自動的にオーディオを正規化します（すなわち、リサンプリング + モノチャンネル選択）。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

その他の情報

SpeechBrainについて

ウェブサイト: https://speechbrain.github.io/
コード: https://github.com/speechbrain/speechbrain/
HuggingFace: https://huggingface.co/speechbrain/

SpeechBrainの引用

SpeechBrainを研究やビジネスで使用する場合は、以下の文献を引用してください。

@article{speechbrainV1,
  author  = {Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Ha Nguyen and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Ga{{\"e}}lle Laperri{{\`e}}re and Mickael Rouvier and Renato De Mori and Yannick Est{{\`e}}ve},
  title   = {Open-Source Conversational AI with SpeechBrain 1.0},
  journal = {Journal of Machine Learning Research},
  year    = {2024},
  volume  = {25},
  number  = {333},
  pages   = {1--11},
  url     = {http://jmlr.org/papers/v25/24-0991.html}
}

モデル情報

属性	详情
モデルタイプ	Conformerを用いた自動音声認識モデル
学習データ	LargeScaleASRデータセット
評価指標	単語誤り率（WER）、文字誤り率（CER）