モデル概要
モデル特徴
モデル能力
使用事例
license: cc-by-4.0 language:
- en pipeline_tag: automatic-speech-recognition library_name: nemo datasets:
- librispeech_asr
- fisher_corpus
- mozilla-foundation/common_voice_8_0
- National-Singapore-Corpus-Part-1
- vctk
- voxpopuli
- europarl
- multilingual_librispeech thumbnail: null tags:
- automatic-speech-recognition
- speech
- audio
- Transducer
- TDT
- FastConformer
- Conformer
- pytorch
- NeMo
- hf-asr-leaderboard widget:
- example_title: Librispeech sample 1 src: https://cdn-media.huggingface.co/speech_samples/sample1.flac
- example_title: Librispeech sample 2 src: https://cdn-media.huggingface.co/speech_samples/sample2.flac model-index:
- name: parakeet-tdt-0.6b-v2
results:
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: AMI (Meetings test)
type: edinburghcstr/ami
config: ihm
split: test
args:
language: en
metrics:
- name: Test WER type: wer value: 11.16
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: Earnings-22
type: revdotcom/earnings22
split: test
args:
language: en
metrics:
- name: Test WER type: wer value: 11.15
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: GigaSpeech
type: speechcolab/gigaspeech
split: test
args:
language: en
metrics:
- name: Test WER type: wer value: 9.74
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: LibriSpeech (clean)
type: librispeech_asr
config: other
split: test
args:
language: en
metrics:
- name: Test WER type: wer value: 1.69
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: LibriSpeech (other)
type: librispeech_asr
config: other
split: test
args:
language: en
metrics:
- name: Test WER type: wer value: 3.19
- task:
type: Automatic Speech Recognition
name: automatic-speech-recognition
dataset:
name: SPGI Speech
type: kensho/spgispeech
config: test
split: test
args:
language: en
metrics:
- name: Test WER type: wer value: 2.17
- task:
type: Automatic Speech Recognition
name: automatic-speech-recognition
dataset:
name: tedlium-v3
type: LIUM/tedlium
config: release1
split: test
args:
language: en
metrics:
- name: Test WER type: wer value: 3.38
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: Vox Populi
type: facebook/voxpopuli
config: en
split: test
args:
language: en
metrics:
- name: Test WER type: wer value: 5.95 metrics:
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: AMI (Meetings test)
type: edinburghcstr/ami
config: ihm
split: test
args:
language: en
metrics:
- wer
Parakeet TDT 0.6B V2 (En)
説明:
parakeet-tdt-0.6b-v2
は、高品質な英語音声認識(ASR)を目的とした6億パラメータのモデルで、句読点、大文字小文字の区別、正確なタイムスタンプ予測をサポートしています。デモはこちら: https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2
このXLバリアントのFastConformer [1]アーキテクチャはTDT [2]デコーダを統合し、フルアテンションでトレーニングされており、最大24分の音声セグメントを単一パスで効率的に文字起こしできます。バッチサイズ128でHF-Open-ASRリーダーボードのRTFx 3380を達成。注: RTFx性能はデータセットの音声長やバッチサイズによって変動する可能性があります
主な特徴
- 正確な単語レベルのタイムスタンプ予測
- 自動句読点と大文字小文字の区別
- 話された数字や歌詞の文字起こしに強い性能
詳細はモデルアーキテクチャセクションとNeMoドキュメントを参照。
このモデルは商用/非商用利用可能です。
ライセンス/利用規約:
使用条件: このモデルの使用はCC-BY-4.0ライセンスに準拠します。
展開地域:
全世界
使用ケース:
このモデルは、音声テキスト変換機能を必要とするアプリケーションを構築する開発者、研究者、学界、産業界向けです。具体的には、会話型AI、音声アシスタント、文字起こしサービス、字幕生成、音声分析プラットフォームなどが含まれます。
リリース日:
2025年05月01日
モデルアーキテクチャ:
アーキテクチャタイプ:
FastConformer-TDT
ネットワークアーキテクチャ:
- このモデルはFastConformerエンコーダアーキテクチャ[1]とTDTデコーダ[2]に基づいて開発
- 6億のモデルパラメータを有する
入力:
- 入力タイプ: 16kHz音声
- 入力形式:
.wav
および.flac
音声形式 - 入力パラメータ: 1D(音声信号)
- その他の入力関連プロパティ: モノラル音声
出力:
- 出力タイプ: テキスト
- 出力形式: 文字列
- 出力パラメータ: 1D(テキスト)
- その他の出力関連プロパティ: 句読点と大文字小文字を含む
当社のAIモデルは、NVIDIA GPUアクセラレータシステムで動作するように設計/最適化されています。NVIDIAのハードウェア(例: GPUコア)とソフトウェアフレームワーク(例: CUDAライブラリ)を活用することで、CPUのみのソリューションと比較して高速なトレーニングと推論を実現します。
このモデルの使用方法:
モデルのトレーニング、ファインチューニング、または操作にはNVIDIA NeMoのインストールが必要です。最新のPyTorchバージョンをインストールした後にインストールすることを推奨します。
pip install -U nemo_toolkit["asr"]
このモデルはNeMoツールキット[3]で利用可能で、推論用の事前トレーニング済みチェックポイントとして、または他のデータセットでのファインチューニングに使用できます。
自動的にモデルをインスタンス化
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
Pythonを使用した文字起こし
まず、サンプルを取得
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
その後、単純に実行:
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
タイムスタンプ付き文字起こし
タイムスタンプ付きで文字起こし:
output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# デフォルトで、文字、単語、セグメントレベルのタイムスタンプが有効
word_timestamps = output[0].timestamp['word'] # 最初のサンプルの単語レベルタイムスタンプ
segment_timestamps = output[0].timestamp['segment'] # セグメントレベルタイムスタンプ
char_timestamps = output[0].timestamp['char'] # 文字レベルタイムスタンプ
for stamp in segment_timestamps:
print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")
ソフトウェア統合:
ランタイムエンジン:
- NeMo 2.2
サポート対象ハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Volta
[推奨/サポート] オペレーティングシステム:
- Linux
ハードウェア固有要件:
モデル読み込みには最低2GBのRAMが必要。RAMが大きいほど、より長い音声入力をサポート。
モデルバージョン
現在のバージョン: parakeet-tdt-0.6b-v2。以前のバージョンはこちらからアクセス可能。
トレーニングと評価データセット:
トレーニング
このモデルはNeMoツールキット[3]を使用して以下の戦略でトレーニング:
- LibriLightデータセット[7]でwav2vecメソッドを使用して事前トレーニングされたFastConformer SSLチェックポイントから初期化
- 64台のA100 GPUで150,000ステップトレーニング
- データセットコーパスは温度サンプリング値0.5でバランス調整
- ステージ2のファインチューニングは、NeMo ASR Set 3.0の約500時間の高品質な人手による文字起こしデータを使用し、4台のA100 GPUで2,500ステップ実行
トレーニングはこのサンプルスクリプトとTDT設定を使用して実施。
トークナイザーはトレーニングセットの文字起こしからこのスクリプトを使用して構築。
トレーニングデータセット
このモデルは約120,000時間の英語音声データからなるGranaryデータセットでトレーニング:
-
NeMo ASR Set 3.0からの10,000時間(人手による文字起こし):
- LibriSpeech (960時間)
- Fisher Corpus
- National Speech Corpus Part 1
- VCTK
- VoxPopuli (英語)
- Europarl-ASR (英語)
- Multilingual LibriSpeech (MLS 英語) – 2,000時間サブセット
- Mozilla Common Voice (v7.0)
- AMI
-
擬似ラベルデータからの110,000時間:
- YTC (YouTube-Commons) データセット[4]
- YODAS データセット [5]
- Librilight [7]
すべての文字起こしは句読点と大文字小文字を保持。GranaryデータセットはInterspeech 2025発表後に公開予定。
データ収集方法(データセット別)
- ハイブリッド: 自動化、人手
ラベリング方法(データセット別)
- ハイブリッド: 合成、人手
プロパティ:
- 様々なソースからのノイズに強いデータ
- 単一チャンネル、16kHzサンプリングデータ
評価データセット
Huggingface Open ASRリーダーボードデータセットを使用してこのモデルの性能を評価。
データ収集方法(データセット別)
- 人手
ラベリング方法(データセット別)
- 人手
プロパティ:
- すべて英語ASRシステムのベンチマークに一般的に使用。
- 音声データは通常、Open ASRリーダーボードのようなベンチマークと一致するように16kHzモノチャンネル形式に処理。
性能
Huggingface Open-ASR-リーダーボード性能
自動音声認識(ASR)モデルの性能は単語誤り率(WER)で測定。このモデルは多様なドメインにわたる大規模で多様なデータセットでトレーニングされているため、一般的にさまざまなタイプの音声に対してより堅牢で正確です。
基本性能
以下の表は、外部言語モデルなしの貪欲デコード(Transducerデコーダ)を使用したWER(%)をまとめたものです:
モデル | 平均WER | AMI | Earnings-22 | GigaSpeech | LS test-clean | LS test-other | SPGI Speech | TEDLIUM-v3 | VoxPopuli |
---|---|---|---|---|---|---|---|---|---|
parakeet-tdt-0.6b-v2 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 |
ノイズ耐性
MUSANの音楽とノイズサンプルを使用したさまざまな信号対雑音比(SNR)での性能:
SNRレベル | 平均WER | AMI | Earnings | GigaSpeech | LS test-clean | LS test-other | SPGI | Tedlium | VoxPopuli | 相対変化 |
---|---|---|---|---|---|---|---|---|---|---|
クリーン | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
SNR 50 | 6.04 | 11.11 | 11.12 | 9.74 | 1.70 | 3.18 | 2.18 | 3.34 | 5.98 | +0.25% |
SNR 25 | 6.50 | 12.76 | 11.50 | 9.98 | 1.78 | 3.63 | 2.54 | 3.46 | 6.34 | -7.04% |
SNR 5 | 8.39 | 19.33 | 13.83 | 11.28 | 2.36 | 5.50 | 3.91 | 3.91 | 6.96 | -38.11% |
電話音声性能
標準16kHz音声と電話スタイル音声(μ-lawエンコーディング、16kHz→8kHz→16kHz変換使用)の性能比較:
音声形式 | 平均WER | AMI | Earnings | GigaSpeech | LS test-clean | LS test-other | SPGI | Tedlium | VoxPopuli | 相対変化 |
---|---|---|---|---|---|---|---|---|---|---|
標準16kHz | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
μ-law 8kHz | 6.32 | 11.98 | 11.16 | 10.02 | 1.78 | 3.52 | 2.20 | 3.38 | 6.52 | -4.10% |
これらのWERスコアは、外部言語モデルなしの貪欲デコードで取得。追加の評価詳細はHugging Face ASRリーダーボードで利用可能。[6]



