ホーム

Parakeet Tdt 0.6b V2

nvidiaによって開発

6億パラメータを持つ自動音声認識モデルで、英語の文字起こし、句読点、大文字小文字、タイムスタンプ予測をサポート

音声認識

PyTorch

英語#長音声文字起こし #単語レベルのタイムスタンプ #句読点と大文字小文字の予測

ダウンロード数 242.71k

リリース時間 : 4/15/2025

モデル概要

Parakeet TDT 0.6B V2は高品質な自動音声認識(ASR)モデルで、英語の文字起こし用に設計されており、正確なタイムスタンプ予測、自動句読点と大文字小文字処理をサポートします。

モデル特徴

正確なタイムスタンプ予測

単語レベル、文字レベル、セグメントレベルのタイムスタンプ予測をサポート

自動句読点と大文字小文字

文字起こしテキストの句読点と大文字小文字を自動処理

長音声処理能力

最大24分間の音声を一度に処理可能

頑健な性能

話し言葉の数字や歌詞の文字起こしで安定した性能を発揮

モデル能力

音声からテキストへの変換

タイムスタンプ予測

句読点復元

大文字小文字復元

使用事例

対話型AI

音声アシスタント

音声インタラクションをサポートするスマートアシスタントの構築

文字起こしサービス

会議議事録

会議音声の自動文字起こし

AMIテストセットでWER11.16

字幕生成

動画コンテンツの自動字幕生成

音声分析

音声データ分析

音声データを分析してインサイトを抽出

license: cc-by-4.0 language:

en pipeline_tag: automatic-speech-recognition library_name: nemo datasets:
librispeech_asr
fisher_corpus
mozilla-foundation/common_voice_8_0
National-Singapore-Corpus-Part-1
vctk
voxpopuli
europarl
multilingual_librispeech thumbnail: null tags:
automatic-speech-recognition
speech
audio
Transducer
TDT
FastConformer
Conformer
pytorch
NeMo
hf-asr-leaderboard widget:
example_title: Librispeech sample 1 src: https://cdn-media.huggingface.co/speech_samples/sample1.flac
example_title: Librispeech sample 2 src: https://cdn-media.huggingface.co/speech_samples/sample2.flac model-index:
name: parakeet-tdt-0.6b-v2 results:
- task: name: Automatic Speech Recognition type: automatic-speech-recognition dataset: name: AMI (Meetings test) type: edinburghcstr/ami config: ihm split: test args: language: en metrics:
  - name: Test WER type: wer value: 11.16
- task: name: Automatic Speech Recognition type: automatic-speech-recognition dataset: name: Earnings-22 type: revdotcom/earnings22 split: test args: language: en metrics:
  - name: Test WER type: wer value: 11.15
- task: name: Automatic Speech Recognition type: automatic-speech-recognition dataset: name: GigaSpeech type: speechcolab/gigaspeech split: test args: language: en metrics:
  - name: Test WER type: wer value: 9.74
- task: name: Automatic Speech Recognition type: automatic-speech-recognition dataset: name: LibriSpeech (clean) type: librispeech_asr config: other split: test args: language: en metrics:
  - name: Test WER type: wer value: 1.69
- task: name: Automatic Speech Recognition type: automatic-speech-recognition dataset: name: LibriSpeech (other) type: librispeech_asr config: other split: test args: language: en metrics:
  - name: Test WER type: wer value: 3.19
- task: type: Automatic Speech Recognition name: automatic-speech-recognition dataset: name: SPGI Speech type: kensho/spgispeech config: test split: test args: language: en metrics:
  - name: Test WER type: wer value: 2.17
- task: type: Automatic Speech Recognition name: automatic-speech-recognition dataset: name: tedlium-v3 type: LIUM/tedlium config: release1 split: test args: language: en metrics:
  - name: Test WER type: wer value: 3.38
- task: name: Automatic Speech Recognition type: automatic-speech-recognition dataset: name: Vox Populi type: facebook/voxpopuli config: en split: test args: language: en metrics:
  - name: Test WER type: wer value: 5.95 metrics:
wer

Parakeet TDT 0.6B V2 (En)

| |

説明:

parakeet-tdt-0.6b-v2は、高品質な英語音声認識（ASR）を目的とした6億パラメータのモデルで、句読点、大文字小文字の区別、正確なタイムスタンプ予測をサポートしています。デモはこちら: https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

このXLバリアントのFastConformer [1]アーキテクチャはTDT [2]デコーダを統合し、フルアテンションでトレーニングされており、最大24分の音声セグメントを単一パスで効率的に文字起こしできます。バッチサイズ128でHF-Open-ASRリーダーボードのRTFx 3380を達成。注: RTFx性能はデータセットの音声長やバッチサイズによって変動する可能性があります

主な特徴

正確な単語レベルのタイムスタンプ予測
自動句読点と大文字小文字の区別
話された数字や歌詞の文字起こしに強い性能

詳細はモデルアーキテクチャセクションとNeMoドキュメントを参照。

このモデルは商用/非商用利用可能です。

ライセンス/利用規約:

使用条件: このモデルの使用はCC-BY-4.0ライセンスに準拠します。

展開地域:

全世界

使用ケース:

このモデルは、音声テキスト変換機能を必要とするアプリケーションを構築する開発者、研究者、学界、産業界向けです。具体的には、会話型AI、音声アシスタント、文字起こしサービス、字幕生成、音声分析プラットフォームなどが含まれます。

リリース日:

2025年05月01日

モデルアーキテクチャ:

アーキテクチャタイプ:

FastConformer-TDT

ネットワークアーキテクチャ:

このモデルはFastConformerエンコーダアーキテクチャ[1]とTDTデコーダ[2]に基づいて開発
6億のモデルパラメータを有する

入力:

入力タイプ: 16kHz音声
入力形式: .wavおよび.flac音声形式
入力パラメータ: 1D（音声信号）
その他の入力関連プロパティ: モノラル音声

出力:

出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: 1D（テキスト）
その他の出力関連プロパティ: 句読点と大文字小文字を含む

当社のAIモデルは、NVIDIA GPUアクセラレータシステムで動作するように設計/最適化されています。NVIDIAのハードウェア（例: GPUコア）とソフトウェアフレームワーク（例: CUDAライブラリ）を活用することで、CPUのみのソリューションと比較して高速なトレーニングと推論を実現します。

このモデルの使用方法:

モデルのトレーニング、ファインチューニング、または操作にはNVIDIA NeMoのインストールが必要です。最新のPyTorchバージョンをインストールした後にインストールすることを推奨します。

pip install -U nemo_toolkit["asr"]

このモデルはNeMoツールキット[3]で利用可能で、推論用の事前トレーニング済みチェックポイントとして、または他のデータセットでのファインチューニングに使用できます。

自動的にモデルをインスタンス化

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

Pythonを使用した文字起こし

まず、サンプルを取得

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

その後、単純に実行:

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

タイムスタンプ付き文字起こし

タイムスタンプ付きで文字起こし:

output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# デフォルトで、文字、単語、セグメントレベルのタイムスタンプが有効
word_timestamps = output[0].timestamp['word'] # 最初のサンプルの単語レベルタイムスタンプ
segment_timestamps = output[0].timestamp['segment'] # セグメントレベルタイムスタンプ
char_timestamps = output[0].timestamp['char'] # 文字レベルタイムスタンプ

for stamp in segment_timestamps:
    print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")

ソフトウェア統合:

ランタイムエンジン:

NeMo 2.2

サポート対象ハードウェアマイクロアーキテクチャ互換性:

NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Hopper
NVIDIA Volta

[推奨/サポート] オペレーティングシステム:

Linux

ハードウェア固有要件:

モデル読み込みには最低2GBのRAMが必要。RAMが大きいほど、より長い音声入力をサポート。

モデルバージョン

現在のバージョン: parakeet-tdt-0.6b-v2。以前のバージョンはこちらからアクセス可能。

トレーニングと評価データセット:

トレーニング

このモデルはNeMoツールキット[3]を使用して以下の戦略でトレーニング:

LibriLightデータセット[7]でwav2vecメソッドを使用して事前トレーニングされたFastConformer SSLチェックポイントから初期化
64台のA100 GPUで150,000ステップトレーニング
データセットコーパスは温度サンプリング値0.5でバランス調整
ステージ2のファインチューニングは、NeMo ASR Set 3.0の約500時間の高品質な人手による文字起こしデータを使用し、4台のA100 GPUで2,500ステップ実行

トレーニングはこのサンプルスクリプトとTDT設定を使用して実施。

トークナイザーはトレーニングセットの文字起こしからこのスクリプトを使用して構築。

トレーニングデータセット

このモデルは約120,000時間の英語音声データからなるGranaryデータセットでトレーニング:

NeMo ASR Set 3.0からの10,000時間（人手による文字起こし）:
- LibriSpeech (960時間)
- Fisher Corpus
- National Speech Corpus Part 1
- VCTK
- VoxPopuli (英語)
- Europarl-ASR (英語)
- Multilingual LibriSpeech (MLS 英語) – 2,000時間サブセット
- Mozilla Common Voice (v7.0)
- AMI
擬似ラベルデータからの110,000時間:
- YTC (YouTube-Commons) データセット[4]
- YODAS データセット [5]
- Librilight [7]

すべての文字起こしは句読点と大文字小文字を保持。GranaryデータセットはInterspeech 2025発表後に公開予定。

データ収集方法（データセット別）

ハイブリッド: 自動化、人手

ラベリング方法（データセット別）

ハイブリッド: 合成、人手

プロパティ:

様々なソースからのノイズに強いデータ
単一チャンネル、16kHzサンプリングデータ

評価データセット

Huggingface Open ASRリーダーボードデータセットを使用してこのモデルの性能を評価。

データ収集方法（データセット別）

人手

ラベリング方法（データセット別）

人手

プロパティ:

すべて英語ASRシステムのベンチマークに一般的に使用。
音声データは通常、Open ASRリーダーボードのようなベンチマークと一致するように16kHzモノチャンネル形式に処理。

性能

Huggingface Open-ASR-リーダーボード性能

自動音声認識（ASR）モデルの性能は単語誤り率（WER）で測定。このモデルは多様なドメインにわたる大規模で多様なデータセットでトレーニングされているため、一般的にさまざまなタイプの音声に対してより堅牢で正確です。

基本性能

以下の表は、外部言語モデルなしの貪欲デコード（Transducerデコーダ）を使用したWER（%）をまとめたものです:

モデル	平均WER	AMI	Earnings-22	GigaSpeech	LS test-clean	LS test-other	SPGI Speech	TEDLIUM-v3	VoxPopuli
parakeet-tdt-0.6b-v2	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95

ノイズ耐性

MUSANの音楽とノイズサンプルを使用したさまざまな信号対雑音比（SNR）での性能:

SNRレベル	平均WER	AMI	Earnings	GigaSpeech	LS test-clean	LS test-other	SPGI	Tedlium	VoxPopuli	相対変化
クリーン	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95	-
SNR 50	6.04	11.11	11.12	9.74	1.70	3.18	2.18	3.34	5.98	+0.25%
SNR 25	6.50	12.76	11.50	9.98	1.78	3.63	2.54	3.46	6.34	-7.04%
SNR 5	8.39	19.33	13.83	11.28	2.36	5.50	3.91	3.91	6.96	-38.11%