モデル選定

FastConformerアーキテクチャ

# FastConformerアーキテクチャ

Parakeet Tdt Ctc 0.6b Ja

このモデルはFastConformerアーキテクチャに基づく日本語自動音声認識(ASR)モデルで、NVIDIAによって開発されMLXフォーマットに変換されました。

Parakeet Tdt 0.6b V2

NVIDIA Parakeet TDT 0.6B v2 を変換したMLXフォーマットの自動音声認識モデルで、効率的な音声テキスト変換タスクをサポートします。

Stt Ru Fastconformer Hybrid Large Pc Onnx

NVIDIA FastConformer-Hybrid Large は、FastConformer アーキテクチャに基づくロシア語自動音声認識モデルで、CTC と RNN-T デコーダーをサポートしています。

Parakeet Tdt 0.6b V2

6億パラメータを持つ自動音声認識モデルで、英語の文字起こし、句読点、大文字小文字、タイムスタンプ予測をサポート

音声認識英語

Canary 180m Flash

NVIDIA NeMo Canary Flash は、英語、ドイツ語、フランス語、スペイン語の自動音声認識と翻訳タスクをサポートする多言語多機能音声モデルです。

音声認識複数言語対応

Stt Uz Fastconformer Hybrid Large Pc

これはFastConformerアーキテクチャに基づく大型ウズベク語音声認識モデルで、TransducerとCTCの二重デコードをサポートし、複数のテストセットで優れた性能を発揮します。

音声認識その他

Parakeet Tdt Ctc 0.6b Ja

Parakeet TDT-CTC 0.6Bは句読点付きの日本語音声を転写できる自動音声認識(ASR)モデルで、NVIDIA NeMoチームによって開発されました。

音声認識日本語

Canary-1BはNVIDIA NeMoが開発した多言語マルチタスクモデルで、英語、ドイツ語、フランス語、スペイン語の自動音声認識と音声翻訳タスクをサポートします。

音声認識複数言語対応

Parakeet Ctc 0.6b

Parakeet CTC 0.6BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の書き起こしをサポートします。

音声認識英語

Parakeet Rnnt 0.6b

Parakeet RNNT 0.6B は、NVIDIA NeMo と Suno.ai が共同開発した自動音声認識モデルで、FastConformer アーキテクチャを基にし、約6億のパラメータを持ち、英語音声をテキストに転写するために特別に設計されています。

音声認識英語

Parakeet Ctc 1.1b

Parakeet CTC 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャを基に約11億のパラメータを持ち、英語音声の転写をサポートします。

音声認識英語

Parakeet Rnnt 1.1b

Parakeet RNNT 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformer Transducerアーキテクチャに基づき、約11億のパラメータを持ち、英語音声の書き起こしをサポートします。

音声認識英語

Stt Fa Fastconformer Hybrid Large

これはペルシャ語の自動音声認識(ASR)向けのハイブリッドモデルで、センサーとCTCデコーダーの損失を組み合わせ、FastConformerアーキテクチャに基づいて最適化されています。

音声認識その他

Titu Stt Bn Fastconformer

FastConformerアーキテクチャに基づくベンガル語自動音声認識モデルで、約18K時間のトレーニングデータを使用し、高精度な音声からテキストへの変換をサポート

音声認識その他

Stt En Fastconformer Transducer Xlarge

NVIDIA FastConformer-Transducerは、英語の自動音声認識(ASR)向けの高性能モデルで、最適化されたFastConformerアーキテクチャとTransducerデコーダを採用し、パラメータ規模は約6.18億です。

音声認識英語

Stt En Fastconformer Ctc Xlarge

NVIDIA FastConformer-CTC XLargeは約6億パラメータの自動音声認識(ASR)モデルで、英語音声の文字起こしのために設計され、FastConformerアーキテクチャとCTC損失でトレーニングされています。

音声認識英語

Stt En Fastconformer Ctc Large

これはFastConformerアーキテクチャに基づく大規模な自動音声認識(ASR)モデルで、英語音声をテキストに転写するために特別に設計されています。

音声認識英語

Stt En Fastconformer Transducer Large

これはFastConformerアーキテクチャに基づく大規模な自動音声認識(ASR)モデルで、英語音声をテキストに転写するために特別に設計されています。

音声認識英語

Stt Ru Fastconformer Hybrid Large Pc

これはロシア語自動音声認識のためのFastConformerハイブリッドモデルで、TransducerとCTCデコーダーを組み合わせ、パラメータ規模は約1.15億です。

音声認識その他

Stt Be Fastconformer Hybrid Large Pc

これはFastConformerアーキテクチャに基づく大型のベラルーシ語自動音声認識モデルで、トランスフォーマーとCTCデコーダの損失を組み合わせ、1500時間のベラルーシ語音声データで訓練されています。

音声認識その他

Stt Ua Fastconformer Hybrid Large Pc

NVIDIA FastConformer-Hybrid Large (ua) はウクライナ語の音声認識に使用される混合モデルで、TransducerとCTCの2種類の損失関数を組み合わせて訓練され、パラメータは約1億1500万です。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase