モデル選定

高精度ASR

# 高精度ASR

Gigaam Ctc With Lm

ロシア語自動音声認識モデル、外部ngram言語モデルとビームサーチデコードをサポート、単語レベルのタイムスタンプ抽出可能

Transformers その他

waveletdeboshir

Quantum_STT は、大規模な弱教師あり学習に基づく先進的な自動音声認識（ASR）および音声翻訳モデルで、複数の言語とタスクをサポートしています。

Transformers 複数言語対応

GigaAM-v2-RNNT はロシア語自動音声認識（ASR）モデルで、RNNTアーキテクチャに基づいており、音声からテキストへの変換タスクに適しています。

Transformers その他

waveletdeboshir

GigaAM-v2-CTCはCTC損失関数でトレーニングされたロシア語自動音声認識(ASR)モデルで、Hugging Face transformersライブラリを通じて利用可能です。

Transformers その他

waveletdeboshir

Whisper Large V3 Persian Common Voice 17

Whisper Large v3をベースに微調整されたペルシア語自動音声認識モデルで、Common Voice 17データセットでトレーニングされ、250,000以上のペルシア語音声サンプルを含み、認識精度とロバスト性が大幅に向上しています。

MohammadGholizadeh

Canary 1b Flash

NVIDIA NeMo Canary Flashは多言語マルチタスクモデルファミリーで、複数の音声ベンチマークで最先端の性能を実現しています。4つの言語の自動音声認識と翻訳タスクをサポートします。

音声認識複数言語対応

Phi 4 Multimodal Instruct Ko Asr

microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。

テキスト生成オーディオ

Transformers 韓国語

Whisper Large V3

OpenAI Whisper Large v3モデルをヘブライ語向けにファインチューニングしたバージョンで、ヘブライ語音声転写タスクに特化

Transformers その他

Artst Asr V3 Qasr

QASRデータセットでファインチューニングされたアラビア語自動音声認識モデルで、特に方言変種に適しています

Transformers 複数言語対応

Vi Whisper Large V3 Turbo V1

ベトナム語自動音声認識(ASR)タスク向けに最適化されたWhisper-V3-Turboモデル、複数のベトナム語データセットでファインチューニング済み

Transformers その他

Asr Streaming Conformer Gigaspeech

GigaSpeechデータセットで事前学習された英語の自動音声認識モデルで、ストリーミングと非ストリーミングの文字起こしをサポートします。

音声認識英語

Ja Cascaded S2t Translation

これはカスケード方式に基づく日本語音声から任意のターゲット言語テキストへの翻訳パイプラインで、自動音声認識（ASR）とテキスト翻訳の2つの部分で構成されています。

Parakeet Tdt Ctc 110m

NVIDIA NeMoとSuno.aiが共同開発した英語音声認識モデルで、句読点と大文字小文字変換をサポートし、FastConformer-TDT-CTCアーキテクチャを採用

音声認識英語

Indicconformer Stt Gu Hybrid Ctc Rnnt Large

IndicConformerは、混合CTC-RNNTアーキテクチャに基づくConformer自動音声認識（ASR）モデルで、グジャラート語の音声転写に特化しています。

音声認識その他

Whisper Large V3 Ca 3catparla

これはカタルーニャ語に最適化された自動音声認識モデルで、OpenAIのWhisper-large-v3をファインチューニングしたもので、バルセロナスーパーコンピューティングセンターによって開発されました。

Transformers その他

Parakeet Tdt Ctc 0.6b Ja

Parakeet TDT-CTC 0.6Bは句読点付きの日本語音声を転写できる自動音声認識(ASR)モデルで、NVIDIA NeMoチームによって開発されました。

音声認識日本語

Asr Streaming Conformer Librispeech

これはLibriSpeechデータセットで事前学習されたエンドツーエンドの自動音声認識システムで、ストリーミングと非ストリーミングモードをサポートし、英語音声認識に適しています。

音声認識英語

Canary-1BはNVIDIA NeMoが開発した多言語マルチタスクモデルで、英語、ドイツ語、フランス語、スペイン語の自動音声認識と音声翻訳タスクをサポートします。

音声認識複数言語対応

Nb Whisper Large Verbatim

OpenAI Whisperを基に開発されたノルウェー語自動音声認識モデルで、追加トレーニングによりすべて小文字で句読点のない逐語転写を実現

音声認識複数言語対応

Whisper Large V3

WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。

音声認識複数言語対応

Indicwav2vec Odia

Wav2Vec2アーキテクチャに基づくヒンディー語自動音声認識(ASR)モデル、AI4Bharatによって開発

Transformers その他

Stt Ua Fastconformer Hybrid Large Pc

NVIDIA FastConformer-Hybrid Large (ua) はウクライナ語の音声認識に使用される混合モデルで、TransducerとCTCの2種類の損失関数を組み合わせて訓練され、パラメータは約1億1500万です。

LibriSpeechデータセットでファインチューニングされたSpeechT5自動音声認識モデルで、音声をテキストに変換する機能をサポートしています。

Whisper Th Medium Combined

openai/whisper-mediumをベースに、拡張版のタイ語データセットで微調整し、タイ語の自動音声認識に使用する。

Whisper Medium Ko Zeroth

OpenAI Whisper MediumモデルをZeroth韓国語データセットでファインチューニングした音声認識モデル、単語誤り率3.64%

Transformers 韓国語

Whisper Medium.en

WhisperはOpenAIが開発した自動音声認識（ASR）モデルで、68万時間のラベル付き音声データで訓練され、強力な汎化能力を持っています。

音声認識英語

Exp W2v2t Zh Cn Wavlm S596

microsoft/wavlm-largeモデルを基にファインチューニングした中国語音声認識モデルで、簡体字中国語をサポートし、Common Voice 7.0 (zh-CN)データセットでトレーニングされています。

Exp W2v2t Fr Unispeech S42

microsoft/unispeech-large-1500h-cvモデルをベースに、Common Voice 7.0（フランス語）データセットでファインチューニングした音声認識モデル

Transformers フランス語

Exp W2v2t It Vp 100k S449

facebook/wav2vec2-large-100k-voxpopuliモデルを基にファインチューニングしたイタリア語自動音声認識モデルで、Common Voice 7.0イタリア語データセットでトレーニングされています。

Transformers その他

Exp W2v2t It Wav2vec2 S609

facebook/wav2vec2-large-lv60モデルをベースにファインチューニングしたイタリア語自動音声認識モデル、Common Voice 7.0イタリア語データセットでトレーニング済み。

Transformers その他

Exp W2v2t Ja Vp It S544

facebook/wav2vec2-large-it-voxpopuliモデルをベースに、Common Voice 7.0（日本語版）のトレーニングセットを使用して音声認識のファインチューニングを行った日本語自動音声認識モデルです。

Transformers 日本語

Exp W2v2t Ja Unispeech Sat S884

microsoft/unispeech-sat-largeモデルをベースにファインチューニングした日本語自動音声認識モデルで、Common Voice 7.0日本語データセットでトレーニングされています。

Transformers 日本語

Exp W2v2t Ja Wavlm S729

microsoft/wavlm-largeモデルをファインチューニングした日本語自動音声認識モデル、Common Voice 7.0日本語データセットで学習

Transformers 日本語

Exp W2v2t En Unispeech Sat S459

マイクロソフトのUniSpeech-SAT-Largeモデルをファインチューニングした英語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

Transformers 英語

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1

このモデルは、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでwav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルで、主に歌唱音声認識タスクに使用されます。

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルで、評価セットで低い単語誤り率を達成しました。

Wav2vec2 Large Xlsr 53 Spanish With Lm

これはWav2Vec2-Large-XLSR-53をベースにしたスペイン語音声認識モデルで、言語モデルサポートを追加することで認識精度が大幅に向上しています。

音声認識スペイン語

patrickvonplaten

Wav2vec2 Base 10k Voxpopuli Ft Fr

Facebook Wav2Vec2アーキテクチャに基づく音声認識モデルで、VoxPopuliコーパスの10Kのラベルなしフランス語データで事前学習され、フランス語転写データでファインチューニングされています。

Transformers フランス語

Wav2vec2 Large Lv60 Timit

facebook/wav2vec2-large-lv60モデルをTIMITデータセットでファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

音声認識英語

Wav2vec2 Large Xlsr 53 Turkish

facebook/wav2vec2-large-xlsr-53をベースに、トルコ語のCommon Voiceデータセットで微調整した音声認識モデル

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase