モデル選定

英語音声書き起こし

# 英語音声書き起こし

Parakeet Ctc 0.6b

Parakeet CTC 0.6BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の書き起こしをサポートします。

音声認識英語

Parakeet Rnnt 1.1b

Parakeet RNNT 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformer Transducerアーキテクチャに基づき、約11億のパラメータを持ち、英語音声の書き起こしをサポートします。

音声認識英語

Assignment1 Joane

自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデル

Transformers 英語

Classroom-workshop

Assignment1 Jane

s2t-small-librispeech-asr は、自動音声認識（ASR）のための音声からテキストへの変換器（S2T）モデルで、シーケンス・ツー・シーケンス変換器アーキテクチャに基づいています。

Transformers 英語

Classroom-workshop

Wav2vec2 Large 960h Lv60 Self 4 Gram

FacebookのWav2Vec2-Large-960h-lv60-selfモデルを基に、英語4-gram言語モデルを追加して音声認識精度を向上

音声認識英語

patrickvonplaten

Wav2vec2 Large 960h Lv60 Self

Facebookが開発したWav2Vec2の大規模モデルで、960時間のLibri-LightとLibrispeechの音声データを基に事前学習と微調整を行い、自己学習目標を採用し、LibriSpeechテストセットでSOTAの結果を達成しました。

音声認識英語

Wav2vec2 Tiny Random Robust

Wav2Vec2アーキテクチャのランダム初期化バージョンに基づく、ロバスト性テスト用に設計された軽量級の自動音声認識（ASR）モデルです。

Transformers 英語

patrickvonplaten

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase