モデル選定

長音声処理

# 長音声処理

Whisper Large V3 Turbo

WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、強力なゼロショット汎化能力を備えています。Turboバージョンはオリジナルのプルーニングおよび微調整バージョンで、デコード層を32層から4層に削減し、速度が大幅に向上していますが、品質はわずかに低下しています。

Transformers 複数言語対応

Whisper Large V3

WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、複数言語をサポート

Safetensors 複数言語対応

軽量級オーディオモデル、音声認識、オーディオ理解及びオーディオ命令実行などの多様なタスクに優れる

音声生成テキスト

Transformers 英語

Quantum_STT は、大規模な弱教師あり学習に基づく先進的な自動音声認識（ASR）および音声翻訳モデルで、複数の言語とタスクをサポートしています。

Transformers 複数言語対応

Whisper Large V3 Turbo Gguf

Whisper large-v3-turboはWhisper large-v3を基にしたプルーニングと微調整バージョンで、デコード層数を32から4に削減し、速度が大幅に向上しましたが、品質はわずかに低下しています。

音声認識複数言語対応

Whisper Large V3 Vaani Hindi

OpenAIのWhisper-Large-V3モデルをファインチューニングしたヒンディー語音声認識モデルで、約718時間のヒンディー語音声データで訓練されています

Whisper Large V3 Turbo

Whisper large-v3-turboはOpenAIが提案した自動音声認識および音声翻訳モデルで、大規模な弱教師あり学習に基づき、複数言語をサポートしています。

Transformers 複数言語対応

Chunkformer Large Vie

ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識モデルで、約3000時間のベトナム語公開音声データで微調整され、優れた性能を発揮します。

音声認識その他

Distil Large V3.5

Distil-WhisperはOpenAI Whisper-Large-v3の知識蒸留バージョンで、大規模な擬似ラベル訓練により高効率な音声認識を実現。

Transformers 英語

Whisper Large V3 Turbo Common Voice 19 0 Zh TW

OpenAI Whisper-large-v3-turboをファインチューニングした繁体字中国語（台湾）自動音声認識モデル

Transformers 中国語

Whisper Large V3 Turbo Turkish

openai/whisper-large-v3-turboをCommon Voice 17.0データセットでファインチューニングしたトルコ語音声認識モデル

Transformers その他

Whisper Large V3 Turbo

Whisper large-v3-turboはOpenAI Whisper large-v3の蒸留版で、デコード層を32層から4層に削減し、速度が大幅に向上しましたが品質はわずかに低下しています。

音声認識複数言語対応

Kotoba Whisper V2.0 Faster

CTranslate2用のWhisper音声認識モデルで、日本語に最適化されており、効率的な音声からテキストへの変換機能を提供します。

音声認識日本語

Faster Whisper Large V3 Ru Podlodka Int8

これはOpenAI Whisperアーキテクチャに基づくロシア語音声認識モデルで、ロシア語音声からテキストへの変換タスクに最適化され、ctranslate2形式に変換されて推論効率が向上しています。

音声認識その他

Nb Whisper Base

ノルウェー国立図書館が開発した自動音声認識モデルで、OpenAI Whisperアーキテクチャに基づいており、ノルウェー語と英語の文字起こしをサポートします。

Audio Transcribe

これはTransformersベースの自動音声認識(ASR)モデルで、音声ファイルをテキストに転写するために使用されます。

Nb Whisper Large

ノルウェー国立図書館が開発した自動音声認識モデルで、Whisperアーキテクチャに基づいており、ノルウェー語と英語の音声文字起こしと翻訳をサポートします。

Whisper Tamil Large V2

OpenAI Whisper-large-v2をファインチューニングしたタミル語音声認識モデルで、複数の公開タミル語ASRコーパスでトレーニング済み

音声認識その他

Distil Small.en

Distil-WhisperはWhisperモデルの蒸留バージョンで、速度が6倍速く、サイズが49%縮小され、非分布評価セットで1% WERに近い性能を発揮します。

Transformers 英語

Whisper Large V3

WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。

音声認識複数言語対応

Distil Medium.en

Distil-WhisperはWhisperモデルの蒸留バージョンで、オリジナルより6倍速く、サイズが49%縮小され、英語音声認識タスクでオリジナルに近い性能を維持しています。

音声認識英語

Distil Large V2

Distil-WhisperはWhisperモデルの蒸留版で、速度が6倍向上し、サイズが49%縮小され、非分布評価セットでの性能はWERでわずか1%の差しかありません。

音声認識英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase