# 長音声処理

Whisper Large V3 Turbo
MIT
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、強力なゼロショット汎化能力を備えています。Turboバージョンはオリジナルのプルーニングおよび微調整バージョンで、デコード層を32層から4層に削減し、速度が大幅に向上していますが、品質はわずかに低下しています。
音声認識 Transformers 複数言語対応
W
unsloth
94
1
Whisper Large V3
Apache-2.0
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、複数言語をサポート
音声認識 Safetensors 複数言語対応
W
unsloth
4,002
1
Aero 1 Audio
MIT
軽量級オーディオモデル、音声認識、オーディオ理解及びオーディオ命令実行などの多様なタスクに優れる
音声生成テキスト Transformers 英語
A
lmms-lab
1,348
74
Quantum STT
Apache-2.0
Quantum_STT は、大規模な弱教師あり学習に基づく先進的な自動音声認識(ASR)および音声翻訳モデルで、複数の言語とタスクをサポートしています。
音声認識 Transformers 複数言語対応
Q
sbapan41
100
1
Whisper Large V3 Turbo Gguf
MIT
Whisper large-v3-turboはWhisper large-v3を基にしたプルーニングと微調整バージョンで、デコード層数を32から4に削減し、速度が大幅に向上しましたが、品質はわずかに低下しています。
音声認識 複数言語対応
W
xkeyC
546
1
Whisper Large V3 Vaani Hindi
Apache-2.0
OpenAIのWhisper-Large-V3モデルをファインチューニングしたヒンディー語音声認識モデルで、約718時間のヒンディー語音声データで訓練されています
音声認識 Safetensors
W
ARTPARK-IISc
15.55k
3
Whisper Large V3 Turbo
MIT
Whisper large-v3-turboはOpenAIが提案した自動音声認識および音声翻訳モデルで、大規模な弱教師あり学習に基づき、複数言語をサポートしています。
音声認識 Transformers 複数言語対応
W
Daemontatox
26
1
Chunkformer Large Vie
ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識モデルで、約3000時間のベトナム語公開音声データで微調整され、優れた性能を発揮します。
音声認識 その他
C
khanhld
1,765
12
Distil Large V3.5
MIT
Distil-WhisperはOpenAI Whisper-Large-v3の知識蒸留バージョンで、大規模な擬似ラベル訓練により高効率な音声認識を実現。
音声認識 Transformers 英語
D
distil-whisper
4,804
25
Whisper Large V3 Turbo Common Voice 19 0 Zh TW
MIT
OpenAI Whisper-large-v3-turboをファインチューニングした繁体字中国語(台湾)自動音声認識モデル
音声認識 Transformers 中国語
W
JacobLinCool
220
4
Whisper Large V3 Turbo Turkish
MIT
openai/whisper-large-v3-turboをCommon Voice 17.0データセットでファインチューニングしたトルコ語音声認識モデル
音声認識 Transformers その他
W
selimc
289
6
Whisper Large V3 Turbo
Apache-2.0
Whisper large-v3-turboはOpenAI Whisper large-v3の蒸留版で、デコード層を32層から4層に削減し、速度が大幅に向上しましたが品質はわずかに低下しています。
音声認識 複数言語対応
W
deepdml
883
6
Kotoba Whisper V2.0 Faster
MIT
CTranslate2用のWhisper音声認識モデルで、日本語に最適化されており、効率的な音声からテキストへの変換機能を提供します。
音声認識 日本語
K
kotoba-tech
202
14
Faster Whisper Large V3 Ru Podlodka Int8
Apache-2.0
これはOpenAI Whisperアーキテクチャに基づくロシア語音声認識モデルで、ロシア語音声からテキストへの変換タスクに最適化され、ctranslate2形式に変換されて推論効率が向上しています。
音声認識 その他
F
bzikst
29
3
Nb Whisper Base
Apache-2.0
ノルウェー国立図書館が開発した自動音声認識モデルで、OpenAI Whisperアーキテクチャに基づいており、ノルウェー語と英語の文字起こしをサポートします。
音声認識 Transformers
N
NbAiLab
1,629
2
Audio Transcribe
これはTransformersベースの自動音声認識(ASR)モデルで、音声ファイルをテキストに転写するために使用されます。
音声認識
A
washeed
257
4
Nb Whisper Large
Apache-2.0
ノルウェー国立図書館が開発した自動音声認識モデルで、Whisperアーキテクチャに基づいており、ノルウェー語と英語の音声文字起こしと翻訳をサポートします。
音声認識 Transformers
N
NbAiLabBeta
776
9
Whisper Tamil Large V2
Apache-2.0
OpenAI Whisper-large-v2をファインチューニングしたタミル語音声認識モデルで、複数の公開タミル語ASRコーパスでトレーニング済み
音声認識 その他
W
vasista22
325
7
Distil Small.en
MIT
Distil-WhisperはWhisperモデルの蒸留バージョンで、速度が6倍速く、サイズが49%縮小され、非分布評価セットで1% WERに近い性能を発揮します。
音声認識 Transformers 英語
D
distil-whisper
33.51k
97
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Distil Medium.en
MIT
Distil-WhisperはWhisperモデルの蒸留バージョンで、オリジナルより6倍速く、サイズが49%縮小され、英語音声認識タスクでオリジナルに近い性能を維持しています。
音声認識 英語
D
distil-whisper
186.85k
120
Distil Large V2
MIT
Distil-WhisperはWhisperモデルの蒸留版で、速度が6倍向上し、サイズが49%縮小され、非分布評価セットでの性能はWERでわずか1%の差しかありません。
音声認識 英語
D
distil-whisper
42.65k
508
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase