# 多言語音声認識

Whisper Small
Apache-2.0
Whisperは事前学習済みの自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータで訓練されており、強力な汎化能力を持っています。
音声認識 Safetensors 複数言語対応
W
unsloth
50
1
Whisper Large V3 Turbo
MIT
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、強力なゼロショット汎化能力を備えています。Turboバージョンはオリジナルのプルーニングおよび微調整バージョンで、デコード層を32層から4層に削減し、速度が大幅に向上していますが、品質はわずかに低下しています。
音声認識 Transformers 複数言語対応
W
unsloth
94
1
Whisper Large V3
Apache-2.0
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、複数言語をサポート
音声認識 Safetensors 複数言語対応
W
unsloth
4,002
1
Ipa Whisper Base
Apache-2.0
Whisper-baseをファインチューニングした多言語音声認識モデルで、国際音声記号(IPA)出力をサポート
音声認識 Safetensors 複数言語対応
I
neurlang
599
6
Quantum STT
Apache-2.0
Quantum_STT は、大規模な弱教師あり学習に基づく先進的な自動音声認識(ASR)および音声翻訳モデルで、複数の言語とタスクをサポートしています。
音声認識 Transformers 複数言語対応
Q
sbapan41
100
1
Whisper Large V3 Turbo Gguf
MIT
Whisper large-v3-turboはWhisper large-v3を基にしたプルーニングと微調整バージョンで、デコード層数を32から4に削減し、速度が大幅に向上しましたが、品質はわずかに低下しています。
音声認識 複数言語対応
W
xkeyC
546
1
Canary 180m Flash
NVIDIA NeMo Canary Flash は、英語、ドイツ語、フランス語、スペイン語の自動音声認識と翻訳タスクをサポートする多言語多機能音声モデルです。
音声認識 複数言語対応
C
nvidia
15.17k
60
Canary 1b Flash
NVIDIA NeMo Canary Flashは多言語マルチタスクモデルファミリーで、複数の音声ベンチマークで最先端の性能を実現しています。4つの言語の自動音声認識と翻訳タスクをサポートします。
音声認識 複数言語対応
C
nvidia
125.22k
186
Whisper Large V3.w4a16
Apache-2.0
これはopenai/whisper-large-v3の量子化バージョンで、INT4重み量子化とFP16活性化量子化を採用し、vLLM推論に適しています。
音声認識 Transformers 英語
W
nm-testing
20
1
Owls 4B 180K
OWLSはWhisperスタイルのモデルスイートで、研究者が音声モデルのスケーリング特性を理解するのを助けることを目的としており、多言語音声認識と翻訳をサポートします。
音声認識 その他
O
espnet
40
5
Faster Whisper Large V3 Turbo Int8 Ct2
MIT
これはOpenAI Whisper-large-v3-turboモデルのCTranslate2変換バージョンで、INT8量子化技術を採用しており、主に効率的な音声認識タスクに使用されます。
音声認識 複数言語対応
F
Zoont
123
4
Mahadhwani Pretrained Conformer
MIT
自己教師付き学習に基づく事前学習Conformerエンコーダモデルで、インドの22種類の指定言語の自動音声認識タスクをサポートします。
音声認識
M
ai4bharat
349
1
Whisper Large V3 Distil Multi4 V0.2
MIT
これは多言語蒸留版のWhisperモデルで、2つのデコーダー層を持ち、4つのヨーロッパ言語(英語、フランス語、スペイン語、ドイツ語)をサポートしています。
音声認識 Transformers 複数言語対応
W
bofenghuang
70
1
Whisper Large V3 Distil Multi7 V0.2
MIT
7つのヨーロッパ言語をサポートする多言語蒸留版Whisperモデルで、コードスイッチング機能を備えています
音声認識 Transformers 複数言語対応
W
bofenghuang
119
1
Voice Clone Large Finetune Final
Apache-2.0
このモデルはopenai/whisper-large-v3を微調整した音声クローンモデルで、主に音声認識タスクに使用され、評価データセットでの単語誤り率は15.3572です。
音声認識 Transformers
V
neuronbit
37
2
Whisper Large V3 Turbo
Apache-2.0
Whisper large-v3-turboはOpenAI Whisper large-v3の蒸留版で、デコード層を32層から4層に削減し、速度が大幅に向上しましたが品質はわずかに低下しています。
音声認識 複数言語対応
W
deepdml
883
6
Faster Whisper Large V3 Turbo Ct2
MIT
これはWhisper large-v3 turboモデルをCTranslate2形式に変換したバージョンで、効率的な自動音声認識タスクに使用されます。
音声認識 複数言語対応
F
deepdml
254.96k
128
Whisper Large V3 Turbo
MIT
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、ゼロショット設定において強力な汎化能力を発揮します。
音声認識 Transformers 複数言語対応
W
openai
4.0M
2,317
Whisperfile
Apache-2.0
Whisperは、音声認識と翻訳タスクに使用されるTransformerベースのエンコーダ-デコーダモデルで、多言語処理に対応しています。
音声認識
W
cjpais
353
9
Whisper Large V3 Gguf
Apache-2.0
Whisperは多言語自動音声認識(ASR)システムで、複数の言語の音声をテキストに変換するタスクをサポートしています。
音声認識 複数言語対応
W
vonjack
931
14
Whisper Small Uz En Ru Lang Id
Apache-2.0
Whisper-smallを微調整した多言語音声分類モデルで、ウズベク語、英語、ロシア語の音声認識と分類をサポートします。
音声分類 Transformers 複数言語対応
W
fitlemon
17
1
Owsm Ctc V3.1 1B
OWSM-CTCは、階層型マルチタスク自己条件付きCTCに基づく純粋なエンコーダー音声基盤モデルで、多言語音声認識、音声翻訳、言語識別をサポートします。
音声認識 その他
O
espnet
116
13
Whisper Large V3 Japanese 4k Steps Ct2
MIT
これはOpenAI Whisper large-v3モデルのCTranslate2変換バージョンで、特に日本語に対して4000ステップの追加トレーニングを行い、多言語音声認識をサポートしています。
音声認識 複数言語対応
W
JhonVanced
54
4
Faster Whisper Large V3 Ja
MIT
OpenAI Whisper large-v3をベースにした日本語最適化バージョン、多言語音声認識をサポート
音声認識 複数言語対応
F
JhonVanced
46
3
Canary 1b
Canary-1BはNVIDIA NeMoが開発した多言語マルチタスクモデルで、英語、ドイツ語、フランス語、スペイン語の自動音声認識と音声翻訳タスクをサポートします。
音声認識 複数言語対応
C
nvidia
7,734
421
Whisper Large V3 Ft Cv16 Mn
Apache-2.0
Common Voice 16.0データセットで微調整されたOpenAI Whisper Large V3モデルに基づく音声認識モデル
音声認識 Transformers
W
sanchit-gandhi
34
1
Multilingual Distilwhisper 28k
MIT
whisper-smallモデルをベースに改良した多言語自動音声認識モデル。CLSRモジュールと知識蒸留により対象言語の性能を向上
音声認識 Transformers その他
M
naver
47
13
Faster Whisper Tiny
MIT
OpenAI Whisperミニモデルに基づくCTranslate2変換バージョンで、効率的な音声認識に使用されます。
音声認識 複数言語対応
F
Systran
875.91k
10
Faster Whisper Base
MIT
これはOpenAI WhisperベースモデルのCTranslate2変換バージョンで、効率的な音声認識タスクに使用されます。
音声認識 複数言語対応
F
Systran
1.1M
13
Faster Whisper Medium
MIT
これはOpenAI Whisperの中規模モデルのCTranslate2変換バージョンで、効率的な音声認識タスクに使用されます。
音声認識 複数言語対応
F
Systran
155.87k
29
Faster Whisper Large V3
MIT
Whisper large-v3はOpenAIが開発した大規模多言語自動音声認識(ASR)モデルで、複数言語の音声からテキストへの変換タスクをサポートしています。
音声認識 複数言語対応
F
Systran
713.48k
376
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Lang Id Voxlingua107 Ecapa
Apache-2.0
VoxLingua107データセットでトレーニングされたECAPA-TDNNアーキテクチャの音声言語識別モデル、107言語の分類をサポート
音声分類 複数言語対応
L
apenasissso
19
0
Mms 1b Fl102
MMS-1B-FL102はFacebookの大規模多言語音声プロジェクトの一部で、102言語をサポートする自動音声認識モデルです。10億パラメータのWav2Vec2アーキテクチャを基に、アダプター技術で多言語転写を実現しています。
音声認識 Transformers 複数言語対応
M
facebook
6,360
26
Mms 1b All
Facebookの大規模多言語音声プロジェクトの一部で、1162言語の自動音声認識をサポート
音声認識 Transformers 複数言語対応
M
facebook
108.10k
140
Faster Whisper Large V1
MIT
これはOpenAI Whisper large-v1モデルのCTranslate2変換バージョンで、効率的な音声認識タスクに使用されます
音声認識 複数言語対応
F
guillaumekln
237
4
Faster Whisper Large V2
MIT
これはOpenAI Whisper large-v2モデルのCTranslate2変換バージョンで、効率的な音声認識に使用されます
音声認識 複数言語対応
F
guillaumekln
161.19k
199
Faster Whisper Medium
MIT
本プロジェクトはopenai/whisper-mediumモデルをCTranslate2モデル形式に変換し、高効率な音声認識に使用できます。
音声認識 複数言語対応
F
guillaumekln
15.17k
33
Faster Whisper Small
MIT
Transformerアーキテクチャに基づく自動音声認識(ASR)モデルで、多言語の文字起こしに対応しています。
音声認識 複数言語対応
F
guillaumekln
4,599
15
Faster Whisper Base
MIT
Whisper基礎モデルはOpenAIが開発した自動音声認識(ASR)モデルで、複数の言語の音声を文字に変換するタスクをサポートしています。
音声認識 複数言語対応
F
guillaumekln
8,493
10
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase