Whisper Small Vi
MIT
openai/whisper-smallをベースにベトナム語音声データ向けにファインチューニングした自動音声認識モデルで、ベトナム語の文字起こし精度と頑健性を向上
音声認識
Transformers その他

W
namphungdn134
334
2
Faster Distil Whisper Large V3.5
MIT
Distil-WhisperはWhisperモデルの蒸留版で、自動音声認識(ASR)タスク向けに最適化され、より高速な推論を提供します。
音声認識 英語
F
Purfview
565
2
Faster Distil Whisper Large V3.5
MIT
Distil-Whisper large-v3.5を変換したCTranslate2フォーマットモデルで、効率的な音声認識に使用
音声認識 英語
F
deepdml
58.15k
2
Whisper Large V3 Turbo Gguf
MIT
Whisper large-v3-turboはWhisper large-v3を基にしたプルーニングと微調整バージョンで、デコード層数を32から4に削減し、速度が大幅に向上しましたが、品質はわずかに低下しています。
音声認識 複数言語対応
W
xkeyC
546
1
Whisper Base Vi
MIT
openai/whisper-baseモデルを100時間のベトナム語音声データでファインチューニングした音声認識モデルで、ベトナム語文字起こしの精度を向上
音声認識
Transformers その他

W
namphungdn134
215
3
Distil Large V3.5 Ct2
MIT
Distil-WhisperはWhisperモデルの蒸留版で、大規模な擬似ラベル技術により高効率な音声認識を実現
音声認識 英語
D
distil-whisper
264
3
Whisper Small Sinhala
Apache-2.0
OpenAI Whisper-smallをファインチューニングしたシンハラ語音声認識モデル
音声認識
Transformers その他

W
Lingalingeswaran
667
2
Moonshine Base ONNX
MIT
MoonshineベースモデルのONNX形式自動音声認識モデル、効率的な推論をサポート
音声認識
Transformers

M
onnx-community
1,171
29
Moonshine Tiny ONNX
MIT
Moonshine Tinyは軽量な自動音声認識(ASR)モデルで、組み込みデバイスやエッジコンピューティングシナリオに適しています。
音声認識
Transformers

M
onnx-community
60
6
Whisper Large V3 Distil Multi4 V0.2
MIT
これは多言語蒸留版のWhisperモデルで、2つのデコーダー層を持ち、4つのヨーロッパ言語(英語、フランス語、スペイン語、ドイツ語)をサポートしています。
音声認識
Transformers 複数言語対応

W
bofenghuang
70
1
Whisper Medium Vaani Telugu
MIT
OpenAI Whisper-smallアーキテクチャを基にしたテルグ語自動音声認識モデル。ARTPARK-IIScチームによりインド言語向けに最適化
音声認識 その他
W
ARTPARK-IISc
26
1
Moonshine Base
MIT
MoonshineはUseful Sensorsが開発した自動音声認識(ASR)モデルシリーズで、英語音声の文字起こしに特化しており、リソースが制限されたプラットフォームで優れた性能を発揮します。
音声認識
Transformers 英語

M
UsefulSensors
6,857
32
Moonshine Tiny
MIT
月光モデルはUseful Sensorsによって開発された自動音声認識(ASR)モデルで、リソースが制限されたデバイス上で効率的な英語音声の文字起こしを実現することに焦点を当てています。
音声認識
Transformers 英語

M
UsefulSensors
7,848
16
Whisper Tiny Chinese
Apache-2.0
OpenAI Whisper TinyモデルをCommon Voice 11.0中国語データセットでファインチューニングした音声認識モデル
音声認識
Transformers 中国語

W
jethrowang
99
1
Whisper Base.en
WhisperはOpenAIが訓練した汎用音声認識モデルです。大規模な弱教師あり学習に基づいており、複数言語の音声転写をサポートします。
音声認識
Transformers

W
onnx-community
76
1
Whisper Base
WhisperはOpenAIが訓練した自動音声認識(ASR)システムで、多言語音声の文字起こしをサポートしています。
音声認識
Transformers

W
onnx-community
5,704
19
Faster Distil Whisper Large V3
MIT
Whisper Large v3の蒸留版、効率的な自動音声認識(ASR)用
音声認識 英語
F
Systran
18.55k
49
Distil Whisper Large V3
Apache-2.0
このモデルはGGML形式のdistil-whisper/distil-large-v3-ggmlからRatchetのカスタム形式に変換されたバージョンで、主に音声認識タスクに使用されます。
音声認識
D
FL33TW00D-HF
164
4
Distil Large V3 Ct2
MIT
Distil-WhisperはWhisperモデルの蒸留版で、長文文字起こしに最適化されており、より高速な推論と高い単語誤り率(WER)性能を提供します。
音声認識 英語
D
distil-whisper
58
6
Nue Asr
Apache-2.0
Nue ASRはエンドツーエンドの日本語音声認識モデルで、事前学習された音声と言語モデルを統合し、認識精度が高く高速です。
音声認識
Transformers 複数言語対応

N
rinna
722
24
Faster Whisper Tiny
MIT
OpenAI Whisperミニモデルに基づくCTranslate2変換バージョンで、効率的な音声認識に使用されます。
音声認識 複数言語対応
F
Systran
875.91k
10
Whisper Large V3
Whisper-large-v3はOpenAIがオープンソースで公開した自動音声認識(ASR)モデルで、複数の言語の音声を文字に変換するタスクに対応しています。
音声認識
Transformers

W
Xenova
1,443
9
Distil Medium.en
MIT
Distil-WhisperはWhisperモデルの蒸留バージョンで、オリジナルより6倍速く、サイズが49%縮小され、英語音声認識タスクでオリジナルに近い性能を維持しています。
音声認識 英語
D
distil-whisper
186.85k
120
Whisper Small Ml
Apache-2.0
このモデルはopenai/whisper-smallをファインチューニングした音声認識モデルで、複数の言語をサポートし、自動音声認識タスクに適しています。
音声認識
Transformers

W
kavyamanohar
23
2
Whisper Small Turkish Tr Best
Apache-2.0
OpenAI Whisper-smallを微調整したトルコ語音声認識モデル、単語誤り率26.34%
音声認識
Transformers

W
erenfazlioglu
61
4
Whisper Medium
Whisper MediumはOpenAIが開発した中規模の音声認識モデルで、多言語の自動音声認識(ASR)タスクをサポートしています。
音声認識
Transformers

W
Xenova
871
4
Whisper Small
Whisper SmallはOpenAIが開発した小型の自動音声認識(ASR)モデルで、音声をテキストに変換できます。
音声認識
Transformers

W
Xenova
1,716
9
Whisper Base
WhisperはOpenAIが訓練した自動音声認識(ASR)システムで、多言語の音声テキスト変換タスクをサポートします。
音声認識
Transformers

W
Xenova
6,204
7
Faster Whisper Small
MIT
Transformerアーキテクチャに基づく自動音声認識(ASR)モデルで、多言語の文字起こしに対応しています。
音声認識 複数言語対応
F
guillaumekln
4,599
15
Faster Whisper Base
MIT
Whisper基礎モデルはOpenAIが開発した自動音声認識(ASR)モデルで、複数の言語の音声を文字に変換するタスクをサポートしています。
音声認識 複数言語対応
F
guillaumekln
8,493
10
Whisper Medium Arabic
Apache-2.0
openai/whisper-mediumを微調整したアラビア語音声認識モデルで、ストリーミング処理に対応しています。
音声認識
Transformers

W
Seyfelislem
1,832
5
Wav2vec2 Base 960h Finetuned Common Voice3
Apache-2.0
facebook/wav2vec2-base-960hをファインチューニングした音声認識モデルで、汎用音声認識タスクに適しています
音声認識
Transformers

W
obokkkk
20
0
Wav2vec2 Live Japanese
Apache-2.0
facebook/wav2vec2-large-xlsr-53を微調整した日本語音声認識モデルで、平仮名出力に対応しています。
音声認識
Transformers 日本語

W
ttop324
20
4
Wav2vec2 Large Xls R 300m Urdu
Apache-2.0
これはfacebook/wav2vec2 - xls - r - 300mをベースに、ウルドゥー語Common Voice 7データセットで微調整された自動音声認識モデルです。
音声認識
Transformers その他

W
infinitejoy
15
0
Wav2vec2 Speechdat
Apache-2.0
このモデルは、facebook/wav2vec2-large-xlsr-53をベースに、COMMON_VOICE - SV-SEデータセットで微調整されたスウェーデン語自動音声認識モデルです。
音声認識
Transformers

W
birgermoell
29
0
Waynehills STT Doogie Server
Apache-2.0
Doogie/Waynehills-STT-doogie-serverをファインチューニングした音声認識モデル
音声認識
Transformers

W
Waynehillsdev
28
0
Distil Wav2vec2
Apache-2.0
Distil-wav2vec2はwav2vec2モデルの蒸留バージョンで、サイズが45%縮小され、推論速度が2倍に向上し、自動音声認識タスクに適しています。
音声認識
Transformers 英語

D
OthmaneJ
854
11
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98