# 音声からテキストへ

Ultravox V0 5 Llama 3 2 1b GGUF
MIT
Ultravox v0.5はLlama-3 2.1Bアーキテクチャを最適化した音声テキスト変換モデルで、音声書き起こしタスクの効率的な処理に特化しています。
音声認識
U
ggml-org
421
1
Gemma 3 4b It Q4 0
Gemma 3 4B Instruct は Google が開発した40億パラメータの大規模言語モデルで、テキスト生成と理解タスクに特化しています。
大規模言語モデル
G
danchev
24
0
Whisper Small Sinhala
Apache-2.0
OpenAI Whisper-smallをファインチューニングしたシンハラ語音声認識モデル
音声認識 Transformers その他
W
Lingalingeswaran
667
2
W2V2 BERT Withlm Malayalam
MIT
facebook/w2v-bert-2.0をベースにファインチューニングしたマラヤーラム語自動音声認識モデルで、複数のマラヤーラム語データセットで訓練され、KENLMライブラリで訓練された3-gram言語モデルを使用しています。
音声認識 Transformers その他
W
vrclc
65
3
WHISPER SMALL SWAHILI ASR CV 14
Apache-2.0
このモデルは、OpenAIのWhisper largeをCommon Voice 14.0スワヒリ語(SW)データセットでファインチューニングした音声認識モデルで、単語誤り率(WER)は25.13%です。
音声認識 Transformers その他
W
dmusingu
28
2
Distil Whisper Large V3
Apache-2.0
このモデルはGGML形式のdistil-whisper/distil-large-v3-ggmlからRatchetのカスタム形式に変換されたバージョンで、主に音声認識タスクに使用されます。
音声認識
D
FL33TW00D-HF
164
4
Whisper Tiny
Apache-2.0
これはopenai/whisper-tinyのGGMLフォーマットをRatchetのカスタムフォーマットに変換したバージョンです
音声認識
W
FL33TW00D-HF
17.21k
5
Whisper Large V3 Ft Cv16 Mn
Apache-2.0
Common Voice 16.0データセットで微調整されたOpenAI Whisper Large V3モデルに基づく音声認識モデル
音声認識 Transformers
W
sanchit-gandhi
34
1
Speecht5 Tts Marathi
これはマラーティー語の音声処理用のモデルで、音声認識や音声合成タスクに関連する可能性があります。
音声認識 Transformers
S
Patil
26
0
Whisper Large V2 Spanish
Apache-2.0
OpenAI Whisper-large-v2モデルをCommon Voice 13.0スペイン語データセットでファインチューニングした音声認識モデル
音声認識 Transformers
W
Sandiago21
38
3
Mms 1b L1107
Facebookの大規模多言語音声プロジェクトにおける自動音声認識モデルで、1107言語をサポートし、Wav2Vec2アーキテクチャを基盤とし、アダプター技術を活用して多言語転写を実現しています。
音声認識 Transformers 複数言語対応
M
facebook
267
10
Whisper Small
Whisper SmallはOpenAIが開発した小型の自動音声認識(ASR)モデルで、音声をテキストに変換できます。
音声認識 Transformers
W
Xenova
1,716
9
Whisper Tiny
Whisper TinyはOpenAIがオープンソースで公開した軽量音声認識モデルで、ウェブデプロイに適しています。
音声認識 Transformers
W
Xenova
21.70k
8
Whisper Large V2 Malayalam
Apache-2.0
これはOpenAI Whisper Large V2モデルをマラヤーラム語音声認識タスク用にファインチューニングしたバージョンで、Common Voice 11.0データセットでトレーニングされています
音声認識 Transformers その他
W
DrishtiSharma
23
4
Whisper Base
Apache-2.0
Whisperは事前訓練された自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータで訓練されており、強力な汎化能力を備えています。
音声認識 複数言語対応
W
openai
491.35k
216
Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1
Apache-2.0
このモデルは、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでwav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルで、主に歌唱音声認識タスクに使用されます。
音声認識 Transformers
A
gary109
185
0
Wav2vec2 Large Xls R 300m Ta Colab
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングしたバージョンで、主にタミル語の音声認識タスクに使用されます。
音声認識 Transformers
W
AAkhilesh
24
0
Wav2vec2 Xls R 300m Mrbrown Finetune1
Apache-2.0
facebook/wav2vec2-xls-r-300m事前学習モデルをベースに、uob_singlishデータセットで微調整した音声認識モデル
音声認識 Transformers
W
RuiqianLi
18
0
84rry Xlsr 53 Arabic
Apache-2.0
このモデルは、facebook/wav2vec2-large-xlsr-53を汎用音声データセットでファインチューニングしたアラビア語音声認識モデルです
音声認識 Transformers
8
84rry
24
0
Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 4
Apache-2.0
このモデルはFacebookのwav2vec2-xls-r-300mモデルを基に、common_voiceトルコ語データセットでファインチューニングされた音声認識モデルです。
音声認識 Transformers
W
husnu
19
0
Wav2vec2 Base MIR ST500 ASR 109
Apache-2.0
facebook/wav2vec2-baseをベースにMIR_ST500データセットでファインチューニングした自動音声認識モデル
音声認識 Transformers
W
gary109
15
0
Wav2vec2 Large Xls R 300m Turkish Colab
Apache-2.0
これはFacebookのwav2vec2-xls-r-300mモデルを汎用音声データセットでファインチューニングしたトルコ語音声認識モデルです。
音声認識 Transformers
W
jekdoieao
30
0
2nd Wav2vec2 L Xls R 300m Turkish Test
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceのトルコ語データセットでファインチューニングした音声認識モデルで、評価セットで0.4444の単語誤り率を達成しました。
音声認識 Transformers
2
Khalsuu
29
0
Wav2vec2 Common Voice Accents
Apache-2.0
facebook/wav2vec2-xls-r-300mをベースにcommon_voiceデータセットで微調整した音声認識モデルで、複数のアクセント認識をサポート
音声認識 Transformers
W
willcai
24
0
Wav2vec2 Base 10k Voxpopuli Ft Fi
Facebook Wav2Vec2基本モデルに基づき、VoxPopuliコーパスの10K未ラベルサブセットで事前学習され、フィンランド語転写データでファインチューニングされた自動音声認識モデルです。
音声認識 Transformers その他
W
facebook
24
0
Wav2vec2 2 Bart Base
LibriSpeech ASR cleanデータセットでファインチューニングされたwav2vec2-baseとbart-baseに基づく音声認識モデル
音声認識 Transformers
W
patrickvonplaten
493
5
Wav2vec2 Large Xlsr 129 Turkish Colab
facebook/wav2vec2-large-xlsr-129モデルをCommon Voiceデータセットでファインチューニングしたトルコ語音声認識モデル
音声認識 Transformers
W
patrickvonplaten
16
0
Wav2vec2 Large 960h
Apache-2.0
Wav2Vec2はFacebookが開発した音声認識モデルで、自己教師あり学習により生の音声から音声表現を学習し、LibriSpeechデータセットで微調整され、高精度な音声転写を実現します。
音声認識 Transformers 英語
W
facebook
77.59k
29
Xls R Ab Spanish
これはXLS-Rダミーモデルをアブハズ語データセットで微調整した自動音声認識モデルです
音声認識 Transformers その他
X
joheras
18
0
Wav2vec2 Large Xlsr 53 Tw Gpt
Apache-2.0
facebook/wav2vec2-large-xlsr-53を台湾華語(zh-tw)でファインチューニングした音声認識モデル、16kHzサンプリングレートの音声入力をサポート
音声認識 Transformers
W
voidful
47
3
Wav2vec2 Xls R 100m Common Voice Tr Ft
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-100mをCOMMON_VOICE - TRトルコ語データセットでファインチューニングした自動音声認識(ASR)モデルです。
音声認識 Transformers その他
W
patrickvonplaten
16
0
Wav2vec2 Tiny Random
音声認識用の軽量なランダム初期化Wav2Vec2モデル、主にテストと開発目的で使用
音声認識 Transformers
W
patrickvonplaten
2,988
1
Wav2vec Osr
Apache-2.0
The Sound Of AIオープンソース研究グループの音声からテキストへのモジュール用にファインチューニングされたFacebookのwav2vec2モデル
音声認識 Transformers 英語
W
iamtarun
22
1
Waynehills STT Doogie Server
Apache-2.0
Doogie/Waynehills-STT-doogie-serverをファインチューニングした音声認識モデル
音声認識 Transformers
W
Waynehillsdev
28
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase