# 音声テキスト変換

Gemma 3n E2B GGUF
Google Gemma-3n-E2Bモデルの静的量子化バージョンで、モデルサイズとパフォーマンスのバランスを取るための複数の量子化タイプを提供します。
大規模言語モデル Transformers 英語
G
mradermacher
207
0
Qwen2 Audio 7B Instruct I1 GGUF
Apache-2.0
Qwen2-Audio-7B-Instructの重み/行列量子化モデルで、英語音声テキスト変換タスクをサポート
テキスト生成オーディオ Transformers 英語
Q
mradermacher
282
0
Qwen2 Audio 7B Instruct GGUF
Apache-2.0
Qwen2-Audio-7B-Instructモデルの静的量子化バージョンで、英語音声テキスト変換タスクをサポート
音声生成テキスト Transformers 英語
Q
mradermacher
146
0
Qwen 2 Audio Instruct Dynamic Fp8
Apache-2.0
Qwen2-AudioはQwen大規模音声言語モデルシリーズの最新バージョンで、複数の音声信号入力を処理し、音声指示に基づいて音声分析を実行したり、直接テキスト応答を生成したりできます。
テキスト生成オーディオ Transformers 英語
Q
mlinmg
24
0
Speechless Llama3.2 V0.1 I1 GGUF
Apache-2.0
これはMenlo/Speechless-llama3.2-v0.1モデルを重み付け/重要度マトリックス量子化した結果で、複数の量子化バージョンを提供します
大規模言語モデル 複数言語対応
S
mradermacher
395
0
Deepseek R1 Distill Qwen 32B Medical
DeepSeek-R1はdeepseek-aiのベースモデルを改良したバージョンで、音声テキスト変換タスクに特化しており、英語言語処理をサポートしています。
大規模言語モデル Transformers 英語
D
beita6969
455
5
Whisper Finetuned Amharic
Apache-2.0
openai/whisper-smallをベースにファインチューニングしたアムハラ語音声認識モデルで、評価データセットにおける単語誤り率は2.0538%
音声認識 Transformers
W
seyyaw
57
1
Wav2vec2 Large Xls R 300m Ru
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voice_17_0データセットでファインチューニングしたロシア語自動音声認識(ASR)モデルで、単語誤り率(WER)は0.195です。
音声認識 Transformers
W
NLPVladimir
56
1
Whisper Hindi2Hinglish Swift
Apache-2.0
Whisperアーキテクチャを基に最適化されたヒンディー語-ヒンディー英語混合音声認識モデル、インド訛りとノイズ環境向けに特別設計
音声認識 Transformers 複数言語対応
W
Oriserve
496
6
Moonshine Base ONNX
MIT
MoonshineベースモデルのONNX形式自動音声認識モデル、効率的な推論をサポート
音声認識 Transformers
M
onnx-community
1,171
29
Pathumma Llm Audio 1.0.0
Apache-2.0
Pathumma-llm-audio-1.0.0は80億パラメータのタイ語大規模言語モデルで、音声理解タスク向けに設計されており、音声、汎用音声、音楽など様々な音声入力を処理できます。
音声生成テキスト Transformers 複数言語対応
P
nectec
333
7
Whisper Large V3 Turbo
ONNX形式で最適化されたWhisper大規模音声認識モデル、ウェブ展開向けに設計
音声認識 Transformers
W
onnx-community
2,988
54
Whisper Base
WhisperはOpenAIが訓練した自動音声認識(ASR)システムで、多言語音声の文字起こしをサポートしています。
音声認識 Transformers
W
onnx-community
5,704
19
Faster Distil Whisper Large V3
MIT
Whisper Large v3の蒸留版、効率的な自動音声認識(ASR)用
音声認識 英語
F
Systran
18.55k
49
Language Detector
Apache-2.0
openai/whisper-smallをファインチューニングした言語検出モデルで、評価データセットでの精度は96.47%
音声認識 Transformers
L
fitlemon
18
1
Audio Transcribe
これはTransformersベースの自動音声認識(ASR)モデルで、音声ファイルをテキストに転写するために使用されます。
音声認識
A
washeed
257
4
Whisper Small Ml
Apache-2.0
このモデルはopenai/whisper-smallをファインチューニングした音声認識モデルで、複数の言語をサポートし、自動音声認識タスクに適しています。
音声認識 Transformers
W
kavyamanohar
23
2
Whisper Medium
Whisper MediumはOpenAIが開発した中規模の音声認識モデルで、多言語の自動音声認識(ASR)タスクをサポートしています。
音声認識 Transformers
W
Xenova
871
4
Whisper Base
WhisperはOpenAIが訓練した自動音声認識(ASR)システムで、多言語の音声テキスト変換タスクをサポートします。
音声認識 Transformers
W
Xenova
6,204
7
Speecht5 Asr
MIT
LibriSpeechデータセットでファインチューニングされたSpeechT5自動音声認識モデルで、音声をテキストに変換する機能をサポートしています。
音声認識 Transformers
S
microsoft
12.30k
41
Wav2vec2 Large 960h Lv60 Self 4 Gram Fine Tune Real 29 Jun
Apache-2.0
このモデルはfacebook/wav2vec2-large-960h-lv60-selfをuob_singlishデータセットでファインチューニングした音声認識モデルで、シンガポール英語の認識をサポートします。
音声認識 Transformers
W
RuiqianLi
105
0
Wav2vec2 Large Xls R 300m Bn Colab
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voice_9_0データセットでファインチューニングした音声認識モデルで、ベンガル語をサポートしています。
音声認識 Transformers
W
rhr99
18
0
Wav2vec2 Large Multilang Cv Ru
Apache-2.0
このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceデータセットでファインチューニングしたバージョンで、主にロシア語音声認識タスクに使用されます。
音声認識 Transformers
W
cutten
16
0
Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 6
Apache-2.0
これはwav2vec2アーキテクチャに基づくトルコ語音声認識モデルで、common_voiceデータセットでファインチューニングされています
音声認識 Transformers
W
husnu
21
0
Dansk Wav2vec21
Apache-2.0
このモデルは、Siyam/SKYLyがcommon_voiceデータセットでファインチューニングしたデンマーク語音声認識モデルです
音声認識 Transformers
D
Siyam
32
0
Wav2vec2 Vorarlbergerisch
Apache-2.0
facebook/wav2vec2-base-960hをファインチューニングしたドイツ語方言音声認識モデル、オーストリア・フォアアールベルク地方の方言認識に対応
音声認識 Transformers
W
bkh6722
21
0
Wav2vec2 Large Xls R 300m Turkish Colab
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルで、評価セットで30.95%の単語誤り率を達成しました。
音声認識 Transformers
W
dennisowusuk
15
0
Wav2vec2 Large Xlsr Open Brazilian Portuguese V2
Apache-2.0
これはブラジルポルトガル語に最適化されたWav2vec2モデルで、複数のオープンデータセットでトレーニングされ、自動音声認識タスクに使用されます。
音声認識 Transformers その他
W
lgris
1,825
18
Wav2vec2 Large Xls R 300m Turkish Colab
Apache-2.0
facebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデル
音声認識 Transformers
W
patrickvonplaten
18
1
Wav2vec2 Large Xls R 300m Turkish Colab
Apache-2.0
facebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデル
音声認識 Transformers
W
krirk
17
0
Wav2vec2 Large Xls R 300m Ar
Apache-2.0
facebook/wav2vec2-xls-r-300mをcommon_voiceアラビア語データセットでファインチューニングした音声認識モデル
音声認識 Transformers
W
ayameRushia
18
0
Bp Cetuc100 Xlsr
Apache-2.0
CETUCデータセットを使用してブラジルポルトガル語向けにファインチューニングされたWav2vec2モデル。約145時間のブラジルポルトガル語音声データでトレーニング
音声認識 Transformers その他
B
lgris
22
0
Wav2vec2 Xls R 300m Kh
これはクメール語の自動音声認識(ASR)のためのベースラインモデルで、クメール語音声認識タスクの基礎サポートを提供することを目的としています。
音声認識 Transformers
W
kongkeaouch
21
0
Wav2vec2 Large Xls R 300m Guarani Small
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたバージョンで、グアラニー語音声認識をサポートしています。
音声認識 Transformers
W
jhonparra18
20
0
Wav2vec2 Librispeech Clean 100h Demo Dist
Apache-2.0
facebook/wav2vec2-large-lv60をベースにLIBRISPEECH_ASR-CLEANデータセットでファインチューニングした音声認識モデル
音声認識 Transformers
W
patrickvonplaten
15
0
Xls R 300m Ur Cv8 Hi
Apache-2.0
これはwav2vec2アーキテクチャに基づくウルドゥー語自動音声認識モデルで、Common Voice 8.0ウルドゥー語データセットでファインチューニングされています
音声認識 Transformers その他
X
HarrisDePerceptron
16
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase