# 高精度音声認識

Whisper Kurmanji
Apache-2.0
クルド語のクルマンジ方言に特化した自動音声認識モデルで、Whisperアーキテクチャを微調整したものです。
音声認識 Safetensors その他
W
amedcj
272
1
Nextvoice
Apache-2.0
NextVoiceはLamapiが開発したオープンソースの音声テキスト変換ソリューションで、高品質な書き起こしとリアルタイム処理をサポートします。
音声認識 Transformers その他
N
Lamapi
18
1
Medical Whisper Large V3
Apache-2.0
whisper-large-v3を微調整した医療シナリオ専用音声認識モデル
音声認識 Transformers 英語
M
Na0s
270
5
Whisper Small Medical Speech Recognition
Apache-2.0
OpenAI Whisper-smallを医療分野でファインチューニングした音声認識モデルで、医療シーンでの音声からテキストへの変換タスクをサポート
音声認識 Transformers
W
hap20
20
3
Parakeet Rnnt 1.1b
Parakeet RNNT 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformer Transducerアーキテクチャに基づき、約11億のパラメータを持ち、英語音声の書き起こしをサポートします。
音声認識 英語
P
nvidia
13.18k
124
Hubert Base Ls960 Finetuned Gtzan
Apache-2.0
HuBERTアーキテクチャに基づく音声分類モデルで、GTZAN音楽ジャンル分類データセットでファインチューニングされ、88%の精度を達成
音声分類 Transformers
H
c72599
15
0
Distilhubert Finetuned Gtzan
Apache-2.0
DistilHuBERTアーキテクチャを基にGTZAN音楽分類データセットでファインチューニングされた音声分類モデルで、精度は88%
音声分類 Transformers
D
timjwhite
16
0
Stt En Fastconformer Transducer Xlarge
NVIDIA FastConformer-Transducerは、英語の自動音声認識(ASR)向けの高性能モデルで、最適化されたFastConformerアーキテクチャとTransducerデコーダを採用し、パラメータ規模は約6.18億です。
音声認識 英語
S
nvidia
106
24
Stt En Fastconformer Ctc Xlarge
NVIDIA FastConformer-CTC XLargeは約6億パラメータの自動音声認識(ASR)モデルで、英語音声の文字起こしのために設計され、FastConformerアーキテクチャとCTC損失でトレーニングされています。
音声認識 英語
S
nvidia
216
2
Stt En Fastconformer Ctc Large
これはFastConformerアーキテクチャに基づく大規模な自動音声認識(ASR)モデルで、英語音声をテキストに転写するために特別に設計されています。
音声認識 英語
S
nvidia
1,001
12
Stt En Fastconformer Transducer Large
これはFastConformerアーキテクチャに基づく大規模な自動音声認識(ASR)モデルで、英語音声をテキストに転写するために特別に設計されています。
音声認識 英語
S
nvidia
1,398
7
Wav2vec2 Large Emotion Detection German
Apache-2.0
wav2vec2ベースのドイツ語音声感情検出モデルで、emo-DBデータセットで訓練され、7種類の異なる感情を識別できます。
音声分類 Transformers ドイツ語
W
padmalcom
20
3
Whisper Large V2 Japanese 5k Steps
Apache-2.0
OpenAIのwhisper-large-v2モデルを日本語CommonVoiceデータセットでファインチューニングした音声認識モデル、5000ステップ訓練、単語誤り率0.7449
音声認識 Transformers 日本語
W
clu-ling
144
20
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、音声をスペクトログラムに変換後、ビジョントランスフォーマーアーキテクチャで処理し、音声分類タスクで優れた性能を発揮します。
音声分類 Transformers
A
MIT
194.20k
5
Wav2vec2 Large Tedlium
Apache-2.0
TEDLIUMコーパスでファインチューニングされたWav2Vec2大型音声認識モデル、英語音声からテキストへの変換をサポート
音声認識 英語
W
sanchit-gandhi
58
1
Stt En Conformer Transducer Xlarge
これはNVIDIAが開発した自動音声認識(ASR)モデルで、Conformer-Transducerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の転写専用に設計されています。
音声認識 英語
S
nvidia
496
54
Asr Wav2vec2 Librispeech
Apache-2.0
これはLibriSpeechデータセットでトレーニングされたエンドツーエンドの自動音声認識システムで、wav2vec 2.0事前トレーニングモデルとCTC技術を組み合わせ、英語音声認識タスクで優れた性能を発揮します。
音声認識 英語
A
speechbrain
1,667
9
Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm
Facebookのwav2vec2-large-960h-lv60-selfモデルを基に、ウィキペディア言語モデルで強化した自動音声認識(ASR)システム
音声認識 Transformers
W
gxbag
15
2
Wav2vec2 Conformer Rope Large 100h Ft
Apache-2.0
Librispeech 100時間の音声データでファインチューニングされたWav2Vec2 Conformerモデルで、回転位置埋め込み技術を採用
音声認識 Transformers 英語
W
facebook
99
0
Wav2vec2 Conformer Rope Large 960h Ft
Apache-2.0
このモデルは回転位置埋め込み技術を統合し、16kHzサンプリングの音声オーディオに基づき、960時間のLibriSpeechデータで事前学習と微調整が行われ、英語音声認識タスクに適しています。
音声認識 Transformers 英語
W
facebook
22.02k
10
Wav2vec2 Conformer Rel Pos Large 100h Ft
Apache-2.0
相対位置埋め込み技術を採用したWav2Vec2-Conformer大型音声認識モデル、Librispeech 100時間音声データで微調整
音声認識 Transformers 英語
W
facebook
99
0
Wav2vec2 Conformer Rel Pos Large 960h Ft
Apache-2.0
16kHzサンプリング音声オーディオに基づくWav2Vec2-Conformerモデルで、相対位置埋め込み技術を採用し、960時間のLibrispeechデータで事前学習と微調整を行った
音声認識 Transformers 英語
W
facebook
1,038
5
Wav2vec2 Base 960h 4 Gram
Apache-2.0
FacebookのWav2Vec2-Base-960hモデルをベースに、英語4-gram言語モデルを追加し、自動音声認識(ASR)の精度向上を図っています。
音声認識 Transformers 英語
W
patrickvonplaten
19
0
Wav2vec2 Large 960h Lv60 Self 4 Gram
Apache-2.0
FacebookのWav2Vec2-Large-960h-lv60-selfモデルを基に、英語4-gram言語モデルを追加して音声認識精度を向上
音声認識 英語
W
patrickvonplaten
22
4
Wav2vec2 Large Xlsr 300m Nepali
これはWav2Vec2アーキテクチャに基づくネパール語音声認識モデルで、ネパール語音声をテキストに変換できます。
音声認識 Transformers
W
shniranjan
15
0
Stt En Conformer Ctc Large
これはConformerアーキテクチャに基づく大規模な自動音声認識(ASR)モデルで、英語音声の文字起こしをサポートし、CTC損失関数を使用して訓練されています。
音声認識 英語
S
nvidia
3,740
24
Data2vec Audio Large 960h
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibriSpeechの960時間音声データで事前学習とファインチューニングされ、自動音声認識タスク向けに最適化されています。
音声認識 Transformers 英語
D
facebook
2,531
7
Iwslt Asr Wav2vec Large 4500h
Wav2Vec2アーキテクチャに基づく大規模英語自動音声認識モデルで、4500時間の多ソース音声データで微調整され、言語モデルを用いたデコードをサポートします。
音声認識 Transformers 英語
I
nguyenvulebinh
27
2
Wav2vec2 Base 960h
Apache-2.0
Wav2Vec2は自己教師あり学習に基づく音声認識モデルで、Facebookによって開発され、LibriSpeechデータセットでトレーニングされ、英語音声からテキストへの変換タスクをサポートします。
音声認識 Transformers 英語
W
tommy19970714
19
0
Personal Speech To Text Model
facebook/wav2vec2-large-robust-ft-swbd-300hモデルをベースに微調整した個人向け音声テキスト変換モデルで、特定のアクセントに最適化されています。
音声認識 Transformers
P
fractalego
75
6
Hubert Large Ls960 Ft
Apache-2.0
HuBERT-Largeは、LibriSpeechの960時間の音声データで微調整された自己教師付き音声表現学習モデルで、自動音声認識タスクに使用されます。
音声認識 Transformers 英語
H
facebook
776.27k
66
Data2vec Audio Base 960h
Apache-2.0
Data2Vecは音声、視覚、言語処理に適用可能な汎用的な自己教師あり学習フレームワークです。このモデルはLibriSpeech 960時間の音声データで事前学習と微調整を行った音声認識モデルです。
音声認識 Transformers 英語
D
facebook
10.61k
12
Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp
ESPnetフレームワークでトレーニングされた自動音声認識(ASR)モデルで、ConformerアーキテクチャとWavLM大型事前学習モデルを使用し、LibriSpeechデータセットでトレーニングされました。
音声認識 英語
S
espnet
66
1
Wav2vec2 Large 960h Lv60
Apache-2.0
Wav2Vec2は強力な音声認識モデルで、自己教師あり学習により生の音声から特徴を抽出し、限られたラベル付きデータで高性能な音声認識を実現します。
音声認識 英語
W
facebook
7,011
6
Wav2vec2 Large 960h
Apache-2.0
Wav2Vec2はFacebookが開発した音声認識モデルで、自己教師あり学習により生の音声から音声表現を学習し、LibriSpeechデータセットで微調整され、高精度な音声転写を実現します。
音声認識 Transformers 英語
W
facebook
77.59k
29
Hubert Xlarge Ls960 Ft
Apache-2.0
Librispeechの960時間の音声データで微調整されたHubert超大型音声認識モデルで、LibriSpeechテストセットでのWERはわずか1.8です。
音声認識 Transformers 英語
H
facebook
8,160
14
Urbansound8k Ecapa
Apache-2.0
これはSpeechBrainフレームワークを使用し、UrbanSound8kデータセットで事前学習された音声認識モデルで、10種類の都市環境音を識別できます。
音声分類 英語
U
speechbrain
91
8
Wav2vec2 Dogri Stt
これはWav2Vec2アーキテクチャに基づく自動音声認識(ASR)モデルで、ドグリ語(Dogri)の音声内容を認識するために特別に設計されています。
音声認識 Transformers
W
addy88
30
1
Wav2vec2 Large 960h Lv60 Self
Apache-2.0
Facebookが開発したWav2Vec2の大規模モデルで、960時間のLibri-LightとLibrispeechの音声データを基に事前学習と微調整を行い、自己学習目標を採用し、LibriSpeechテストセットでSOTAの結果を達成しました。
音声認識 英語
W
facebook
56.00k
146
Wavlm Libri Clean 100h Base Plus
microsoft/wavlm-base-plusを基にLIBRISPEECH_ASR - CLEANデータセットでファインチューニングした自動音声認識モデル
音声認識 Transformers
W
patrickvonplaten
126.17k
3
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase