# Wav2Vec2ファインチューニング

Wav2vec2 Ser English Finetuned
このモデルはWav2Vec2アーキテクチャをファインチューニングしており、英語音声における6つの感情状態(悲しみ、怒り、嫌悪、恐怖、幸福、中立)を認識するために特別に設計されており、精度は92.42%です。
音声分類 Safetensors 英語
W
dihuzz
68
1
My Awesome Mind Model
Apache-2.0
facebook/wav2vec2-baseモデルをminds14データセットでファインチューニングした音声分類モデル
音声分類 Transformers
M
Gyaneshere
4
0
Finvoc2vec
企業開示シナリオ向けに設計された音声トーン分類器、Wav2Vec2アーキテクチャに基づく2段階トレーニング
音声分類 Transformers 英語
F
waiv
17
1
Voiceguard
MIT
Wav2Vec2をファインチューニングしたオーディオ分類器で、実在人物の音声とAI生成音声を区別できます。
音声分類 Transformers 英語
V
Mrkomiljon
127
1
Music Classifier
Wav2Vec2ベースのオーディオ分類モデル、音楽ジャンル識別用
音声分類 Safetensors
M
gastonduault
478
2
Baby Cry Classification Finetuned Babycry V4
Apache-2.0
wav2vec2-large-xlsr-53-englishをファインチューニングした赤ちゃんの泣き声分類モデルで、精度は81.5%
音声分類 Transformers
B
Wiam
120
2
Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53
Apache-2.0
Wav2Vec2 Large XLSR-53モデルをファインチューニングした音声感情認識システムで、7つの一般的な感情を認識可能
音声分類 Transformers
S
firdhokk
66
0
Wav2vec2 Xlsr English Speech Emotion Recognition
このモデルは英語音声から6つの基本感情(怒り、嫌悪、恐怖、幸福、悲しみ、驚き)を認識するために、RAVDESSデータセットで訓練されました。
音声分類 Transformers 英語
W
AreejB
82
0
Arabic Speech Syllables Recognition Using Wav2vec2
これはwav2vec2ベースのアラビア語音節認識モデルで、音声から現代標準アラビア語の音節を認識できます。
音声認識 Transformers アラビア語
A
IbrahimSalah
78
1
Englishmodel
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。
音声認識 Transformers
E
Foxasdf
24
1
Wav2vec2 Ljspeech Gruut
Apache-2.0
Wav2Vec2アーキテクチャに基づく音素認識モデルで、LJSpeech Phonemesデータセットでファインチューニングされ、音声を音素シーケンスに変換するために使用されます
音声認識 Transformers 英語
W
bookbot
2,484
17
Wav2vec2 Xls R 300m En Atc Uwb Atcc And Atcosim
Apache-2.0
wav2vec2-xls-r-300mをファインチューニングした航空管制通信音声認識モデル、英語対応
音声認識 Transformers 英語
W
Jzuluaga
37
7
Malaya Speech Fine Tune Realcase 30 Jun Lm
このモデルはuob_singlishデータセットでmalay-huggingface/wav2vec2-xls-r-300m-mixedをファインチューニングしたバージョンで、主に音声認識タスクに使用されます。
音声認識 Transformers
M
RuiqianLi
71
0
Trained French
Apache-2.0
これはfacebook/wav2vec2-base-960hをファインチューニングしたフランス語音声認識モデルで、評価セットで1.0の単語誤り率を達成しました。
音声認識 Transformers
T
eugenetanjc
151
0
Malaya Speech Fine Tune Realcase 22 Jun
このモデルはwav2vec2-xls-r-300m-mixedをシンガポール英語(uob_singlish)データセットでファインチューニングした音声認識モデルです
音声認識 Transformers
M
RuiqianLi
20
0
Project NLP
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで0.3355の単語誤り率(WER)を達成しました。
音声認識 Transformers
P
zakria
22
0
Model Facebookptbrlarge
Apache-2.0
Facebookのwav2vec2-large-xlsr-53-portugueseモデルをcommon_voiceデータセットでファインチューニングしたブラジルポルトガル語音声認識モデル
音声認識 Transformers
M
Vkt
22
0
Wav2vec2 Base Common Voice 50p Persian Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをペルシア語データセットでファインチューニングした音声認識モデルで、ペルシア語音声からテキストへの変換タスクをサポートします。
音声認識 Transformers
W
zoha
21
0
Wav2vec2 Xls R 300m Mr Cv9 With Lm
Apache-2.0
Facebook XLS-R-300Mモデルをマラーティー語音声データセットでファインチューニングした自動音声認識モデル
音声認識 Transformers その他
W
anuragshas
23
0
Wav2vec2 Xls R 300m Timit Phoneme
Apache-2.0
これはfacebook/wav2vec2-xls-r-300mモデルをTIMITデータセットでファインチューニングした自動音素認識モデルで、主に英語音声の音素レベル認識に使用されます。
音声認識 Transformers 英語
W
vitouphy
8,457
29
English Filipino Wav2vec2 L Xls R Test 09
Apache-2.0
jonatasgrosman/wav2vec2-large-xlsr-53-englishをベースにファインチューニングした英語-フィリピン語音声認識モデル、評価セットでのWERは0.5750
音声認識 Transformers
E
Khalsuu
29.03k
1
English Filipino Wav2vec2 L Xls R Test 06
Apache-2.0
このモデルはjonatasgrosman/wav2vec2-large-xlsr-53-englishをベースにfilipino_voiceデータセットでファインチューニングしたバージョンで、英語とフィリピン語の音声認識タスクに使用されます。
音声認識 Transformers
E
Khalsuu
24
0
Wav2vec2 Base Timit Demo Colab11
Apache-2.0
このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、TIMITデータセットで0.4348の単語誤り率を達成しました。
音声認識 Transformers
W
sameearif88
18
0
SSL Harveen Chadda Fine Tuning
MIT
このモデルはHarveenchadha/vakyansh-wav2vec2-hindi-him-4200を未知のデータセットでファインチューニングした音声認識モデルで、ヒンディー語をサポートし、評価セットで10.08%の単語誤り率を達成しました。
音声認識 Transformers
S
rajat99
30
0
Gram Vaani Harveen Chadda Fine Tuning
MIT
これはHarveenchadha/vakyansh-wav2vec2-hindi-him-4200をベースにファインチューニングされた音声認識モデルで、ヒンディー語音声からテキストへの変換タスクをサポートします。
音声認識 Transformers
G
nnair25
30
0
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
このモデルはWav2Vec2-Large-Robustをファインチューニングして訓練され、音声感情認識に使用され、覚醒度、支配度、価値の3つの次元の予測値を出力します。
音声分類 Transformers 英語
W
audeering
394.51k
109
Output
Apache-2.0
facebook/wav2vec2-xls-r-300mをMozilla Common Voiceポルトガル語データセットでファインチューニングした自動音声認識モデル
音声認識 Transformers その他
O
tonyalves
28
0
Wav2vec2 Large Xlsr 53 Coraa Brazilian Portuguese Gain Normalization
Apache-2.0
これはポルトガル語向けにファインチューニングされたWav2vec 2.0モデルで、CORAA、CETUC、MLSなど複数のポルトガル語音声データセットからトレーニングデータを取得しています。
音声認識 Transformers その他
W
alefiury
28
0
Finetune Indian Asr
Harveenchadha/vakyansh-wav2vec2-indian-english-enm-700を基にファインチューニングしたインド英語音声認識モデル
音声認識 Transformers
F
Simply-divine
20
1
Wav2vec2 Xlsr Multilingual 53 Fa
wav2vec 2.0アーキテクチャに基づく多言語音声認識モデルで、ペルシア語向けに特別にファインチューニングされており、単語誤り率を大幅に低減
音声認識 Transformers
W
masoudmzb
83
7
Wav2vec2 Large Xlsr Greek 2
Apache-2.0
facebook/wav2vec2-large-xlsr-53を基に、ギリシャ語Common Voiceデータセットでファインチューニングした音声認識モデル。合成女性音声データでトレーニングセットのバランスを調整
音声認識 Transformers その他
W
skylord
15
0
Bp Commonvoice10 Xlsr
Apache-2.0
Common Voice 7.0データセットを使用してブラジルポルトガル語向けにファインチューニングされたWav2vec 2.0モデル、ポルトガル語音声認識用
音声認識 Transformers その他
B
lgris
25
0
HIYACCENT Wav2Vec2
HIYACCENTはナイジェリア英語アクセントに最適化された音声認識システムで、Wav2Vec2アーキテクチャを改良し、認識性能を20%以上向上させました。
音声認識 Transformers
H
codeceejay
27
1
Wav2vec2 Large Xlsr Breton
Apache-2.0
facebook/wav2vec2-large-xlsr-53を基にブルトン語Common Voiceデータセットでファインチューニングした音声認識モデル
音声認識 その他
W
cahya
25
1
Xls Asr Vi 40h
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをCommon Voice 7.0ベトナム語データセット及びプライベートデータセットでファインチューニングした音声認識モデルです。
音声認識 Transformers その他
X
geninhu
14
0
Wav2vec2 Large Xls R 300m Ha Cv8
Apache-2.0
facebook/wav2vec2-xls-r-300mをCommon Voiceデータセットでファインチューニングしたハウサ語音声認識モデル
音声認識 Transformers その他
W
anuragshas
17
1
Wav2vec2 Large Xlsr Greek 1
Apache-2.0
facebook/wav2vec2-large-xlsr-53を基にギリシャ語でファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
音声認識 Transformers その他
W
skylord
15
0
Wav2vec2 Xlsr Punjabi
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルを基に、Common Voiceデータセットでパンジャーブ語にファインチューニングした自動音声認識モデル
音声認識
W
gagan3012
2,433
0
Wav2vec2 Base Vietnamese
Apache-2.0
Wav2Vec2アーキテクチャに基づくベトナム語音声認識モデル、VSLPデータセットでファインチューニング済み、16kHzサンプリングレートの音声入力をサポート
音声認識 Transformers その他
W
dragonSwing
16
2
Wav2vec2 Large Xlsr 53 Telugu
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたテルグ語音声認識モデルで、OpenSLR SLR66データセットを使用してトレーニング
音声認識 その他
W
anuragshas
44.24k
5
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase