# 高精度音声書き起こし

Whisper Medium Oswald
Apache-2.0
OpenAI Whisper-mediumをファインチューニングしたハイチクレオール語音声認識モデル、高精度な書き起こしに特化
音声認識 Transformers その他
W
jsbeaudry
102
1
Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V3
wav2vec2-large-xlsr-53モデルをファインチューニングした自動音声認識モデルで、歌唱音声認識に特化
音声認識 Transformers
A
gary109
97
0
Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V4 1
このモデルはwav2vec2-large-xlsr-53アーキテクチャに基づく自動音声認識(ASR)モデルで、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでファインチューニングされ、歌唱音声認識タスクに主に使用されます。
音声認識 Transformers
A
gary109
66
1
Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V5
Apache-2.0
wav2vec2-large-xlsr-53をベースにした自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでファインチューニングされています
音声認識 Transformers
A
gary109
160
0
Wav2vec2 Large Xls R 300m Turkish Colab
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルで、評価セットで32.08%の単語誤り率を達成しました。
音声認識 Transformers
W
Samiul
99
0
Ai Light Dance Singing Ft Pretrain Wav2vec2 Large Lv60
このモデルはwav2vec2-large-lv60アーキテクチャに基づく自動音声認識(ASR)モデルで、GARY109/AI_LIGHT_DANCE - ONSET-SINGINGデータセットでファインチューニングされ、主に歌声認識タスクに使用されます。
音声認識 Transformers
A
gary109
22
0
Wav2vec2 Final 1 Lm 4
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットでの単語誤り率は0.4499
音声認識 Transformers
W
chrisvinsen
16
0
Wav2vec2 Large Xlsr 53 Tr Fine Tuning Deprecated
Apache-2.0
このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルです
音声認識 Transformers
W
bekirbakar
17
0
Wav2vec2 1b Npsc Nst Bokmaal
Apache-2.0
このモデルは、ノルウェー語Bokmål方言の音声データセットでfacebook/wav2vec2-xls-r-1bを微調整した自動音声認識(ASR)モデルです
音声認識 Transformers
W
NbAiLab
30
0
Aspram
Apache-2.0
wav2vec2-xls-r-2bアーキテクチャに基づくアルメニア語自動音声認識モデル、hy/hye言語をサポート
音声認識 Transformers その他
A
YSU
170
4
20220412 203254
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルで、自動音声認識タスクをサポートします。
音声認識 Transformers
2
lilitket
18
0
Wav2vec2 Large 100h Lv60 Self
Apache-2.0
Wav2Vec2-Large-100h-Lv60は、100時間のLibri-LightとLibrispeech音声データを用いて事前学習と微調整を行った大規模モデルで、自己訓練目標で訓練されており、16kHzサンプリングレートの音声認識タスクに適しています。
音声認識 Transformers 英語
W
Splend1dchan
17
0
Wav2vec2 Large Xlsr 53 Ft Cgn
facebook/wav2vec2-large-xlsr-53大規模モデルを基に、CTC損失関数を用いてオランダ語口語コーパスでファインチューニングされたオランダ語音声認識モデル
音声認識 Transformers その他
W
GroNLP
22
3
Wav2vec2 Dutch Large Ft Cgn
オランダ語Wav2Vec2モデルで、オランダ語コーパスCGNを使用して元の英語モデルを継続的に事前学習およびファインチューニングして構築されました。
音声認識 Transformers その他
W
GroNLP
18
1
Wav2vec2 2 Bart Large No Adapter
このモデルはLibriSpeech ASRデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。
音声認識 Transformers
W
sanchit-gandhi
22
0
English Model
facebook/wav2vec2-largeモデルをベースに、Common Voiceデータセットを使用して英語向けにファインチューニングされた音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。
音声認識 Transformers
E
tanmayplanet32
30
0
Wav2vec2 Large It Voxpopuli
VoxPopuliイタリア語無注釈データで事前学習された音声認識モデル、FacebookのWav2Vec2アーキテクチャを採用
音声認識 その他
W
facebook
55
0
Wav2vec2 2 Bert Large No Adapter
LibriSpeechデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換します
音声認識 Transformers
W
speech-seq2seq
15
1
Wav2vec2 Large Xlsr 53 Levantine Arabic
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルを基に、アラビア語音声コーパスデータセットでファインチューニングしたアラビア語音声認識モデル
音声認識 アラビア語
W
elgeish
46
4
Wav2vec2 Xlsr Chuvash
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-1bをCommon Voice 8チュヴァシ語データセットでファインチューニングした自動音声認識モデルです
音声認識 Transformers その他
W
sammy786
23
0
Wav2vec2 Large Xlsr Persian Shemo
Apache-2.0
Wav2Vec2-Large-XLSR-53をペルシア語ShEMOデータセットでファインチューニングした自動音声認識モデル
音声認識 その他
W
m3hrdadfi
28
3
Wav2vec2 Large Xlsr 53 Esperanto
Apache-2.0
これはFacebookのwav2vec2-large-xlsr-53モデルをファインチューニングしたエスペラント(Esperanto)音声認識モデルで、Common Voiceデータセットでトレーニングされています。
音声認識 その他
W
cpierse
8,681
6
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase