モデル選定

Wav2Vec2ファインチューニング

# Wav2Vec2ファインチューニング

Wav2vec2 Ser English Finetuned

このモデルはWav2Vec2アーキテクチャをファインチューニングしており、英語音声における6つの感情状態（悲しみ、怒り、嫌悪、恐怖、幸福、中立）を認識するために特別に設計されており、精度は92.42%です。

Safetensors 英語

My Awesome Mind Model

facebook/wav2vec2-baseモデルをminds14データセットでファインチューニングした音声分類モデル

企業開示シナリオ向けに設計された音声トーン分類器、Wav2Vec2アーキテクチャに基づく2段階トレーニング

Transformers 英語

Wav2Vec2をファインチューニングしたオーディオ分類器で、実在人物の音声とAI生成音声を区別できます。

Transformers 英語

Music Classifier

Wav2Vec2ベースのオーディオ分類モデル、音楽ジャンル識別用

Baby Cry Classification Finetuned Babycry V4

wav2vec2-large-xlsr-53-englishをファインチューニングした赤ちゃんの泣き声分類モデルで、精度は81.5%

Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53

Wav2Vec2 Large XLSR-53モデルをファインチューニングした音声感情認識システムで、7つの一般的な感情を認識可能

Wav2vec2 Xlsr English Speech Emotion Recognition

このモデルは英語音声から6つの基本感情（怒り、嫌悪、恐怖、幸福、悲しみ、驚き）を認識するために、RAVDESSデータセットで訓練されました。

Transformers 英語

Arabic Speech Syllables Recognition Using Wav2vec2

これはwav2vec2ベースのアラビア語音節認識モデルで、音声から現代標準アラビア語の音節を認識できます。

Transformers アラビア語

このモデルはfacebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。

Wav2vec2 Ljspeech Gruut

Wav2Vec2アーキテクチャに基づく音素認識モデルで、LJSpeech Phonemesデータセットでファインチューニングされ、音声を音素シーケンスに変換するために使用されます

Transformers 英語

Wav2vec2 Xls R 300m En Atc Uwb Atcc And Atcosim

wav2vec2-xls-r-300mをファインチューニングした航空管制通信音声認識モデル、英語対応

Transformers 英語

Malaya Speech Fine Tune Realcase 30 Jun Lm

このモデルはuob_singlishデータセットでmalay-huggingface/wav2vec2-xls-r-300m-mixedをファインチューニングしたバージョンで、主に音声認識タスクに使用されます。

これはfacebook/wav2vec2-base-960hをファインチューニングしたフランス語音声認識モデルで、評価セットで1.0の単語誤り率を達成しました。

Malaya Speech Fine Tune Realcase 22 Jun

このモデルはwav2vec2-xls-r-300m-mixedをシンガポール英語(uob_singlish)データセットでファインチューニングした音声認識モデルです

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで0.3355の単語誤り率(WER)を達成しました。

Model Facebookptbrlarge

Facebookのwav2vec2-large-xlsr-53-portugueseモデルをcommon_voiceデータセットでファインチューニングしたブラジルポルトガル語音声認識モデル

Wav2vec2 Base Common Voice 50p Persian Colab

このモデルはfacebook/wav2vec2-baseをペルシア語データセットでファインチューニングした音声認識モデルで、ペルシア語音声からテキストへの変換タスクをサポートします。

Wav2vec2 Xls R 300m Mr Cv9 With Lm

Facebook XLS-R-300Mモデルをマラーティー語音声データセットでファインチューニングした自動音声認識モデル

Transformers その他

Wav2vec2 Xls R 300m Timit Phoneme

これはfacebook/wav2vec2-xls-r-300mモデルをTIMITデータセットでファインチューニングした自動音素認識モデルで、主に英語音声の音素レベル認識に使用されます。

Transformers 英語

English Filipino Wav2vec2 L Xls R Test 09

jonatasgrosman/wav2vec2-large-xlsr-53-englishをベースにファインチューニングした英語-フィリピン語音声認識モデル、評価セットでのWERは0.5750

English Filipino Wav2vec2 L Xls R Test 06

このモデルはjonatasgrosman/wav2vec2-large-xlsr-53-englishをベースにfilipino_voiceデータセットでファインチューニングしたバージョンで、英語とフィリピン語の音声認識タスクに使用されます。

Wav2vec2 Base Timit Demo Colab11

このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、TIMITデータセットで0.4348の単語誤り率を達成しました。

SSL Harveen Chadda Fine Tuning

このモデルはHarveenchadha/vakyansh-wav2vec2-hindi-him-4200を未知のデータセットでファインチューニングした音声認識モデルで、ヒンディー語をサポートし、評価セットで10.08%の単語誤り率を達成しました。

Gram Vaani Harveen Chadda Fine Tuning

これはHarveenchadha/vakyansh-wav2vec2-hindi-him-4200をベースにファインチューニングされた音声認識モデルで、ヒンディー語音声からテキストへの変換タスクをサポートします。

Wav2vec2 Large Robust 12 Ft Emotion Msp Dim

このモデルはWav2Vec2-Large-Robustをファインチューニングして訓練され、音声感情認識に使用され、覚醒度、支配度、価値の3つの次元の予測値を出力します。

Transformers 英語

facebook/wav2vec2-xls-r-300mをMozilla Common Voiceポルトガル語データセットでファインチューニングした自動音声認識モデル

Transformers その他

Wav2vec2 Large Xlsr 53 Coraa Brazilian Portuguese Gain Normalization

これはポルトガル語向けにファインチューニングされたWav2vec 2.0モデルで、CORAA、CETUC、MLSなど複数のポルトガル語音声データセットからトレーニングデータを取得しています。

Transformers その他

Finetune Indian Asr

Harveenchadha/vakyansh-wav2vec2-indian-english-enm-700を基にファインチューニングしたインド英語音声認識モデル

Wav2vec2 Xlsr Multilingual 53 Fa

wav2vec 2.0アーキテクチャに基づく多言語音声認識モデルで、ペルシア語向けに特別にファインチューニングされており、単語誤り率を大幅に低減

Wav2vec2 Large Xlsr Greek 2

facebook/wav2vec2-large-xlsr-53を基に、ギリシャ語Common Voiceデータセットでファインチューニングした音声認識モデル。合成女性音声データでトレーニングセットのバランスを調整

Transformers その他

Bp Commonvoice10 Xlsr

Common Voice 7.0データセットを使用してブラジルポルトガル語向けにファインチューニングされたWav2vec 2.0モデル、ポルトガル語音声認識用

Transformers その他

HIYACCENT Wav2Vec2

HIYACCENTはナイジェリア英語アクセントに最適化された音声認識システムで、Wav2Vec2アーキテクチャを改良し、認識性能を20％以上向上させました。

Wav2vec2 Large Xlsr Breton

facebook/wav2vec2-large-xlsr-53を基にブルトン語Common Voiceデータセットでファインチューニングした音声認識モデル

音声認識その他

このモデルはfacebook/wav2vec2-xls-r-300mをCommon Voice 7.0ベトナム語データセット及びプライベートデータセットでファインチューニングした音声認識モデルです。

Transformers その他

Wav2vec2 Large Xls R 300m Ha Cv8

facebook/wav2vec2-xls-r-300mをCommon Voiceデータセットでファインチューニングしたハウサ語音声認識モデル

Transformers その他

Wav2vec2 Large Xlsr Greek 1

facebook/wav2vec2-large-xlsr-53を基にギリシャ語でファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

Transformers その他

Wav2vec2 Xlsr Punjabi

facebook/wav2vec2-large-xlsr-53モデルを基に、Common Voiceデータセットでパンジャーブ語にファインチューニングした自動音声認識モデル

Wav2vec2 Base Vietnamese

Wav2Vec2アーキテクチャに基づくベトナム語音声認識モデル、VSLPデータセットでファインチューニング済み、16kHzサンプリングレートの音声入力をサポート

Transformers その他

Wav2vec2 Large Xlsr 53 Telugu

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたテルグ語音声認識モデルで、OpenSLR SLR66データセットを使用してトレーニング

音声認識その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase