Deepfake Audio Detection V1
Apache-2.0
wav2vec2-baseをファインチューニングしたディープフェイク音声検出モデルで、精度は99.66%
音声分類
Transformers

D
Zeyadd-Mostaffa
33
0
Wav2vec2 Base 100k Gtzan Music Genres Finetuned Wav2vec2 Ivan
wav2vec2アーキテクチャに基づく音楽ジャンル分類モデルで、GTZANデータセットでファインチューニングされ、98%の精度を達成
音声分類
Transformers

W
itmanov
32
1
Wav2 Noise
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたノイズ識別モデルで、精度は93.89%
音声分類
Transformers

W
zylin12
1
0
My Awesome Mind Model
Apache-2.0
facebook/wav2vec2-baseをminds14データセットでファインチューニングした音声分類モデル
音声分類
Transformers

M
faaany
1
0
Wav2vec2 Large Xlsr 53 Th Speech Emotion Recognition 3c
airesearch/wav2vec2-large-xlsr-53-thをファインチューニングしたタイ語音声感情認識モデルで、怒り、喜び、平静の3つの感情分類をサポート
音声分類
Transformers

W
Paranchai
9
0
Wav2vec2 Turkish Gender Classification
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたトルコ語性別分類モデル、common_voice_17_0データセットでトレーニングされ、テストセットの精度は84.79%
音声分類
Transformers

W
candenizkocak
19
1
W2v Speech Emotion Recognition
MIT
Wav2Vec2アーキテクチャをファインチューニングした英語音声感情認識モデル、6つの感情状態を識別可能
音声分類 英語
W
Khoa
147
0
Wav2vec2 ASV Deepfake Audio Detection
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたディープフェイク音声検出モデルで、合成または改ざんされた音声コンテンツを識別
話者の処理
Transformers

W
Bisher
106
1
Audio Emotion Detection
Apache-2.0
このモデルはfacebook/wav2vec2-large-xlsr-53をファインチューニングした音声感情検出モデルで、7種類の感情状態を識別可能
音声分類
Transformers

A
Hatman
630
8
Wav2vec2 Large Xls R 300m Amharic Demo Colab
Apache-2.0
facebook/wav2vec2-xls-r-300mをcommon_voice_16_1データセットでファインチューニングしたアムハラ語音声認識モデル
音声認識
Transformers

W
DipsankarSinha
18
2
Wav2vec2 Base ASVSpoof5 TUC N
Apache-2.0
wav2vec2-baseをファインチューニングした音声不正検知モデルで、評価データセットで88.89%の精度を達成
音声分類
Transformers

W
DavidCombei
20
0
Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k
Apache-2.0
facebook/wav2vec2-large-lv60をファインチューニングした英語音素認識モデルで、TIMITデータセットにおいて10.53%の音素誤り率を達成
音声認識
Transformers 英語

W
excalibur12
306
3
Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k 002
Apache-2.0
facebook/wav2vec2-large-lv60をTIMITデータセットでファインチューニングした英語音素認識モデル、音素誤り率10.53%
音声認識
Transformers 英語

W
excalibur12
103
1
Speechbrain Emotion Recognition Openvino
Apache-2.0
このモデルはファインチューニングされたwav2vec2(ベース)アーキテクチャを使用し、IEMOCAPデータセットでトレーニングされ、音声感情認識タスクに用いられます。
音声分類 英語
S
psakamoori
13
0
Wav2vec2 Large Xlrs Korean V5
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをzeroth_koreanデータセットでファインチューニングした韓国語自動音声認識モデルで、単語誤り率は0.2433です。
音声認識
Transformers

W
student-47
285
1
Deepfake Audio Detection
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたディープフェイク音声検出モデルで、評価セットでの精度は95.45%
音声分類
Transformers

D
Heem2
246
0
Wav2vec Base Crema Sentiment Analysis
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声感情分析モデルで、評価データセットで70.87%の精度を達成
音声分類
Transformers

W
Piyush2512
38
0
Violence Detect 44
Apache-2.0
facebook/wav2vec2-base-960hをファインチューニングした音声分類モデルで、暴力音を検出するために使用されます
音声分類
Transformers

V
Hemg
28
0
Deeepfake Audio Recognition Ttoo
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたディープフェイク音声識別モデルで、評価セットでの精度は95.45%
音声分類
Transformers

D
Hemg
20
0
Wav2vec2 Base Arabic Speech Emotion Recognition
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたアラビア語音声感情認識モデルで、評価データセットで99.92%の精度を達成しました。
音声分類
Transformers

W
ahmmedasaad2772
352
0
Wav2vec2 Base Gender Classification
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声性別分類モデルで、評価データセットでの精度は98.92%
音声分類
Transformers

W
7wolf
14
1
Wav2vec2 Large Xlsr 53 English Finetuned Ravdess
Apache-2.0
wav2vec2-large-xlsr-53-englishモデルをRAVDESSデータセットでファインチューニングした音声感情認識モデル
音声分類
Transformers

W
firdho26
68
0
My Awesome Mind Model
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたオーディオ分類モデルで、評価データセットで58.92%の精度を達成
音声分類
Transformers

M
Krithika-p
15
0
Wav2vec2 Audio Emotion Classification
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声感情分類モデルで、評価セットで73.98%の精度を達成
音声分類
Transformers

W
chin-may
77
5
Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan
Apache-2.0
wav2vec2アーキテクチャに基づくオーディオ分類モデルで、GTZANデータセットでファインチューニングされ、音楽と音声の分類タスクに使用されます
音声分類
Transformers

W
0bi0n3
15
1
Wav2vec2 Large Robust 24 Ft Age Gender
このモデルは生の音声信号を入力として、年齢予測値および性別確率(子供/女性/男性)を出力し、同時に最終層transformerのプール状態を出力します。
音声分類
Transformers

W
audeering
44.13k
33
Wav2vec Fine Tuned Speech Command2
Apache-2.0
facebook/wav2vec2-baseをspeech_commandsデータセットでファインチューニングした音声認識モデル、精度は97.35%
音声分類
Transformers

W
Thamer
16
0
Viet Tones Model
wav2vec2-base-vietnamese-250hをファインチューニングしたベトナム語声調識別モデル、精度59.72%
音声認識
Transformers

V
StevenLe456
22
0
Asr Wav2vec2 Commonvoice 14 Zh CN
Apache-2.0
これはCommonVoice中国語データセットでトレーニングされたエンドツーエンドの自動音声認識システムで、wav2vec2.0とCTCアーキテクチャを使用し、中国語音声認識をサポートします。
音声認識 中国語
A
speechbrain
36
9
Asr Wav2vec2 Commonvoice 14 Es
Apache-2.0
これはCommonVoiceスペイン語データセットでトレーニングされたエンドツーエンド自動音声認識システムで、wav2vec 2.0事前トレーニングモデルとCTCデコーダーを組み合わせています。
音声認識 スペイン語
A
speechbrain
22
3
Wav2vec2 Base Finetuned Gtzan
Apache-2.0
このモデルはfacebook/wav2vec2-baseをGTZANデータセットでファインチューニングしたオーディオ分類モデルで、主に音楽ジャンル分類タスクに使用されます。
音声分類
Transformers

W
wilson-wei
14
0
Wav2vec2 Base Down On
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした二値音声分類モデルで、'down'と'on'の発音を区別するために特別に設計されています
音声分類
Transformers

W
MatsRooth
20
0
Wav2vec2 Base Music Speech Both Classification
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたオーディオ分類モデルで、音楽と音声を区別するために使用されます
音声分類
Transformers

W
FerhatDk
20
0
Wav2vec2 Nepali
Facebookのwav2vec2モデルをファインチューニングしたネパール語音声認識モデル
音声認識
Transformers その他

W
anish-shilpakar
312
1
Neunit Nihaochangchu V3
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたオーディオ分類モデル、superbデータセットでトレーニングされ、精度は99.99%
音声分類
Transformers

N
SHENMU007
14
0
Bsc Ai Thesis Torgo Model 1
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声処理モデルで、評価データセットで優れた性能を発揮
音声認識
Transformers

B
Juardo
19
0
SER Wav2vec2 Large Xlsr 53 Eng Zho Adults
wav2vec2-large-xlsr-53をファインチューニングした多言語・多年代音声感情認識モデルで、英語と中国語をサポート
音声分類
Transformers 複数言語対応

S
CAiRE
32
0
Wav2musicgenre
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたオーディオ分類モデルで、音楽ジャンルを識別するために使用されます
音声分類
Transformers

W
ramonpzg
20
0
Finetuned Wav2vec2.0 Base On IEMOCAP 2
Apache-2.0
これはfacebook/wav2vec2-baseモデルをIEMOCAPデータセットでファインチューニングした音声感情認識モデルで、評価セットで73.9%の精度を達成しました。
音声分類
Transformers

F
minoosh
32
2
Voip Classification
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声分類モデルで、オーディオフォルダデータセットの分類タスクに使用されます
音声分類
Transformers

V
james-xie-rng
18
0
- 1
- 2
- 3
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98