Ultravox V0 5 Llama 3 2 1b GGUF
MIT
Ultravox v0.5はLlama-3 2.1Bアーキテクチャを最適化した音声テキスト変換モデルで、音声書き起こしタスクの効率的な処理に特化しています。
音声認識
U
ggml-org
421
1
Wav2vec2 Base Librispeech Demo Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをLibriSpeechデータセットでファインチューニングした音声認識モデルで、評価セットで0.3174の単語誤り率を達成しました。
音声認識
Transformers

W
vishwasgautam
14
0
Hubert Base Librispeech Demo Colab
Apache-2.0
facebook/hubert-large-ls960-ftをファインチューニングした音声認識モデルで、LibriSpeechデータセットでトレーニング済み
音声認識
Transformers

H
vishwasgautam
101
0
Wav2vec Checkpoints
Apache-2.0
facebook/wav2vec2-baseを微調整した音声処理モデルで、評価セットで99.48%の精度を達成
音声認識
Transformers

W
Zeyadd-Mostaffa
19
0
Deepfake Audio Detection
Apache-2.0
wav2vec2-base-finetunedを基にさらに微調整した音声処理モデルで、評価セットで98.82%の精度を達成
音声認識
Transformers

D
motheecreator
1,468
7
Deepfake Audio Detection
Apache-2.0
wav2vec2-base-finetunedモデルを微調整した音声処理モデルで、評価セットで98.82%の精度を達成
音声認識
Transformers

D
mo-thecreator
801
7
Wav2vec2 Phoneme
Apache-2.0
facebook/wav2vec2-large-xlsr-53をファインチューニングした音声認識モデルで、音素認識タスクに特化
音声認識
Transformers

W
Bluecast
189
3
Wav2vec2 Base Finetuned
Apache-2.0
facebook/wav2vec2-baseモデルをベースにファインチューニングした音声処理モデルで、評価セットで99.97%の精度を達成
音声認識
Transformers

W
motheecreator
105
4
Wav2vec2 Base Finetuned
Apache-2.0
facebook/wav2vec2-baseモデルをベースにファインチューニングした音声処理モデルで、評価データセットで99.97%の精度を達成
音声認識
Transformers

W
mo-thecreator
19
4
Wav2vec2 Base Finetuned Ks
Apache-2.0
wav2vec2-baseモデルをオーディオフォルダデータセットでファインチューニングしたオーディオ分類モデルで、検証セットの精度は99.82%
音声分類
Transformers

W
motheecreator
54
3
Whisper Small Dialect Classifier Cross
Apache-2.0
このモデルはwhisper-smallアーキテクチャに基づく方言分類器で、特定の方言の音声入力を識別・分類するために使用されます。
音声分類
Transformers

W
yaygomii
53
1
Ssast Audioset Librispeech 16 16
このモデルは音声分類タスクに使用され、音声データを分類識別できます。
音声分類
Transformers

S
yangwang825
18
1
Whisper Base Finetuned Gtzan
Apache-2.0
OpenAIのwhisper-baseモデルをGTZANデータセットでファインチューニングした音声分類モデルで、主に音楽ジャンル分類タスクに使用されます。
音声分類
Transformers

W
vineetsharma
15
0
Bsc Ai Thesis Torgo Model 1
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声処理モデルで、評価データセットで優れた性能を発揮
音声認識
Transformers

B
Juardo
19
0
Neunit Ks Kangyuan0601
Apache-2.0
このモデルはfacebook/wav2vec2-baseをsuperbデータセットでファインチューニングした音声分類モデルで、評価セットで99.87%の精度を達成しました。
音声分類
Transformers

N
SHENMU007
16
0
Wav2vec2 Base Finetuned Amd
Apache-2.0
このモデルはfacebook/wav2vec2-baseを未知のデータセットでファインチューニングしたバージョンで、主に音声認識タスクに使用され、評価セットで84.55%の精度を達成しています。
音声認識
Transformers

W
justin1983
14
0
Audio Class Finetuned
Apache-2.0
このモデルはfacebook/wav2vec2-baseをsuperbデータセットでファインチューニングしたオーディオ分類モデルで、評価セットで0.6578の精度を達成しました。
音声分類
Transformers

A
Chemsseddine
20
0
Wav2vec2 Base Finetuned Ks
Apache-2.0
facebook/wav2vec2-baseをsuperbデータセットでファインチューニングした音声認識モデル、精度98.34%
音声認識
Transformers

W
marcatanante1
13
0
Whisper Small ISSAI KSC 335RS V2
Whisperアーキテクチャに基づく小型音声認識モデル、特定分野の音声テキスト変換タスクに適しています
音声認識
Transformers

W
Shirali
83
1
Englishmodel
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。
音声認識
Transformers

E
Foxasdf
24
1
Wav2vec2 Base Finetuned Ks
Apache-2.0
このモデルはfacebook/wav2vec2-baseをSUPERBデータセットでファインチューニングした音声認識モデルで、キーワード認識タスクで優れた性能を発揮します。
音声認識
Transformers

W
teoha
14
0
Wav2vec2 Base Finetuned Ie
Apache-2.0
facebook/wav2vec2-baseモデルをファインチューニングしたバージョンで、特定のタスクに使用されます
音声認識
Transformers

W
minoosh
14
0
Wav2vec2 Base Finetuned Ks
Apache-2.0
facebook/wav2vec2-baseモデルをベースにファインチューニングした音声認識モデルで、評価セットで87.27%の精度を達成しました。
音声認識
Transformers

W
FerhatDk
38
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、Google Colab環境でトレーニングされました。
音声認識
Transformers

W
pannaga
16
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをベースにファインチューニングしたバージョンで、主に音声認識タスクに使用されます。
音声認識
Transformers

W
ones
108
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデル
音声認識
Transformers

W
Nancyzzz
103
0
Wav2vec2 Base Timit Demo Colab
Apache-2.0
facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、低い単語誤り率(WER)を実現しています。
音声認識
Transformers

W
nawta
96
1
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。
音声認識
Transformers

W
neweasterns
100
0
Wav2vec2 Base Ft Cv3 V3
Apache-2.0
このモデルはfacebook/wav2vec2-baseをCommon Voice 3.0英語データセットで微調整した音声認識モデルで、テストセットで0.247の単語誤り率を達成しました。
音声認識
Transformers

W
danieleV9H
120
0
Wav2vec Trained
Apache-2.0
このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで単語誤り率0.1042を達成しました。
音声認識
Transformers

W
eugenetanjc
70
0
Wav2vec Cv
Apache-2.0
facebook/wav2vec2-base-960hをファインチューニングした音声認識モデル
音声認識
Transformers

W
eugenetanjc
69
0
Wav2vec Mle
Apache-2.0
facebook/wav2vec2-base-960hをベースにファインチューニングした音声認識モデルで、評価セットでの単語誤り率は1.0
音声認識
Transformers

W
eugenetanjc
68
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化
音声認識
Transformers

W
dasolj
127
0
Project NLP
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで0.3355の単語誤り率(WER)を達成しました。
音声認識
Transformers

P
zakria
22
0
Wav2vec2 Base Dataset Asr Demo Colab
Apache-2.0
これはdistilhubertをsuperbデータセットで微調整した音声認識モデルで、主に自動音声認識(ASR)タスクに使用されます。
音声認識
Transformers

W
aminnaghavi
34
0
Test Demo Colab
これは自動生成されたテストモデルで、主にデモンストレーションと実験目的で使用されます。
大規模言語モデル
Transformers

T
YYSH
16
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、評価セットで0.3384の単語誤り率(WER)を達成しました。
音声認識
Transformers

W
mikeluck
38
0
Wav2vec2 Keyword Spotting Int8
wav2vec2アーキテクチャに基づく音声キーワード検出モデルで、Optimum OpenVINOによる量子化最適化が施されています
音声認識
Transformers

W
sampras343
17
0
Wac2vec Lllfantomlll
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで0.3417の単語誤り率を達成しました。
音声認識
Transformers

W
lllFaNToMlll
27
0
Wav2vec2 Base Vios Commonvoice 1
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをCommon Voiceデータセットでファインチューニングした音声認識モデルで、自動音声認識タスクをサポートします。
音声認識
Transformers

W
tclong
21
0
- 1
- 2
- 3
- 4
- 5
- 6
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98