Qwen2 Audio 7B Instruct I1 GGUF
Apache-2.0
Qwen2-Audio-7B-Instructの重み/行列量子化モデルで、英語音声テキスト変換タスクをサポート
テキスト生成オーディオ
Transformers 英語

Q
mradermacher
282
0
Qwen2 Audio 7B Instruct GGUF
Apache-2.0
Qwen2-Audio-7B-Instructモデルの静的量子化バージョンで、英語音声テキスト変換タスクをサポート
音声生成テキスト
Transformers 英語

Q
mradermacher
146
0
Wav2vec2 Base Librispeech Demo Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをLibriSpeechデータセットでファインチューニングした音声認識モデルで、評価セットで0.3174の単語誤り率を達成しました。
音声認識
Transformers

W
vishwasgautam
14
0
Distil Large V3.5 ONNX
MIT
Distil-WhisperはOpenAI Whisper-Large-v3の知識蒸留バージョンで、より優れたパフォーマンスと効率性を提供します。
音声認識
Transformers 英語

D
distil-whisper
25
1
My Awesome Mind Model
Apache-2.0
facebook/wav2vec2-baseモデルをminds14データセットでファインチューニングした音声分類モデル
音声分類
Transformers

M
Gyaneshere
4
0
Ichigo Llama3.1 S Instruct V0.4 GGUF
Apache-2.0
Menlo/Ichigo-llama3.1-s-instruct-v0.4を基にした静的量子化モデルで、様々な量子化バージョンを提供し、異なるハードウェア要件に対応します。
大規模言語モデル 英語
I
mradermacher
369
1
My Awesome Mind Model
Apache-2.0
facebook/wav2vec2-baseをminds14データセットでファインチューニングした音声分類モデル
音声分類
Transformers

M
faaany
1
0
Mini Ichigo Llama3.2 3B S Instruct
Apache-2.0
Ichigo-llama3sシリーズモデルはHomebrew Researchが開発したマルチモーダル言語モデルで、音声とテキストの入力をネイティブに理解できます。このモデルはLlama-3アーキテクチャを基盤としており、WhisperVQを音声ファイルトークナイザーとして使用してトレーニングされ、音声理解能力が向上しています。
テキスト生成オーディオ
Safetensors 英語
M
Menlo
22
34
Ichigo Llama3.1 S Instruct V0.3 Phase 3
Apache-2.0
Ichigo-llama3sは音声とテキスト入力をサポートする大規模言語モデルシリーズで、音声理解能力とユーザーインタラクション体験の向上に焦点を当てています。
テキスト生成オーディオ 英語
I
homebrewltd
43
35
Whisper Ner V1
MIT
WhisperNERは、音声文字起こしとエンティティ認識を同時に行うことができる新しいモデルで、オープン型の固有表現認識(NER)をサポートしています。
音声認識 複数言語対応
W
aiola
174
23
Phoneme Scorer V2 Wav2vec2
Apache-2.0
Wav2Vec2-Baseアーキテクチャに基づく自動音声認識モデルで、音素認識に特化しており、LJSpeech Phonemesデータセットでファインチューニングされています
音声認識
Transformers 英語

P
ct-vikramanantha
167
9
Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k
Apache-2.0
facebook/wav2vec2-large-lv60をファインチューニングした英語音素認識モデルで、TIMITデータセットにおいて10.53%の音素誤り率を達成
音声認識
Transformers 英語

W
excalibur12
306
3
Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k 002
Apache-2.0
facebook/wav2vec2-large-lv60をTIMITデータセットでファインチューニングした英語音素認識モデル、音素誤り率10.53%
音声認識
Transformers 英語

W
excalibur12
103
1
Gazelle V0.2
Apache-2.0
Gazelle v0.2 は Tincans によってリリースされた音声-言語統合モデルで、英語をサポートしています。
テキスト生成オーディオ
Transformers 英語

G
tincans-ai
90
99
Wav2vec2 Large Xlsr 53 English Finetuned Ravdess
Apache-2.0
wav2vec2-large-xlsr-53-englishモデルをRAVDESSデータセットでファインチューニングした音声感情認識モデル
音声分類
Transformers

W
firdho26
68
0
Wav2vec2 Lg Xlsr En Speech Emotion Recognition Finetuned Ravdess V8
Apache-2.0
wav2vec2アーキテクチャに基づく英語音声感情認識モデル、RAVDESSデータセットで微調整
音声分類
Transformers

W
Wiam
94
4
Speech Accent Classification
Apache-2.0
Wav2Vec2アーキテクチャに基づく音声認識の基本モデルで、960時間の英語音声データでトレーニングされており、音声分類タスクに適しています。
音声分類
Transformers 英語

S
dima806
40
4
Wav2vec2 Base Speech Emotion Recognition
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声感情認識モデルで、音声サンプル中の話者の感情を予測します。
音声分類
Transformers 英語

W
DunnBC22
128
13
Wav2vec2 Ljspeech Gruut
Apache-2.0
Wav2Vec2アーキテクチャに基づく音素認識モデルで、LJSpeech Phonemesデータセットでファインチューニングされ、音声を音素シーケンスに変換するために使用されます
音声認識
Transformers 英語

W
bookbot
2,484
17
Wav2vec2 Large 960h Intent Classification Ori
Apache-2.0
facebook/wav2vec2-large-960hをファインチューニングした意図分類モデルで、評価セットで77.08%の精度を達成
音声分類
Transformers

W
MuhammadIqbalBazmi
15
0
Wav2vec2 Large Tedlium
Apache-2.0
TEDLIUMコーパスでファインチューニングされたWav2Vec2大型音声認識モデル、英語音声からテキストへの変換をサポート
音声認識 英語
W
sanchit-gandhi
58
1
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、Google Colab環境でトレーニングされました。
音声認識
Transformers

W
pannaga
16
0
Wav2vec2 Base Timit Demo Colab
Apache-2.0
facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、低い単語誤り率(WER)を実現しています。
音声認識
Transformers

W
nawta
96
1
Wav2vec Cv
Apache-2.0
facebook/wav2vec2-base-960hをファインチューニングした音声認識モデル
音声認識
Transformers

W
eugenetanjc
69
0
Wav2vec Mle
Apache-2.0
facebook/wav2vec2-base-960hをベースにファインチューニングした音声認識モデルで、評価セットでの単語誤り率は1.0
音声認識
Transformers

W
eugenetanjc
68
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化
音声認識
Transformers

W
dasolj
127
0
Wav2vec2 Base Dataset Asr Demo Colab
Apache-2.0
これはdistilhubertをsuperbデータセットで微調整した音声認識モデルで、主に自動音声認識(ASR)タスクに使用されます。
音声認識
Transformers

W
aminnaghavi
34
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、評価セットで0.3384の単語誤り率(WER)を達成しました。
音声認識
Transformers

W
mikeluck
38
0
Assignment1 Francesco
MIT
音声からテキストへの変換器(S2T)で訓練された自動音声認識(ASR)モデルで、英語音声認識向けに設計されています
音声認識
Transformers 英語

A
Classroom-workshop
22
0
Wav2vec2 19
Apache-2.0
facebook/wav2vec2-baseを微調整した音声認識モデルで、自動音声文字変換タスクをサポート
音声認識
Transformers

W
chrisvinsen
18
0
Xlsr English
Apache-2.0
facebook/wav2vec2-xls-r-300mをlibrispeech_asrデータセットでファインチューニングした英語音声認識モデル
音声認識
Transformers

X
ashesicsis1
18
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化しています。
音声認識
Transformers

W
wrice
17
0
Wav2vec2 Base Timit Google Colab
Apache-2.0
facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、評価セットで0.3355の単語誤り率(WER)を達成しました。
音声認識
Transformers

W
anithapappu
19
0
Wav2vec2 7
Apache-2.0
このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで0.52の単語誤り率を達成しました。
音声認識
Transformers

W
chrisvinsen
20
0
D L Dl
このモデルはfacebook/wav2vec2-base-960hをファインチューニングした音声認識モデルで、評価セットでの単語誤り率(WER)は1.0です。
音声認識
Transformers

D
bkh6722
25
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに適しています
音声認識
Transformers

W
BitanBiswas
28
0
Wav2vec2 Base Timit Demo Google Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。
音声認識
Transformers

W
patrickvonplaten
26
2
Wav2vec2 Base Timit Demo Colab92
Apache-2.0
facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデル
音声認識
Transformers

W
hassnain
16
0
Wav2vec2 Base Timit Demo Colab90
Apache-2.0
facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化
音声認識
Transformers

W
hassnain
16
0
Wav2vec2 Base Timit Demo Colab11
Apache-2.0
このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、TIMITデータセットで0.4348の単語誤り率を達成しました。
音声認識
Transformers

W
sameearif88
18
0
- 1
- 2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98