Parakeet Tdt 0.6b V2 Onnx
NVIDIA Parakeet TDT 0.6B V2 は自動音声認識(ASR)タスクに基づくモデルで、英語音声からテキストへの変換タスクに適しています。
音声認識 英語
P
istupakov
129
3
Aero 1 Audio
MIT
軽量級オーディオモデル、音声認識、オーディオ理解及びオーディオ命令実行などの多様なタスクに優れる
音声生成テキスト
Transformers 英語

A
lmms-lab
1,348
74
Whisper Custom Small
Apache-2.0
OpenAI Whisper アーキテクチャに基づく小型音声認識モデルで、英語音声からテキストへの変換タスクに特化しています。
音声認識 英語
W
gyrroa
15
1
Wav2vec2 Tellmate
Apache-2.0
チェス座標認識に最適化された音声認識モデル。約2,500の英語チェス座標音声ファイルで微調整
音声認識
Transformers 複数言語対応

W
leomino
27
1
Moonshine Base
MIT
MoonshineはUseful Sensorsが開発した自動音声認識(ASR)モデルシリーズで、英語音声の文字起こしに特化しており、リソースが制限されたプラットフォームで優れた性能を発揮します。
音声認識
Transformers 英語

M
UsefulSensors
6,857
32
Whisper Base.en
WhisperはOpenAIが訓練した汎用音声認識モデルです。大規模な弱教師あり学習に基づいており、複数言語の音声転写をサポートします。
音声認識
Transformers

W
onnx-community
76
1
Deepfake Audio Detection
Apache-2.0
facebook/wav2vec2-baseをファインチューニングしたディープフェイク音声検出モデルで、評価セットでの精度は95.45%
音声分類
Transformers

D
Heem2
246
0
Parakeet Tdt Ctc 1.1b
Parakeet TDT-CTC 1.1Bは、句読点と大文字小文字を含む英語音声を文字起こしできる自動音声認識モデルで、NVIDIA NeMoとSuno.aiが共同開発しました。
音声認識 英語
P
nvidia
35.19k
18
Whisper Medicalv1
MIT
Distil-WhisperはWhisper large-v3の知識蒸留バージョンで、英語音声認識に特化し、より高速な推論速度を提供しながら、元のモデルに近い精度を維持します。
音声認識 英語
W
Crystalcareai
348
11
Wav2vec2 Bert CV16 En
w2v-bert-2.0をベースに、Common Voice 16.0の英語データセットで微調整された自動音声認識(ASR)モデル
音声認識
Transformers 英語

W
hf-audio
1,700
8
Distil Small.en
MIT
Distil-WhisperはWhisperモデルの蒸留バージョンで、速度が6倍速く、サイズが49%縮小され、非分布評価セットで1% WERに近い性能を発揮します。
音声認識
Transformers 英語

D
distil-whisper
33.51k
97
Faster Whisper Small.en
MIT
OpenAI Whisper small.enモデルのCTranslate2変換版で、効率的な音声認識に使用
音声認識 英語
F
Systran
129.26k
4
Distil Medium.en
MIT
Distil-WhisperはWhisperモデルの蒸留バージョンで、オリジナルより6倍速く、サイズが49%縮小され、英語音声認識タスクでオリジナルに近い性能を維持しています。
音声認識 英語
D
distil-whisper
186.85k
120
Distil Large V2
MIT
Distil-WhisperはWhisperモデルの蒸留版で、速度が6倍向上し、サイズが49%縮小され、非分布評価セットでの性能はWERでわずか1%の差しかありません。
音声認識 英語
D
distil-whisper
42.65k
508
Wav2vec2 Base 960h
Facebookのwav2vec2-base-960hモデルをONNX形式に変換したバージョンで、Transformers.js向けに設計されており、ブラウザ上での音声認識をサポート
音声認識
Transformers

W
Xenova
117
3
Wav2vec2 Large Xlsr 53 English
wav2vec 2.0アーキテクチャに基づく大規模音声認識モデルで、英語音声をテキストに変換可能
音声認識
Transformers

W
Xenova
14
2
Wavlm Bart
英語の自動音声認識(ASR)をサポートするシーケンス・ツー・シーケンスモデルで、正規化されたテキスト、タイムスタンプ注釈、複数話者セグメンテーションを出力可能です。
音声認識
Transformers 英語

W
nguyenvulebinh
24
2
Whisper Medium.en
Apache-2.0
WhisperはOpenAIが開発した自動音声認識(ASR)モデルで、68万時間のラベル付き音声データで訓練され、強力な汎化能力を持っています。
音声認識 英語
W
openai
36.92k
53
Whisper Small.en
Apache-2.0
Whisperは事前学習された自動音声認識(ASR)モデルで、68万時間のラベル付きデータで学習され、強力な汎化能力を示します。
音声認識 英語
W
openai
20.50k
47
Whisper Base.en
Apache-2.0
Whisperは強力な自動音声認識モデルで、68万時間のデータで訓練され、優れた汎化能力を持っています。
音声認識 英語
W
openai
2.2M
37
Whisper Tiny.en
Apache-2.0
Whisperは、68万時間のアノテーション付きデータで学習された事前学習済みの自動音声認識(ASR)モデルで、強力な汎化能力を持っています。
音声認識 英語
W
openai
145.30k
103
Exp W2v2t En Unispeech Sat S459
Apache-2.0
マイクロソフトのUniSpeech-SAT-Largeモデルをファインチューニングした英語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
音声認識
Transformers 英語

E
jonatasgrosman
22
0
Exp W2v2t En Vp Nl S281
Apache-2.0
facebook/wav2vec2-large-nl-voxpopuliモデルを基に微調整した英語音声認識モデルで、Common Voice 7.0トレーニングセットを使用して学習されています。
音声認識
Transformers 英語

E
jonatasgrosman
18
0
Exp W2v2t En No Pretraining S289
Apache-2.0
これは英語音声認識タスク向けのモデルで、ランダム初期化されたwav2vec2アーキテクチャを基に、Common Voice 7.0データセットでファインチューニングされています。
音声認識
Transformers 英語

E
jonatasgrosman
18
0
Wav2vec2 Large Xlsr 53 Enlgish FT ASCEND Colab
Apache-2.0
このモデルはjonatasgrosman/wav2vec2-large-xlsr-53-englishをascendデータセットでファインチューニングした音声認識モデルです。
音声認識
Transformers

W
Ryna
16
0
Assignment1 Omar
Apache-2.0
Wav2Vec2は自己教師あり学習に基づく音声認識モデルで、LibriSpeechの960時間の音声データで事前学習と微調整が行われ、英語音声の書き起こしをサポートします。
音声認識
Transformers 英語

A
Classroom-workshop
28
0
Xtreme S Xlsr 300m Voxpopuli En
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mをGOOGLE/XTREME_S - VOXPOPULI.ENデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクをサポートします。
音声認識
Transformers 英語

X
anton-l
28
0
Ascend With English
timit_asrデータセットを使用してascendモデルをファインチューニングした英語音声認識モデル
音声認識
Transformers

A
GleamEyeBeast
23
0
Wav2vec2 2 Gpt2 Regularisation
これはLibriSpeechデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。
音声認識
Transformers

W
sanchit-gandhi
20
0
Wav2vec2 2 Bart Large No Adapter
このモデルはLibriSpeech ASRデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。
音声認識
Transformers

W
sanchit-gandhi
22
0
Speech Text
Apache-2.0
facebook/wav2vec2-large-xlsr-53を英語の汎用音声データセットでファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの英語音声入力をサポートしています。
音声認識 英語
S
abidlabs
25
0
Wav2vec2 2 Rnd
LibriSpeech ASR データセットでトレーニングされた自動音声認識モデルで、英語音声をテキストに変換します。
音声認識
Transformers

W
sanchit-gandhi
16
0
English Model
facebook/wav2vec2-largeモデルをベースに、Common Voiceデータセットを使用して英語向けにファインチューニングされた音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。
音声認識
Transformers

E
tanmayplanet32
30
0
Wav2vec2 2 Bert Large
LibriSpeechデータセットでトレーニングされた自動音声認識(ASR)モデルで、英語音声をテキストに変換します
音声認識
Transformers

W
speech-seq2seq
17
0
Unispeech Sat Base Timit Ft
このモデルはmicrosoft/unispeech-sat-baseをTIMIT_ASRデータセットでファインチューニングした自動音声認識モデルで、評価セットで41.01%の単語誤り率を達成しました。
音声認識
Transformers

U
patrickvonplaten
15
0
Asr Wav2vec2 Commonvoice En
Apache-2.0
これはCommonVoice英語データセットを使って訓練されたエンドツーエンドの自動音声認識システムで、wav2vec 2.0の事前学習モデルとCTCデコーダを組み合わせています。
音声認識 英語
A
speechbrain
681
12
Wav2vec2 Xls R 1b English
Apache-2.0
これはXLS - R 1Bアーキテクチャに基づく英語音声認識モデルで、複数の英語音声データセットで微調整されています。
音声認識
Transformers 英語

W
jonatasgrosman
1,896
9
Unispeech Sat Base Plus Timit Ft
microsoft/unispeech - sat - base - plusをベースに、TIMIT_ASRデータセットでファインチューニングした自動音声認識(ASR)モデル
音声認識
Transformers

U
patrickvonplaten
16
0
Wav2vec2 2 Bert Large No Adapter
LibriSpeechデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換します
音声認識
Transformers

W
speech-seq2seq
15
1
Wav2vec2 Large Lv60 Timit
Apache-2.0
facebook/wav2vec2-large-lv60モデルをTIMITデータセットでファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
音声認識 英語
W
harshit345
21
1
- 1
- 2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98