Parakeet Tdt Ctc 0.6b Ja
このモデルはFastConformerアーキテクチャに基づく日本語自動音声認識(ASR)モデルで、NVIDIAによって開発されMLXフォーマットに変換されました。
音声認識
P
mlx-community
368
1
Ultravox V0 5 Llama 3 2 1b
MIT
meta-llama/Llama-3.2-1B-Instructの重みを事前ロードした多言語テキスト変換モデル
大規模言語モデル
Transformers 複数言語対応

U
FriendliAI
211
0
Pyannote Segmentation
MIT
これは冪集合エンコーディングに基づくスピーカーセグメンテーションモデルで、10秒の音声クリップを処理し、複数のスピーカーとそのオーバーラップ状況を識別できます。
話者の処理
P
it-just-works
771
0
Speaker Diarization 2.5
MIT
pyannote/speaker-diarization-3.0をベースに改良した話者分割モデル。speechbrain/spkrec-ecapa-voxcelebを使用した話者埋め込みにより、特定のテストでより優れた性能を発揮
話者の処理
S
Willy030125
26
0
Lite Whisper Large V3 Acc
Apache-2.0
Lite-Whisper は OpenAI Whisper の圧縮バージョンで、LiteASR 技術を採用し、高い精度を維持しながらモデルサイズを削減しています。
音声認識
Transformers

L
efficient-speech
57
3
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravoxは多言語音声テキスト変換モデルで、LLaMA-3-2.1Bアーキテクチャを最適化し、複数言語の音声認識と文字起こしタスクをサポートします。
音声生成テキスト
Transformers 複数言語対応

U
onnx-community
1,088
3
Ultravox V0 5 Llama 3 2 1b
MIT
UltravoxはLlama3.2-1BとWhisper-large-v3を基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
テキスト生成オーディオ
Transformers 複数言語対応

U
fixie-ai
167.25k
21
Whisper Large V3 Turbo Russian
MIT
OpenAI Whisper Large V3 Turboを基に最適化したロシア語自動音声認識(ASR)モデル、Mozilla Common Voice 17ロシア語データセットでファインチューニング
音声認識
Transformers その他

W
dvislobokov
1,022
12
Segmentation 3.0
MIT
これは音声セグメンテーションのためのモデルで、スピーカーの変化、音声活動、およびオーバーラップ音声を検出でき、マルチスピーカーシナリオの音声分析に適しています。
話者の処理
S
fatymatariq
1,228
0
Uzbek Stt 3
Apache-2.0
Oyqiz/uzbek_sttをベースにファインチューニングしたウズベク語音声認識モデルで、特に法律と軍事分野のデータに最適化されています
音声認識
Transformers その他

U
sarahai
157
3
Segmentation 3.0
MIT
これはpyannote.audioをベースにしたスピーカーセグメンテーションモデルで、音声活動、スピーカー変更、オーバーラップ音声を検出できます。
話者の処理
S
tensorlake
387
1
Voice Gender Classifier
MIT
ECAPA-TDNNアーキテクチャに基づく事前学習モデルで、人間の音声から性別を分類する
音声分類
Transformers

V
JaesungHuh
14.01k
16
Whisper Large V3 Gguf
Apache-2.0
Whisperは多言語自動音声認識(ASR)システムで、複数の言語の音声をテキストに変換するタスクをサポートしています。
音声認識 複数言語対応
W
vonjack
931
14
Faster Whisper Large V3 Ja
MIT
OpenAI Whisper large-v3をベースにした日本語最適化バージョン、多言語音声認識をサポート
音声認識 複数言語対応
F
JhonVanced
46
3
Pyannote Segmentation 30
MIT
これは音声処理用の話者分割モデルで、音声活動、重複音声、複数話者を検出できます。
話者の処理
P
collinbarnwell
873
0
Faster Whisper Large V3
MIT
Whisper large-v3はOpenAIが開発した大規模多言語自動音声認識(ASR)モデルで、複数言語の音声からテキストへの変換タスクをサポートしています。
音声認識 複数言語対応
F
Systran
713.48k
376
Speaker Diarization 3.1
MIT
音声内の異なる話者を自動的に検出・分割する音声処理モデルです。
話者の処理
S
pyannote
11.7M
822
Speaker Diarization 3.0
MIT
pyannote.audio 3.0.0でトレーニングされたスピーカーダイアリゼーションパイプライン。自動音声活動検出、スピーカー変化検出、オーバーラップ音声検出をサポート
話者の処理
S
pyannote
463.91k
186
Segmentation 3.0
MIT
これはパワーセットエンコーディングに基づく話者分割モデルで、10秒の音声クリップを処理し、複数の話者とその重複音声を識別できます。
話者の処理
S
pyannote
12.6M
445
Wav2vec Fine Tuned Speech Command2
Apache-2.0
facebook/wav2vec2-baseをspeech_commandsデータセットでファインチューニングした音声認識モデル、精度は97.35%
音声分類
Transformers

W
Thamer
16
0
Sonic48k
Sonic48k は RVC (Retrieval-based Voice Conversion) 技術に基づく音声変換モデルで、主に音声変換タスクに使用されます。
音声合成
Transformers

S
sail-rvc
25
1
Saitamarvcv2 E520 S7800
これはRVC(Retrieval-Based Voice Conversion)モデルで、音声から音声への変換タスクに使用されます。
音声合成
Transformers

S
sail-rvc
234
0
Messi RVC V2 Crepe 200 Epochs
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、200回の訓練を経ており、Crepeアルゴリズムを使用しています。
音声合成
Transformers

M
sail-rvc
3,077
0
Luffysan2333333
これはRVC(Retrieval-Based Voice Conversion)モデルで、音声から音声への変換タスクに使用され、声の変換を実現できます。
音声合成
Transformers

L
sail-rvc
1,040
0
KORONE
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声を特定のスタイルに変換できます。
音声合成
Transformers

K
sail-rvc
16
1
Edsheeran2333333
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声を特定のスタイルに変換できます。
音声合成
Transformers

E
sail-rvc
3,637
1
Chicken V2 E250 S3750
これはRVC(Retrieval-based Voice Conversion)モデルで、音声から音声への変換タスクに使用され、音声変換を実現できます。
音声合成
Transformers

C
sail-rvc
321
0
Ariana Grande RVC V1
これはRVC(Retrieval-Based Voice Conversion)技術に基づく音声変換モデルで、入力音声をアリアナ・グランデスタイルの音声に変換できます。
音声合成
Transformers

A
sail-rvc
5,404
2
Speechcommand Demo
Apache-2.0
facebook/wav2vec2-baseをファインチューニングした音声コマンド分類モデル、superbデータセットでトレーニングされ、精度98.09%を達成
音声分類
Transformers

S
SHENMU007
18
0
Faster Whisper Large V2
MIT
これはOpenAI Whisper large-v2モデルのCTranslate2変換バージョンで、効率的な音声認識に使用されます
音声認識 複数言語対応
F
guillaumekln
161.19k
199
Phil Pyannote Speaker Diarization Endpoint
MIT
pyannote.audio 2.0バージョンに基づくスピーカーダイアリゼーションモデルで、音声中の異なる話者を自動検出・分割します。
話者の処理
P
tawkit
215
7
Pyannote Speaker Diarization Endpoint
MIT
pyannote.audio 2.0ベースの話者分割モデルで、音声中の話者変化や音声活動を自動検出
話者の処理
P
philschmid
51
18
Wav2vec2 Keyword Spotting Int8
wav2vec2アーキテクチャに基づく音声キーワード検出モデルで、Optimum OpenVINOによる量子化最適化が施されています
音声認識
Transformers

W
sampras343
17
0
Wangyou Zhang Chime4 Enh Train Enh Conv Tasnet Raw
ESPnetフレームワークでトレーニングされた音声強調モデルで、chime4データセットを使用してトレーニングされ、シングルチャネル音声強調タスクに適しています。
オーディオ拡張
W
espnet
57
1
S2t Small Mustc En Nl St
MIT
S2Tアーキテクチャに基づくエンドツーエンド音声翻訳モデルで、英語からオランダ語への音声翻訳タスク向けに設計されています
音声認識
Transformers 複数言語対応

S
facebook
20
0
Sepformer Whamr Enhancement
Apache-2.0
このモデルはSepFormerアーキテクチャを通じて音声強化(ノイズ除去 + 残響除去)を実現し、WHAMR!データセット(8kHz)で事前学習され、テストセットのSI - SNRは10.59dBに達します。
オーディオ拡張 英語
S
speechbrain
570
11
Wav2vec2 Large Xlsr 53 Italian
Apache-2.0
Facebookが公開したWav2Vec2アーキテクチャに基づく大規模イタリア語自動音声認識モデル、Common Voiceデータセットでファインチューニング済み
音声認識 その他
W
facebook
4,013
6
S2t Small Mustc En Es St
MIT
英語からスペイン語へのエンドツーエンド音声翻訳のための音声テキスト変換モデル
音声認識
Transformers 複数言語対応

S
facebook
20
0
Wav2vec2 Large Xlsr 53 Greek
Apache-2.0
これはXLSR-Wav2Vec2アーキテクチャに基づくギリシャ語自動音声認識モデルで、ギリシャ軍事学院とクレタ工科大学によって開発されました。
音声認識 その他
W
lighteternal
443
8
Metricgan Plus Voicebank
Apache-2.0
これはMetricGAN+方法を使用して訓練された音声強化モデルで、音声品質を効果的に向上させることができます。
オーディオ拡張 英語
M
speechbrain
55.91k
65
- 1
- 2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98