Ten Vad
Apache-2.0
TEN VADは、リアルタイム音声処理シナリオに適した、低遅延で軽量、高性能なストリーミング音声活動検出システムです。
音声認識 その他
T
TEN-framework
16
29
Erax WoW Turbo V1.1
MIT
ベトナム語に最適化されたWhisper Large-v3 Turbo音声認識モデルで、多言語をサポートし、超高速応答と高精度を実現
音声認識
Transformers その他

E
erax-ai
666
11
Erax WoW Turbo V1.0
MIT
ベトナム語に最適化されたWhisper Large-v3 Turbo音声認識モデルで、多言語リアルタイム書き起こしをサポート
音声認識
Transformers その他

E
erax-ai
655
49
Omniparser V2.0
MIT
OmniParserは汎用スクリーン解析ツールで、UIスクリーンショットを解釈/構造化フォーマットに変換し、LLMベースのUIエージェントの性能を向上させます。
画像生成テキスト
Transformers

O
microsoft
6,729
1,185
Llava Mini Llama 3.1 8b
Gpl-3.0
LLaVA-Miniは効率的なマルチモーダル大規模モデルで、1つの視覚トークンだけで画像を表現することで、画像や動画理解の効率を大幅に向上させています。
画像生成テキスト
L
ICTNLP
12.45k
51
VITA 1.5
VITA-1.5はマルチモーダルインタラクションモデルで、GPT-4oレベルのリアルタイム視覚と音声インタラクション能力を実現することを目的としています。
V
VITA-MLLM
345
40
Speaker Diarization V1
MIT
これはパワーセットマルチクラス交差エントロピー損失に基づくスピーカーセグメンテーションモデルで、10秒のモノラル音声を処理し、スピーカーセグメンテーション結果を出力できます。
話者の処理
S
objects76
13
0
Pikachu
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声をピカチュウ風の音声に変換できます。
音声合成
Transformers

P
sail-rvc
2,216
0
Jiafei2333333
これはRVC(Retrieval-based Voice Conversion)モデルで、オーディオからオーディオへの変換タスクに使用されます。
音声合成
Transformers

J
sail-rvc
6
0
Freddiek7
これはRVC(Retrieval-based Voice Conversion)モデルで、オーディオからオーディオへの変換タスクに使用されます。
音声合成
Transformers

F
sail-rvc
6
0
Todoroki2333333
これはRVC(Retrieval-based Voice Conversion)モデルで、音声から音声への変換タスクに使用されます。
音声合成
Transformers

T
sail-rvc
376
0
Spongebob
これはRVC (Retrieval-based Voice Conversion) 技術に基づく音声変換モデルで、入力音声をスポンジ・ボブの声に変換できます。
音声合成
Transformers

S
sail-rvc
15
1
Shrek
これはRVC(Retrieval-based Voice Conversion)技術に基づいた音声変換モデルで、ソース音声をターゲット音声スタイルに変換できます。
音声合成
Transformers

S
sail-rvc
5,919
2
Rubberchicken
これはRVC(Retrieval-based Voice Conversion)モデルで、オーディオからオーディオへの変換タスクに使用されます。
音声合成
Transformers

R
sail-rvc
383
0
Kanyewest
これはRVC(Retrieval-Based Voice Conversion)技術に基づく音声変換モデルで、入力オーディオをカニエ・ウェストの声スタイルに変換できます。
音声合成
Transformers

K
sail-rvc
3,523
0
Justinbiebermw
これはRVC(Retrieval-Based Voice Conversion)技術に基づくオーディオ変換モデルで、入力オーディオをジャスティン・ビーバー(Justin Bieber)スタイルの音声に変換するために特別に設計されています。
音声合成
Transformers

J
sail-rvc
4,656
0
Erenyeager
これはRVC(Retrieval-Based Voice Conversion)技術に基づく音声変換モデルで、入力音声を特定のキャラクターの声に変換できます。
音声合成
Transformers

E
sail-rvc
693
0
Chester Bennington RVC 1000 Epochs
これはRVC(リアルタイムボイスチェンジ)技術に基づくモデルで、入力音声をChester Benningtonスタイルの音声に変換するために特別に設計されています。
音声合成
Transformers

C
sail-rvc
2,869
2
Butters
これはRVC(Retrieval-Based Voice Conversion)音声変換モデルで、オーディオからオーディオへの変換タスクに使用されます。
音声合成
Transformers

B
sail-rvc
20
0
Beyonce2333333
リアルタイム音声変換モデル、航海などのシーンでのリアルタイム音声変換をサポート
音声合成
Transformers

B
sail-rvc
1,909
1
Bakugo2333333
これはRVC(Retrieval-Based Voice Conversion)モデルで、音声から音声への変換タスクに使用されます。
音声合成
Transformers

B
sail-rvc
687
0
Wsj0 2mix Skim Small Causal
これはESPnetフレームワークで訓練された音声強調モデルで、wsj0_2mixデータセットの混合音声信号分離タスクに特化しています。
オーディオ拡張 英語
W
lichenda
26
1
Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V5
Apache-2.0
wav2vec2-large-xlsr-53をベースにした自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでファインチューニングされています
音声認識
Transformers

A
gary109
160
0
Waynehills STT Doogie Server
Apache-2.0
Doogie/Waynehills-STT-doogie-serverをファインチューニングした音声認識モデル
音声認識
Transformers

W
Waynehillsdev
28
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98