Ten Vad
Apache-2.0
TEN VAD 是一個低延遲、輕量級、高性能的流式語音活動檢測系統,適用於即時語音處理場景。
語音識別 其他
T
TEN-framework
16
29
Erax WoW Turbo V1.1
MIT
專為越南語優化的Whisper Large-v3 Turbo語音識別模型,支持多語言,具有極速響應和高準確度
語音識別
Transformers 其他

E
erax-ai
666
11
Erax WoW Turbo V1.0
MIT
專為越南語優化的Whisper Large-v3 Turbo語音識別模型,支持多語言即時轉錄
語音識別
Transformers 其他

E
erax-ai
655
49
Omniparser V2.0
MIT
OmniParser是一款通用屏幕解析工具,能夠將UI截圖解釋/轉換為結構化格式,以提升基於LLM的UI代理性能。
圖像生成文本
Transformers

O
microsoft
6,729
1,185
Llava Mini Llama 3.1 8b
Gpl-3.0
LLaVA-Mini是一款高效的多模態大模型,通過僅使用1個視覺令牌表示圖像,顯著提升了圖像和視頻理解的效率。
圖像生成文本
L
ICTNLP
12.45k
51
VITA 1.5
VITA-1.5是一個多模態交互模型,旨在實現GPT-4o級別的即時視覺與語音交互能力。
V
VITA-MLLM
345
40
Speaker Diarization V1
MIT
這是一個基於冪集多類交叉熵損失的說話人分割模型,能夠處理10秒單聲道音頻,輸出說話人分割結果。
說話人處理
S
objects76
13
0
Pikachu
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,可以將輸入音頻轉換為皮卡丘風格的語音。
語音合成
Transformers

P
sail-rvc
2,216
0
Jiafei2333333
這是一個RVC(Retrieval-based Voice Conversion)模型,用於音頻轉音頻任務。
語音合成
Transformers

J
sail-rvc
6
0
Freddiek7
這是一個RVC(Retrieval-based Voice Conversion)模型,用於音頻到音頻的轉換任務。
語音合成
Transformers

F
sail-rvc
6
0
Todoroki2333333
這是一個RVC(Retrieval-based Voice Conversion)模型,用於音頻到音頻的轉換任務。
語音合成
Transformers

T
sail-rvc
376
0
Spongebob
這是一個基於 RVC (Retrieval-based Voice Conversion) 技術的語音轉換模型,可以將輸入音頻轉換為海綿寶寶的聲音。
語音合成
Transformers

S
sail-rvc
15
1
Shrek
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,可以將源語音轉換為目標語音風格。
語音合成
Transformers

S
sail-rvc
5,919
2
Rubberchicken
這是一個RVC(Retrieval-based Voice Conversion)模型,用於音頻轉音頻任務。
語音合成
Transformers

R
sail-rvc
383
0
Kanyewest
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的語音轉換模型,可將輸入音頻轉換為坎耶·韋斯特的聲音風格。
語音合成
Transformers

K
sail-rvc
3,523
0
Justinbiebermw
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的音頻轉換模型,專門用於將輸入音頻轉換為賈斯汀·比伯(Justin Bieber)風格的語音。
語音合成
Transformers

J
sail-rvc
4,656
0
Erenyeager
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為特定角色的聲音。
語音合成
Transformers

E
sail-rvc
693
0
Chester Bennington RVC 1000 Epochs
這是一個基於RVC(即時語音轉換)技術的模型,專門用於將輸入語音轉換為Chester Bennington風格的語音。
語音合成
Transformers

C
sail-rvc
2,869
2
Butters
這是一個RVC(Retrieval-Based Voice Conversion)語音轉換模型,用於音頻到音頻的轉換任務。
語音合成
Transformers

B
sail-rvc
20
0
Beyonce2333333
即時語音轉換模型,支持航海等場景的即時語音轉換
語音合成
Transformers

B
sail-rvc
1,909
1
Bakugo2333333
這是一個RVC(Retrieval-Based Voice Conversion)模型,用於音頻到音頻的轉換任務。
語音合成
Transformers

B
sail-rvc
687
0
Wsj0 2mix Skim Small Causal
這是一個基於ESPnet框架訓練的語音增強模型,專門用於處理wsj0_2mix數據集中的混合語音信號分離任務。
音頻增強 英語
W
lichenda
26
1
Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V5
Apache-2.0
基於wav2vec2-large-xlsr-53的自動語音識別模型,在GARY109/AI_LIGHT_DANCE數據集上微調
語音識別
Transformers

A
gary109
160
0
Waynehills STT Doogie Server
Apache-2.0
基於Doogie/Waynehills-STT-doogie-server微調的語音識別模型
語音識別
Transformers

W
Waynehillsdev
28
0
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98