Pyannote Segmentation
MIT
這是一個基於冪集編碼的說話人分割模型,能夠處理10秒音頻片段並識別多個說話人及其重疊情況。
說話人處理
P
it-just-works
771
0
Speaker Diarization 2.5
MIT
基於pyannote/speaker-diarization-3.0修改的說話人分割模型,使用speechbrain/spkrec-ecapa-voxceleb進行說話人嵌入,在某些測試中表現更優
說話人處理
S
Willy030125
26
0
Whisper Large V3 Turbo Russian
MIT
基於OpenAI Whisper Large V3 Turbo優化的俄語自動語音識別(ASR)模型,使用Mozilla Common Voice 17俄語數據集微調
語音識別
Transformers 其他

W
dvislobokov
1,022
12
Distilhubert Finetuned Gtzan
Apache-2.0
基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達83%
音頻分類
Transformers

D
Leo1212
25
0
Voice Gender Classifier
MIT
基於ECAPA-TDNN架構的預訓練模型,用於從人類語音中分類性別
音頻分類
Transformers

V
JaesungHuh
14.01k
16
Whisper Large V3 Gguf
Apache-2.0
Whisper 是一個多語言自動語音識別(ASR)系統,支持多種語言的語音轉文本任務。
語音識別 支持多種語言
W
vonjack
931
14
Faster Whisper Large V3 Ja
MIT
基於OpenAI Whisper large-v3的日語優化版本,支持多語言語音識別
語音識別 支持多種語言
F
JhonVanced
46
3
Pyannote Segmentation 30
MIT
這是一個用於音頻處理的說話人分割模型,能夠檢測語音活動、重疊語音和多個說話人。
說話人處理
P
collinbarnwell
873
0
Faster Whisper Large V3
MIT
Whisper large-v3是OpenAI開發的大規模多語言自動語音識別(ASR)模型,支持多種語言的語音轉文字任務。
語音識別 支持多種語言
F
Systran
713.48k
376
Speaker Diarization 3.1
MIT
一個用於說話人分割的音頻處理模型,能夠自動檢測和分割音頻中的不同說話人。
說話人處理
S
pyannote
11.7M
822
Segmentation 3.0
MIT
這是一個基於冪集編碼的說話人分割模型,能夠處理10秒音頻片段並識別多個說話人及其重疊語音。
說話人處理
S
pyannote
12.6M
445
Sonic48k
Sonic48k 是一個基於 RVC (Retrieval-based Voice Conversion) 技術的音頻轉音頻模型,主要用於語音轉換任務。
語音合成
Transformers

S
sail-rvc
25
1
Saitamarvcv2 E520 S7800
這是一個RVC(Retrieval-Based Voice Conversion)模型,用於音頻到音頻的轉換任務。
語音合成
Transformers

S
sail-rvc
234
0
Messi RVC V2 Crepe 200 Epochs
這是一個基於RVC (Retrieval-based Voice Conversion) 技術的語音轉換模型,經過200輪訓練,使用Crepe算法。
語音合成
Transformers

M
sail-rvc
3,077
0
Luffysan2333333
這是一個RVC(Retrieval-Based Voice Conversion)模型,用於音頻轉音頻任務,能夠實現聲音轉換。
語音合成
Transformers

L
sail-rvc
1,040
0
KORONE
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為特定風格的語音。
語音合成
Transformers

K
sail-rvc
16
1
Homersimpson2333333
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為荷馬·辛普森風格的聲音。
語音合成
Transformers

H
sail-rvc
11.36k
1
Edsheeran2333333
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為特定風格的語音。
語音合成
Transformers

E
sail-rvc
3,637
1
DBZ Vegeta RVC
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的語音轉換模型,可以將輸入音頻轉換為貝吉塔(《龍珠》角色)的聲音。
語音合成
Transformers

D
sail-rvc
1,678
0
Ariana Grande RVC V1
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為愛莉安娜·格蘭德風格的語音。
語音合成
Transformers

A
sail-rvc
5,404
2
21savage
這是一個RVC(Retrieval-Based Voice Conversion)模型,用於音頻到音頻的轉換任務。
語音合成
Transformers

2
sail-rvc
1,739
0
Distilhubert Finetuned Gtzan
Apache-2.0
這是基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型,準確率達82%
音頻分類
Transformers

D
sanchit-gandhi
255
4
Faster Whisper Large V2
MIT
這是OpenAI Whisper large-v2模型的CTranslate2轉換版本,用於高效語音識別
語音識別 支持多種語言
F
guillaumekln
161.19k
199
Pyannote Speaker Diarization Endpoint
MIT
基於pyannote.audio 2.0的說話人分割模型,用於自動檢測音頻中的說話人變化和語音活動
說話人處理
P
philschmid
51
18
Wav2vec2 Keyword Spotting Int8
基於wav2vec2架構的語音關鍵詞檢測模型,已通過Optimum OpenVINO進行量化優化
語音識別
Transformers

W
sampras343
17
0
Wangyou Zhang Chime4 Enh Train Enh Conv Tasnet Raw
基於ESPnet框架訓練的語音增強模型,使用chime4數據集進行訓練,適用於單通道語音增強任務。
音頻增強
W
espnet
57
1
Wav2vec2 Large Xlsr 53 Italian
Apache-2.0
Facebook 發佈的基於 Wav2Vec2 架構的大規模意大利語自動語音識別模型,在 Common Voice 數據集上微調
語音識別 其他
W
facebook
4,013
6
Wav2vec2 Large Xlsr 53 Spanish
Apache-2.0
Facebook 發佈的基於 Wav2Vec2 架構的大規模跨語言語音識別模型,專門針對西班牙語優化
語音識別 西班牙語
W
facebook
66.63k
20
Fasnettac Paper
基於Asteroid框架訓練的音頻分離模型,專門用於處理帶噪聲的多通道音頻信號分離任務
聲音分離
F
popcornell
21
3
Convtasnet Libri1Mix Enhsingle
基於Asteroid框架訓練的ConvTasNet模型,用於單通道語音增強任務
音頻增強
C
mhu-coder
18
1
Quran Speech Recognizer
該模型是一個基於遷移學習的阿拉伯語語音識別系統,專門用於識別古蘭經誦讀內容並定位到具體章節。
語音識別
Transformers

Q
Nuwaisir
123
9
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98