Ultravox V0 5 Llama 3 2 1b
MIT
基於meta-llama/Llama-3.2-1B-Instruct權重預加載的多語言文本轉文本模型
大型語言模型
Transformers 支持多種語言

U
FriendliAI
211
0
Lite Whisper Large V3 Acc
Apache-2.0
Lite-Whisper 是 OpenAI Whisper 的壓縮版本,採用 LiteASR 技術,在保持高準確率的同時減小模型大小。
語音識別
Transformers

L
efficient-speech
57
3
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravox是一個多語言音頻轉文本模型,基於LLaMA-3-2.1B架構優化,支持多種語言的語音識別和轉錄任務。
音頻生成文本
Transformers 支持多種語言

U
onnx-community
1,088
3
Ultravox V0 5 Llama 3 2 1b
MIT
Ultravox是一個基於Llama3.2-1B和Whisper-large-v3構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
文本生成音頻
Transformers 支持多種語言

U
fixie-ai
167.25k
21
Segmentation 3.0
MIT
這是一個用於音頻分割的模型,能夠檢測說話人變化、語音活動及重疊語音,適用於多說話人場景的音頻分析。
說話人處理
S
fatymatariq
1,228
0
Uzbek Stt 3
Apache-2.0
基於Oyqiz/uzbek_stt微調的烏茲別克語語音識別模型,特別針對法律和軍事領域數據進行了優化
語音識別
Transformers 其他

U
sarahai
157
3
Segmentation 3.0
MIT
這是一個基於pyannote.audio的說話人分割模型,能檢測語音活動、說話人變更和重疊語音。
說話人處理
S
tensorlake
387
1
Speaker Diarization 3.0
MIT
基於pyannote.audio 3.0.0訓練的說話人分割管道,支持自動語音活動檢測、說話人變化檢測和重疊語音檢測
說話人處理
S
pyannote
463.91k
186
Wav2vec Fine Tuned Speech Command2
Apache-2.0
基於facebook/wav2vec2-base在speech_commands數據集上微調的語音識別模型,準確率達97.35%
音頻分類
Transformers

W
Thamer
16
0
Speechcommand Demo
Apache-2.0
基於facebook/wav2vec2-base微調的語音命令分類模型,在superb數據集上訓練,準確率達98.09%
音頻分類
Transformers

S
SHENMU007
18
0
Phil Pyannote Speaker Diarization Endpoint
MIT
基於pyannote.audio 2.0版本的說話人分割模型,用於自動檢測和分割音頻中的不同說話人。
說話人處理
P
tawkit
215
7
Metricgan Plus Voicebank
Apache-2.0
這是一個使用MetricGAN+方法訓練的語音增強模型,能夠有效提升語音質量。
音頻增強 英語
M
speechbrain
55.91k
65
S2t Small Mustc En Nl St
MIT
基於S2T架構的端到端語音翻譯模型,專為英語到荷蘭語的語音翻譯任務設計
語音識別
Transformers 支持多種語言

S
facebook
20
0
S2t Small Mustc En Es St
MIT
一個用於端到端英語到西班牙語語音翻譯的語音到文本轉換器模型
語音識別
Transformers 支持多種語言

S
facebook
20
0
Wav2vec2 Large Xlsr 53 Greek
Apache-2.0
這是一個基於XLSR-Wav2Vec2架構的希臘語自動語音識別模型,由希臘軍事學院和克里特技術大學開發。
語音識別 其他
W
lighteternal
443
8
Sepformer Wham Enhancement
Apache-2.0
使用SepFormer模型進行語音增強(去噪)的工具集,在WHAM!數據集(8kHz採樣頻率版本)上預訓練,實現環境噪聲和混響的去除。
音頻增強 英語
S
speechbrain
827
23
Sepformer Whamr Enhancement
Apache-2.0
該模型通過SepFormer架構實現語音增強(去噪+去混響),在WHAMR!數據集(8kHz)上預訓練,測試集SI-SNR達10.59dB。
音頻增強 英語
S
speechbrain
570
11
Convtasnet Libri3Mix Sepnoisy 8k
基於Asteroid框架訓練的ConvTasNet模型,用於從混合音頻中分離出3個獨立音源,特別針對8kHz採樣率的含噪聲語音數據優化。
聲音分離
C
JorisCos
33
2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98