Ultravox V0 5 Llama 3 2 1b GGUF
MIT
Ultravox v0.5是基於Llama-3 2.1B架構優化的音頻文本轉文本模型,專注於高效處理語音轉寫任務。
語音識別
U
ggml-org
421
1
Mediapipe Selfie Segmentation Landscape
Apache-2.0
一個基於ONNX格式的輕量級人像分割模型,專門優化用於橫向圖像中的人物與背景分離。
圖像分割
M
onnx-community
45
3
Vitpose Base Simple
基於ViT架構的輕量級姿態估計模型,用於人體關鍵點檢測
姿態估計
Transformers

V
onnx-community
31
3
Coreml Sam2 Tiny
Apache-2.0
SAM 2 Tiny 是FAIR推出的圖像與視頻通用分割模型的Core ML版本,適配於移動端應用
圖像分割
C
apple
15
15
Genrevim Music Detection DistilHuBERT
該模型是基於DistilHuBERT微調的音頻分類模型,專門用於區分音樂與非音樂音頻。
音頻分類
Transformers

G
MarekCech
61
0
Resnet50 Facial Emotion Recognition
Apache-2.0
這是一個基於Apache-2.0許可證發佈的AI模型,具體功能需要根據實際模型類型確定
大型語言模型
Transformers

R
KhaldiAbderrhmane
50
3
Nl2sql 7b
Apache-2.0
這是一個使用Apache-2.0許可證的開源模型,具體信息需補充
大型語言模型
Transformers

N
DMetaSoul
47
1
Yolov8n Handwritten Text Detection
基於YOLOv8的目標檢測模型,專門用於檢測手寫文本內容
目標檢測 其他
Y
armvectores
546
9
Trocr Base Plate Number
Apache-2.0
一個用於識別車輛牌照的視覺模型示例,能夠從圖片中提取車牌號碼。
文字識別
Transformers

T
ghanahmada
100
1
Language Detector
Apache-2.0
基於openai/whisper-small微調的語言檢測模型,在評估集上準確率達96.47%
語音識別
Transformers

L
fitlemon
18
1
Tiny Random Vits
Apache-2.0
基於Apache-2.許可證的開源模型,具體功能需根據實際模型確定
大型語言模型
Transformers

T
echarlaix
1,835
0
Ssast Audioset Librispeech 16 16
該模型用於音頻分類任務,能夠對音頻數據進行分類識別。
音頻分類
Transformers

S
yangwang825
18
1
Ast Finetuned Speech Commands V2
基於AST架構的語音命令識別模型,專為網頁端部署優化的ONNX格式版本
音頻分類
Transformers

A
Xenova
15
0
Pyannote Speaker Diarization Endpoint
MIT
基於pyannote.audio 2.0版本的說話人分割模型,用於自動檢測和分割音頻中的不同說話人
說話人處理
P
KIFF
1,830
4
Segformer Finetuned Lane 10k Steps
其他
基於SegFormer架構的輕量級車道線檢測模型,在lane_master數據集上微調10,000步
圖像分割
Transformers

S
Efferbach
1,077
0
Whitebox Cartoonizer
CC
一個基於TensorFlow的SavedModel格式的白盒卡通化器模型,能夠將真實圖像轉換為卡通風格。
圖像生成
W
sayakpaul
71
22
Whisper Small ISSAI KSC 335RS V2
基於Whisper架構的小型語音識別模型,適用於特定領域的語音轉文本任務
語音識別
Transformers

W
Shirali
83
1
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
這是一個基於MIT許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
圖像生成文本
M
laion
21.02k
20
Bert Seg V2
Apache-2.0
這是一個基於Apache-2.0許可證的開源模型,具體功能需要根據實際模型類型確定
大型語言模型
Transformers

B
simonnedved
20
0
Unixcoder Base Unimodal
Apache-2.0
這是一個使用Apache-2.0許可證的開源模型,具體功能和應用領域需要進一步確認
大型語言模型
Transformers

U
microsoft
23
1
Trocr Captcha
MIT
該模型是一個基於MIT許可證的開源模型,CER(字符錯誤率)為0.0019,表明其在特定任務上具有較高的準確性。
大型語言模型
Transformers

T
tomofi
37
5
Wav2vec2 Xls R Tf Left Right Trainer
Apache-2.0
基於facebook/wav2vec2-xls-r-300m微調的語音識別模型,支持左右聲道處理
語音識別
Transformers

W
hrdipto
30
0
Bert News
基於Transformer架構的中文預訓練語言模型,適用於多種自然語言處理任務
大型語言模型
Transformers

B
dkhara
6
0
Distilhubert Ft Keyword Spotting
Apache-2.0
基於DistilHuBERT架構的關鍵詞識別模型,在superb數據集上微調,準確率達97.06%
音頻分類
Transformers

D
anton-l
14
1
Speaker Diarization
MIT
基於pyannote.audio 2.1.1版本的說話人分割模型,用於自動檢測音頻中的說話人變化和重疊語音
說話人處理
S
pyannote
910.93k
1,038
Minylm L3 Aug Sst2 Distilled
這是一個性能表現良好的模型,測試準確率達到91.17%,測試損失為0.241。
文本分類
Transformers

M
moshew
17
0
Distil Wav2vec2 Adult Child Cls 37m
Apache-2.0
基於wav2vec 2.0架構的音頻分類模型,用於區分成人和兒童語音
音頻分類
Transformers 英語

D
bookbot
15
2
Xlm Roberta Base Finetuned Somali
Apache-2.0
大型語言模型
Transformers

X
Davlan
81
0
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98