# 即時處理

Ultravox V0 5 Llama 3 2 1b GGUF
MIT
Ultravox v0.5是基於Llama-3 2.1B架構優化的音頻文本轉文本模型,專注於高效處理語音轉寫任務。
語音識別
U
ggml-org
421
1
Mediapipe Selfie Segmentation Landscape
Apache-2.0
一個基於ONNX格式的輕量級人像分割模型,專門優化用於橫向圖像中的人物與背景分離。
圖像分割
M
onnx-community
45
3
Vitpose Base Simple
基於ViT架構的輕量級姿態估計模型,用於人體關鍵點檢測
姿態估計 Transformers
V
onnx-community
31
3
Coreml Sam2 Tiny
Apache-2.0
SAM 2 Tiny 是FAIR推出的圖像與視頻通用分割模型的Core ML版本,適配於移動端應用
圖像分割
C
apple
15
15
Genrevim Music Detection DistilHuBERT
該模型是基於DistilHuBERT微調的音頻分類模型,專門用於區分音樂與非音樂音頻。
音頻分類 Transformers
G
MarekCech
61
0
Resnet50 Facial Emotion Recognition
Apache-2.0
這是一個基於Apache-2.0許可證發佈的AI模型,具體功能需要根據實際模型類型確定
大型語言模型 Transformers
R
KhaldiAbderrhmane
50
3
Nl2sql 7b
Apache-2.0
這是一個使用Apache-2.0許可證的開源模型,具體信息需補充
大型語言模型 Transformers
N
DMetaSoul
47
1
Yolov8n Handwritten Text Detection
基於YOLOv8的目標檢測模型,專門用於檢測手寫文本內容
目標檢測 其他
Y
armvectores
546
9
Trocr Base Plate Number
Apache-2.0
一個用於識別車輛牌照的視覺模型示例,能夠從圖片中提取車牌號碼。
文字識別 Transformers
T
ghanahmada
100
1
Language Detector
Apache-2.0
基於openai/whisper-small微調的語言檢測模型,在評估集上準確率達96.47%
語音識別 Transformers
L
fitlemon
18
1
Tiny Random Vits
Apache-2.0
基於Apache-2.許可證的開源模型,具體功能需根據實際模型確定
大型語言模型 Transformers
T
echarlaix
1,835
0
Ssast Audioset Librispeech 16 16
該模型用於音頻分類任務,能夠對音頻數據進行分類識別。
音頻分類 Transformers
S
yangwang825
18
1
Ast Finetuned Speech Commands V2
基於AST架構的語音命令識別模型,專為網頁端部署優化的ONNX格式版本
音頻分類 Transformers
A
Xenova
15
0
Pyannote Speaker Diarization Endpoint
MIT
基於pyannote.audio 2.0版本的說話人分割模型,用於自動檢測和分割音頻中的不同說話人
說話人處理
P
KIFF
1,830
4
Segformer Finetuned Lane 10k Steps
其他
基於SegFormer架構的輕量級車道線檢測模型,在lane_master數據集上微調10,000步
圖像分割 Transformers
S
Efferbach
1,077
0
Whitebox Cartoonizer
CC
一個基於TensorFlow的SavedModel格式的白盒卡通化器模型,能夠將真實圖像轉換為卡通風格。
圖像生成
W
sayakpaul
71
22
Whisper Small ISSAI KSC 335RS V2
基於Whisper架構的小型語音識別模型,適用於特定領域的語音轉文本任務
語音識別 Transformers
W
Shirali
83
1
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
這是一個基於MIT許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
圖像生成文本
M
laion
21.02k
20
Bert Seg V2
Apache-2.0
這是一個基於Apache-2.0許可證的開源模型,具體功能需要根據實際模型類型確定
大型語言模型 Transformers
B
simonnedved
20
0
Unixcoder Base Unimodal
Apache-2.0
這是一個使用Apache-2.0許可證的開源模型,具體功能和應用領域需要進一步確認
大型語言模型 Transformers
U
microsoft
23
1
Trocr Captcha
MIT
該模型是一個基於MIT許可證的開源模型,CER(字符錯誤率)為0.0019,表明其在特定任務上具有較高的準確性。
大型語言模型 Transformers
T
tomofi
37
5
Wav2vec2 Xls R Tf Left Right Trainer
Apache-2.0
基於facebook/wav2vec2-xls-r-300m微調的語音識別模型,支持左右聲道處理
語音識別 Transformers
W
hrdipto
30
0
Bert News
基於Transformer架構的中文預訓練語言模型,適用於多種自然語言處理任務
大型語言模型 Transformers
B
dkhara
6
0
Distilhubert Ft Keyword Spotting
Apache-2.0
基於DistilHuBERT架構的關鍵詞識別模型,在superb數據集上微調,準確率達97.06%
音頻分類 Transformers
D
anton-l
14
1
Speaker Diarization
MIT
基於pyannote.audio 2.1.1版本的說話人分割模型,用於自動檢測音頻中的說話人變化和重疊語音
說話人處理
S
pyannote
910.93k
1,038
Minylm L3 Aug Sst2 Distilled
這是一個性能表現良好的模型,測試準確率達到91.17%,測試損失為0.241。
文本分類 Transformers
M
moshew
17
0
Distil Wav2vec2 Adult Child Cls 37m
Apache-2.0
基於wav2vec 2.0架構的音頻分類模型,用於區分成人和兒童語音
音頻分類 Transformers 英語
D
bookbot
15
2
Xlm Roberta Base Finetuned Somali
Apache-2.0
大型語言模型 Transformers
X
Davlan
81
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase