# 零樣本泛化

The Teacher
基於Qwen3-1.7B微調,通過強化學習技術提升數學推理能力的語言模型
大型語言模型 Safetensors 英語
T
shiviktech
824
0
Sam Hq Vit Huge
Apache-2.0
SAM-HQ是Segment Anything Model(SAM)的增強版本,能夠生成更高質量的物體掩碼,特別適合處理複雜結構的物體。
圖像分割 Transformers
S
syscv-community
516
2
Sam Hq Vit Large
Apache-2.0
SAM-HQ是Segment Anything Model(SAM)的增強版本,能夠從點或框等輸入提示生成更高質量的對象掩碼。
圖像分割 Transformers
S
syscv-community
60
1
Textflux
TextFlux是一個基於無OCR擴散變換器的高保真多語言場景文本合成模型,採用FLUX.1-Fill-dev作為基礎模型,專注於場景文本合成任務。
圖像生成
T
yyyyyxie
284
2
Visualclozepipeline 384
Apache-2.0
VisualCloze是一個基於視覺上下文學習的通用圖像生成框架,支持多種領域內任務和未見任務的泛化,通過單步生成同時輸出目標圖像與中間結果。
文本生成圖像
V
VisualCloze
294
5
Biqwen2 V0.1
Apache-2.0
BiQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,專注於高效視覺文檔檢索。
文本生成圖像 英語
B
vidore
460
0
Poseless 3B
Apache-2.0
Poseless-3B 是一種基於視覺語言模型(VLM)的機器人手部控制框架,能夠直接將2D圖像映射到關節角度,無需顯式姿態估計。
姿態估計 Transformers
P
Menlo
65
10
Poseless 3B
Apache-2.0
PoseLess是一種創新的機器人手部控制框架,通過使用投影表示直接將2D圖像映射到關節角度,無需顯式的姿態估計。
多模態融合 Transformers
P
homebrewltd
98
7
Sam Hq Vit Base
Apache-2.0
SAM-HQ是Segment Anything Model的增強版本,通過點或框等輸入提示生成更高質量的物體掩碼
圖像分割 Transformers
S
syscv-community
5,316
8
Colqwen2 V1.0 Hf
Apache-2.0
基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,能生成文本與圖像的多向量表徵
文本生成圖像 Transformers 英語
C
vidore
61
0
Colqwen2.5 V0.1
MIT
基於Qwen2.5-VL-3B-Instruct與ColBERT策略的視覺檢索模型,能夠生成文本和圖像的多向量表示,用於高效文檔檢索。
文本生成圖像 英語
C
vidore
985
0
Colsmol 256M
MIT
基於SmolVLM-Instruct-250M並採用ColBERT策略的視覺檢索器,能高效地從視覺特徵索引文檔
文本生成圖像 英語
C
vidore
42.84k
8
Colsmolvlm V0.1
基於SmolVLM-Instruct與ColBERT策略的視覺檢索模型,能高效通過視覺特徵索引文檔
文本生成圖像
C
vidore
1,353
52
Lotus Depth D V1 0
Apache-2.0
Lotus是一個基於擴散模型的視覺基礎模型,專注於高質量的密集預測任務。
3D視覺
L
jingheya
135
4
Lotus Depth G V1 0
Apache-2.0
Lotus是一個基於擴散模型的視覺基礎模型,專注於高質量的密集預測任務。
3D視覺
L
jingheya
33.45k
21
Colqwen2 V0.1
Apache-2.0
基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,能高效通過視覺特徵索引文檔
文本生成圖像 Safetensors 英語
C
vidore
21.25k
170
Colpali V1.2
MIT
ColPali是基於PaliGemma-3B與ColBERT策略的視覺語言模型,用於高效地從視覺特徵中索引文檔。
文本生成圖像 英語
C
vidore
61.77k
108
Robustsam Vit Base
MIT
RobustSAM是在退化圖像上實現穩健分割的模型,基於SAM改進,提升了在低質量圖像上的分割性能。
圖像分割 Transformers 其他
R
jadechoghari
314
3
Sam2 Hiera Large
Apache-2.0
FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型
圖像分割
S
facebook
155.85k
68
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本 Transformers 英語
O
openvla
1.7M
108
Openvla V01 7b
MIT
OpenVLA v0.1 7B是一個開源視覺-語言-動作模型,基於Open X-Embodiment數據集訓練,支持多種機器人控制。
文本生成圖像 Transformers 英語
O
openvla
30
10
Aisak Detect
其他
AISAK-Detect是AISAK-Visual系統的核心目標檢測組件,採用卷積主幹Transformer架構,高效精準識別圖像中的物體。
目標檢測 Transformers 英語
A
aisak-ai
19
0
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Llama 2 7b Absa
Apache-2.0
基於Llama-2-7b微調的ABSA模型,擅長識別文本中的方面並分析情感
大型語言模型 Transformers 支持多種語言
L
Orkhan
124
12
Biomednlp KRISSBERT PubMed UMLS EL
MIT
KRISSBERT是一個基於知識增強自監督學習的生物醫學實體鏈接模型,通過利用無標註文本和領域知識訓練上下文編碼器,有效解決實體名稱多樣性變異和歧義性問題。
知識圖譜 Transformers 英語
B
microsoft
4,643
29
Cxmefzzi
Apache-2.0
基於T5-3B架構微調的文本到SQL轉換模型,通過PICARD約束解碼技術顯著提升結構化查詢生成準確性
大型語言模型 Transformers 英語
C
tscholak
689
32
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase