零樣本泛化

# 零樣本泛化

基於Qwen3-1.7B微調，通過強化學習技術提升數學推理能力的語言模型

大型語言模型

Safetensors 英語

Sam Hq Vit Huge

SAM-HQ是Segment Anything Model（SAM）的增強版本，能夠生成更高質量的物體掩碼，特別適合處理複雜結構的物體。

syscv-community

Sam Hq Vit Large

SAM-HQ是Segment Anything Model（SAM）的增強版本，能夠從點或框等輸入提示生成更高質量的對象掩碼。

syscv-community

TextFlux是一個基於無OCR擴散變換器的高保真多語言場景文本合成模型，採用FLUX.1-Fill-dev作為基礎模型，專注於場景文本合成任務。

Visualclozepipeline 384

VisualCloze是一個基於視覺上下文學習的通用圖像生成框架，支持多種領域內任務和未見任務的泛化，通過單步生成同時輸出目標圖像與中間結果。

文本生成圖像

BiQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型，專注於高效視覺文檔檢索。

文本生成圖像英語

Poseless-3B 是一種基於視覺語言模型（VLM）的機器人手部控制框架，能夠直接將2D圖像映射到關節角度，無需顯式姿態估計。

PoseLess是一種創新的機器人手部控制框架，通過使用投影表示直接將2D圖像映射到關節角度，無需顯式的姿態估計。

多模態融合

Sam Hq Vit Base

SAM-HQ是Segment Anything Model的增強版本，通過點或框等輸入提示生成更高質量的物體掩碼

syscv-community

Colqwen2 V1.0 Hf

基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型，能生成文本與圖像的多向量表徵

文本生成圖像

Transformers 英語

Colqwen2.5 V0.1

基於Qwen2.5-VL-3B-Instruct與ColBERT策略的視覺檢索模型，能夠生成文本和圖像的多向量表示，用於高效文檔檢索。

文本生成圖像英語

基於SmolVLM-Instruct-250M並採用ColBERT策略的視覺檢索器，能高效地從視覺特徵索引文檔

文本生成圖像英語

Colsmolvlm V0.1

基於SmolVLM-Instruct與ColBERT策略的視覺檢索模型，能高效通過視覺特徵索引文檔

文本生成圖像

Lotus Depth D V1 0

Lotus是一個基於擴散模型的視覺基礎模型，專注於高質量的密集預測任務。

Lotus Depth G V1 0

Lotus是一個基於擴散模型的視覺基礎模型，專注於高質量的密集預測任務。

基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型，能高效通過視覺特徵索引文檔

文本生成圖像

Safetensors 英語

ColPali是基於PaliGemma-3B與ColBERT策略的視覺語言模型，用於高效地從視覺特徵中索引文檔。

文本生成圖像英語

Robustsam Vit Base

RobustSAM是在退化圖像上實現穩健分割的模型，基於SAM改進，提升了在低質量圖像上的分割性能。

Transformers 其他

Sam2 Hiera Large

FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型

OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型，能夠根據語言指令和攝像頭圖像生成機器人動作。

圖像生成文本

Transformers 英語

OpenVLA v0.1 7B是一個開源視覺-語言-動作模型，基於Open X-Embodiment數據集訓練，支持多種機器人控制。

文本生成圖像

Transformers 英語

AISAK-Detect是AISAK-Visual系統的核心目標檢測組件，採用卷積主幹Transformer架構，高效精準識別圖像中的物體。

Transformers 英語

Whisper Large V3

Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型，在超過500萬小時的標註數據上訓練，具有強大的跨數據集和跨領域泛化能力。

語音識別支持多種語言

Llama 2 7b Absa

基於Llama-2-7b微調的ABSA模型，擅長識別文本中的方面並分析情感

大型語言模型

Transformers 支持多種語言

Biomednlp KRISSBERT PubMed UMLS EL

KRISSBERT是一個基於知識增強自監督學習的生物醫學實體鏈接模型，通過利用無標註文本和領域知識訓練上下文編碼器，有效解決實體名稱多樣性變異和歧義性問題。

Transformers 英語

基於T5-3B架構微調的文本到SQL轉換模型，通過PICARD約束解碼技術顯著提升結構化查詢生成準確性

大型語言模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase