SigLIP視覺編碼

# SigLIP視覺編碼

Smolvlm 500M Anime Caption V0.2

專注於描述動漫風格圖像的視覺語言模型，基於SmolVLM-500M-Base微調

圖像生成文本

Safetensors 英語

Janus-Pro 是一種新穎的自迴歸框架，統一了多模態理解和生成。它通過解耦視覺編碼路徑，使用單一的統一 Transformer 架構處理多模態任務。

文本生成圖像

Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt

基於SigLIP圖像編碼器的視覺模型，帶全局平均池化，是PaliGemma2模型的一部分

文本生成圖像

Vit So400m Patch14 Siglip Gap 448.pali Mix

基於SigLIP圖像編碼器的視覺語言模型，採用全局平均池化處理，適用於多模態任務。

文本生成圖像

Vit So400m Patch14 Siglip 378.webli

基於SigLIP的視覺Transformer模型，僅包含圖像編碼器，採用原始注意力池化機制。

Vit Large Patch16 Siglip 384.webli

基於SigLIP的視覺Transformer模型，僅包含圖像編碼器，採用原始注意力池化，適用於圖像特徵提取任務。

Vit Base Patch16 Siglip 384.webli

基於SigLIP的視覺Transformer模型，僅包含圖像編碼器部分，採用原始注意力池化機制

Vit Base Patch16 Siglip 256.webli

基於SigLIP的ViT-B-16圖像編碼器模型，採用原始注意力池化，適用於圖像特徵提取任務。

Vit So400m Patch14 Siglip 224.webli

基於SigLIP的視覺Transformer模型，僅包含圖像編碼器部分，採用原始注意力池化機制

Llm Jp 3 Vila 14b

由日本國立情報學研究所開發的大型視覺語言模型，支持日語和英語，具備強大的圖像理解和文本生成能力。

圖像生成文本

Safetensors 日語

FLUX.1 Dev IP Adapter

FLUX.1-dev模型的IP適配器，支持將圖像處理方式與文本類似，用於文本生成圖像任務

文本生成圖像英語

nanoLLaVA-1.5是一款參數規模在10億以下的視覺語言模型，專為邊緣設備設計，小巧但功能強大。

圖像生成文本

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase