多模態交互

# 多模態交互

Moondream 2b 2025 04 14 4bit

Moondream是一款輕量級視覺語言模型，專為高效全平臺運行而設計。2025年4月14日發佈的4比特量化版在保持高精度的同時大幅降低內存佔用。

圖像生成文本

AgentCPM-GUI是一款具備RFT增強推理能力的設備端圖形界面代理，可操作中英文應用，基於80億參數的MiniCPM-V構建。

圖像生成文本支持多種語言

UI TARS 1.5 7B 4bit

UI-TARS-1.5-7B-4bit是一個多模態模型，專注於圖像文本到文本的轉換任務，支持英文語言。

圖像生成文本

Transformers 支持多種語言

Google.gemma 3 12b It Qat Int4 Unquantized GGUF

這是一個量化版本的Gemma模型，旨在通過量化技術實現知識的廣泛共享。

大型語言模型

Llama 4 Scout 17B 16E Instruct INT4

Llama 4系列是Meta推出的原生多模態AI模型，採用混合專家架構，支持文本和圖像交互，在多種語言和視覺任務中表現卓越。

多模態融合

Transformers 支持多種語言

Llama 4 Scout 17B 16E Instruct FP8

Llama 4系列是Meta推出的原生多模態AI模型，支持文本和圖像交互，採用混合專家架構，在文本和圖像理解方面表現卓越。

多模態融合

Transformers 支持多種語言

Gemma 3 12b It Qat 3bit

這是一個基於 Google Gemma 3-12B 模型轉換而來的 MLX 格式模型，支持圖像文本到文本的任務。

圖像生成文本

Transformers 其他

Videochat R1 Thinking 7B

VideoChat-R1-thinking_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態模型，專注於視頻文本轉文本任務。

視頻生成文本

Transformers 英語

Jarvisvla Qwen2 VL 7B

專為《我的世界》設計的視覺-語言-動作模型，支持基於人類語言指令執行遊戲內數千種技能

圖像生成文本

Transformers 英語

Qwen2.5 VL 3B UI R1

UI-R1是通過強化學習增強GUI代理動作預測的視覺語言模型，基於Qwen2.5-VL-3B-Instruct構建。

文本生成圖像英語

Vamba Qwen2 VL 7B

Vamba是一種混合Mamba-Transformer架構，通過交叉注意力層與Mamba-2模塊實現高效的長視頻理解。

視頻生成文本

Qwen.qwen2 VL 2B GGUF

Qwen2-VL-2B是一個多模態模型，能夠處理圖像和文本輸入，生成文本輸出。

圖像生成文本

Videochatonline 4B

VideoChat-Online是一個基於Phi-3-vision-128k-instruct的在線視頻理解模型，專注於視頻文本轉文本任務。

視頻生成文本

Smolvlm2 500M Video Instruct Mlx

這是一個基於MLX格式的視頻文本轉文本模型，由HuggingFaceTB開發，支持英文語言處理。

圖像生成文本

Transformers 英語

Ultravox V0 5 Llama 3 1 8b

Ultravox是一款基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

文本生成音頻

Transformers 支持多種語言

Fluxi AI Small Vision

Fluxi AI 是一款基於 Qwen2-VL-7B-Instruct 的多模態智能助手，具備文本、圖像和視頻處理能力，特別優化了葡萄牙語支持。

圖像生成文本

Transformers 其他

UGround是一個強大的GUI視覺定位模型，採用簡單的方法進行訓練，由OSUNLP和Orby AI合作完成。

多模態融合

Transformers 英語

UGround是一款採用簡單配方訓練的強大GUI視覺定位模型，由OSU NLP Group與Orby AI合作完成。

圖像生成文本

Transformers 英語

Smolvlm Instruct

基於HuggingFaceTB/SmolVLM-Instruct微調的智能視覺語言模型，採用Unsloth和TRL庫優化訓練速度

文本生成圖像

Transformers 英語

Dallah是一款專為阿拉伯語設計的先進多模態大語言模型，特別注重理解與生成跨阿拉伯方言的內容。

文本生成圖像

Safetensors 阿拉伯語

PAE-LLaVa-7B是基於PAE（Proposer-Agent-Evaluator）框架的基礎模型互聯網智能體，專注於自主技能發現。

文本生成圖像

由 OMEGA Labs 和 Bittensor 合作開發的 Any-to-Any 子網模型，支持多種任務轉換

大型語言模型其他

Mini-Omni2是一款全交互式多模態模型，能理解圖像、音頻和文本輸入，並與用戶進行端到端的語音對話。

多模態融合

Sam2.1 Hiera Tiny

SAM 2是由FAIR研發的面向圖像和視頻可提示視覺分割的基礎模型，支持通過提示進行高效分割。

Sam2.1 Hiera Small

SAM 2是FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型，支持通過提示進行高效分割。

Sam2.1 Hiera Large

SAM 2是FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型，支持通過提示進行通用分割任務。

Llava Video 7B Qwen2

LLaVA-視頻模型是基於Qwen2語言模型的7B參數多模態模型，專注於視頻理解任務，支持64幀視頻輸入。

視頻生成文本

Transformers 英語

Xgen Mm Phi3 Mini Instruct Interleave R V1.5

xGen-MM是Salesforce AI Research開發的一系列最新基礎大型多模態模型（LMMs），在BLIP系列成功設計的基礎上進行了改進，通過基礎性增強確保了更強大和卓越的模型基礎。

圖像生成文本英語

Sam2 Hiera Small

FAIR研發的基礎模型，用於解決圖像和視頻中可提示視覺分割任務

Sam2 Hiera Tiny

SAM 2是FAIR研發的面向圖像和視頻可提示視覺分割的基礎模型，支持通過提示進行高效分割。

Sam2 Hiera Large

FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型

UGround是通過簡潔配方訓練的強力GUI視覺定位模型，由俄亥俄州立大學NLP組與Orby AI合作完成。

圖像生成文本

Internvideo2 Chat 8B

InternVideo2-Chat-8B是一個結合大型語言模型(LLM)和視頻BLIP的視頻理解模型，通過漸進式學習方案構建，能夠進行視頻語義理解和人機交互。

視頻生成文本

Transformers 英語

Llava MORE Llama 3 1 8B Finetuning

LLaVA-MORE是基於LLaVA架構的增強版本，集成了LLaMA 3.1作為語言模型，專注於圖像到文本的任務。

圖像生成文本

Poppy Porpoise 0.72 L3 8B

基於Llama 3 8B模型的AI角色扮演助手，專注於打造沉浸式敘事體驗

大型語言模型

Poppy Porpoise V0.7 L3 8B

基於Llama 3 8B模型的AI角色扮演助手，專注於打造互動敘事體驗

文本生成圖像

Mixtral AI Vision 128k 7b

一個結合視覺與語言能力的多模態模型，通過合併方法實現圖像與文本交互功能

圖像生成文本

Transformers 英語

Instructblip Flan T5 Xl 8bit Nf4

InstructBLIP是基於BLIP-2的視覺指令調優版本，結合視覺和語言處理能力，能夠根據圖像和文本指令生成響應。

圖像生成文本

Transformers 英語

Instructblip Flan T5 Xl 8bit Nf4

InstructBLIP是基於BLIP-2的視覺指令調優模型，使用Flan-T5-xl作為語言模型，能夠根據圖像和文本指令生成描述。

圖像生成文本

Transformers 英語

Mediocreatmybest

Instructblip Flan T5 Xxl 8bit Nf4

InstructBLIP是BLIP-2的視覺指令調優版本，結合了視覺和語言模型，能夠根據圖像和文本指令生成描述或回答問題。

圖像生成文本

Transformers 英語

Mediocreatmybest

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase