多模态指令微调

# 多模态指令微调

Qwen2.5 Vl Vqa Vibook

基于Qwen2.5架构的视觉问答模型，专注于越南语场景，支持对图像相关问题进行解答。

文本生成图像其他

LLaDA-V是一款基于扩散模型的视觉语言模型，性能超越其他扩散多模态大语言模型。

文本生成图像

Llama 3.2 11B Vision Radiology Mini

这是一个基于Llama架构的多模态模型，支持视觉和文本指令，经过4位量化优化。

图像生成文本

Qwen Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct是一个32B参数规模的多模态视觉语言模型，支持图像理解和文本生成任务。

文本生成图像英语

R1-VL-2B 是通过逐步组相对策略优化（StepGRPO）训练得到的视觉语言推理模型，基于Qwen2-VL-2B-Instruct进行优化。

图像生成文本

Phi 4 Multimodal Instruct Ko Asr

基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型，在zeroth-korean和fleurs数据集上表现优异。

文本生成音频

Transformers 韩语

Smolvlm2 2.2B Instruct 4bit

SmolVLM2-2.2B-Instruct-4bit 是一个基于 MLX 格式转换的视觉语言模型，专注于视频文本到文本的任务。

图像生成文本

Transformers 英语

Kowen Vol 1 Base 7B

基于Qwen2-VL-7B-Instruct的韩语视觉语言模型，支持图像转文本任务

图像生成文本

Transformers 韩语

Pixtral 12B Captioner Relaxed

基于Pixtral-12B-2409微调的多模态大语言模型，专注于生成丰富的图像描述

图像生成文本

Transformers 英语

Med-CXRGen-I是基于LLaVA-v1.5-7B微调的多模态大语言模型，专注于胸部X光影像的放射学报告生成任务，特别是印象部分的生成。

图像生成文本

Med-CXRGen-F是一个基于LLaVA-v1.5-7B微调的多模态大语言模型，专门用于放射学报告生成任务，特别是胸部X光检查结果部分的自动生成。

图像生成文本

Llama 3.2 11B Vision Instruct Abliterated 8 Bit

这是一个基于Llama-3.2-11B-Vision-Instruct的多模态模型，支持图像和文本输入，并生成文本输出。

图像生成文本

Transformers 支持多种语言

Qwen2 VL 7B SafeRLHF

Qwen2-VL-7B-Instruct 是一个基于 SafeRLHF 数据集微调的多模态大语言模型，专注于视觉问答任务，并强调安全性。

文本生成图像

Safetensors 英语

Xgen Mm Phi3 Mini Base R V1.5

xGen-MM是由Salesforce AI Research开发的一系列最新基础大语言模型(LMMs)，在BLIP系列基础上改进，融入增强功能，具有更强大的基础能力。

文本生成图像

Safetensors 英语

Xgen Mm Phi3 Mini Instruct Dpo R V1.5

xGen-MM是Salesforce AI Research开发的多模态基础模型系列，基于BLIP系列改进，在高质量图像字幕和交错图文数据上训练。

图像生成文本英语

ChartGemma是基于PaliGemma构建的图表理解与推理模型，通过视觉指令微调直接处理图表图像，捕捉视觉趋势和底层信息。

图像生成文本

Transformers 英语

Xgen Mm Phi3 Mini Instruct R V1

xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列，基于BLIP系列改进，具有强大的图像理解和文本生成能力。

图像生成文本

Transformers 英语

ViP-LLaVA 是一款开源多模态聊天机器人，通过对 LLaMA/Vicuna 进行图像和区域级别指令数据的微调训练而成。

文本生成图像

Llava Med 7b Delta

LLaVA-Med是通过视觉指令微调构建的生物医学领域多模态模型，具备处理生物医学图像和文本的能力。

文本生成图像

OTTER MPT7B Init

OTTER-MPT7B-Init是一个用于初始化Otter模型训练的权重，由Openflamingo直接转换而来。

文本生成图像

Blip Image Captioning

这是一个基于 BLIP 架构的图像描述生成模型，能够为输入的图片生成简洁的文字描述。

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase