Liuhaotian Llava V1.5 13b GGUF

L

Liuhaotian Llava V1.5 13b GGUF

由PsiPi開發

LLaVA 是一個開源多模態聊天機器人，基於LLaMA/Vicuna架構，通過多模態指令跟隨數據微調訓練而成。

文本生成圖像 #多模態對話 #視覺問答 #指令跟隨

下載量 1,225

發布時間 : 12/1/2023

模型概述

LLaVA是一個研究性質的大型多模態模型，主要用於計算機視覺、自然語言處理和人工智能領域的研究。

模型特點

多模態能力

能夠同時處理圖像和文本輸入，實現跨模態理解

指令跟隨

經過專門訓練以遵循多模態指令

開源模型

採用開源許可證，可供研究和開發使用

端到端推理

支持通過llama.cpp進行無需額外依賴的推理

模型能力

圖像-文本對話

視覺問答

圖像描述生成

多模態指令跟隨

跨模態理解

使用案例

學術研究

多模態模型研究

用於研究大型多模態模型的性能和能力邊界

人機交互研究

探索基於視覺和語言的多模態人機交互方式

教育應用

視覺輔助學習

幫助學生理解複雜視覺內容

🚀 LLaVA模型卡片

LLaVA是一個開源的聊天機器人模型，通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna得到。它基於Transformer架構，可用於多模態模型和聊天機器人的研究。

🚀 快速開始

本倉庫包含用於使用llama.cpp對llava - v1.5 - 13b進行端到端推理的GGUF文件，無需任何額外依賴。

✨ 主要特性

多模態能力：LLaVA是在多模態指令跟隨數據上微調得到，具備處理圖像和文本的能力。
開源可用：作為開源模型，方便研究人員和愛好者使用和進一步開發。

📚 詳細文檔

🔍 模型詳情

屬性	詳情
模型類型	LLaVA是一個基於Transformer架構的自迴歸語言模型，通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna得到。
模型日期	LLaVA - v1.5 - 13B於2023年9月訓練。
更多信息的論文或資源	https://llava - vl.github.io/

💡 預期用途

主要預期用途：LLaVA主要用於大型多模態模型和聊天機器人的研究。
主要預期用戶：該模型的主要預期用戶是計算機視覺、自然語言處理、機器學習和人工智能領域的研究人員和愛好者。

📊 訓練數據集

558K經過過濾的來自LAION/CC/SBU的圖像 - 文本對，由BLIP添加標題。
158K GPT生成的多模態指令跟隨數據。
450K面向學術任務的VQA混合數據。
40K ShareGPT數據。

📈 評估數據集

包含12個基準測試的集合，其中包括5個學術VQA基準測試和7個最近專門為指令跟隨的大型多模態模型（LMMs）提出的基準測試。

⚠️ 注意事項

⚠️ 重要提示

mmproj - model - f16.gguf文件結構是實驗性的，可能會發生變化。請始終使用llama.cpp中的最新代碼。

❓ 問題反饋

模型相關問題或建議的反饋地址：https://github.com/haotian - liu/LLaVA/issues

📄 許可證

Llama 2遵循LLAMA 2社區許可證，版權所有 (c) Meta Platforms, Inc. 保留所有權利。

image/png

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase