DeepSeer-R1視覺語言模型開源 - 支持思維鏈推理，對話模板訓練超實用

Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224

由mehmetkeremturkcan開發

DeepSeer是基於DeepSeek-R1模型開發的視覺語言模型，支持思維鏈推理能力，通過對話模板訓練視覺模型。

下載量 25

發布時間 : 1/30/2025

模型概述

DeepSeer是一個結合視覺和語言處理能力的模型，具備思維鏈推理功能，能夠處理圖像到文本的轉換任務。

思維鏈推理能力

支持通過對話模板進行思維鏈推理，增強模型的解釋和推理能力

視覺語言結合

結合視覺和語言處理能力，能夠理解和生成與圖像相關的文本

基於DeepSeek-R1

基於DeepSeek-R1-Distill-Qwen-1.5B模型進行微調，繼承了其強大的語言處理能力

圖像理解

文本生成

思維鏈推理

視覺問答

教育

視覺問答系統

用於教育場景中的視覺問答，幫助學生理解圖像內容

提供詳細的解釋和推理過程

研究

視覺語言模型研究

用於研究視覺語言模型的推理能力和性能

提供思維鏈推理的案例研究

屬性	詳情
模型類型	基於DeepSeek - R1的視覺語言模型
訓練數據	5CD - AI/LLaVA - CoT - o1 - Instruct
基礎模型	google/vit - base - patch16 - 224、deepseek - ai/DeepSeek - R1 - Distill - Qwen - 1.5B
庫名稱	transformers
任務類型	圖像文本到文本