QwenStoryteller-GGUF開源視覺敘事模型 - 支持一致故事生成與圖像轉文本

首頁

Qwenstoryteller GGUF

由mradermacher開發

基於Qwen的視覺敘事模型量化版本，專注於跨幀一致的故事生成和圖像轉文本任務

圖像生成文本英語開源協議:Apache-2.0 #視覺敘事生成 #跨幀一致性 #思維鏈推理

下載量 195

發布時間 : 5/13/2025

模型概述

該模型是QwenStoryteller的靜態量化版本，專門優化了視覺敘事能力，支持基於圖像輸入生成連貫的故事文本，並保持跨幀一致性。

模型特點

跨幀一致性

在生成多幀圖像描述時保持故事連貫性和邏輯一致性

思維鏈支持

支持思維鏈推理，能生成更符合邏輯的敘事內容

多重量化選項

提供從Q2_K到f16共12種量化版本，滿足不同硬件和精度需求

視覺語言理解

能夠理解圖像內容並轉化為富有表現力的文本描述

模型能力

圖像轉文本生成

視覺敘事

連貫故事創作

多模態理解

使用案例

內容創作

漫畫腳本生成

根據漫畫分鏡圖像自動生成連貫的對話和旁白

保持角色性格和情節連貫性的腳本

教育敘事

將教育類插圖轉化為適合兒童閱讀的故事文本

寓教於樂的故事內容

輔助創作

影視分鏡描述

為影視分鏡圖生成詳細場景描述

可用於劇本創作的詳細場景說明

🚀 QwenStoryteller量化模型

本項目提供了QwenStoryteller模型的靜態量化版本，可用於視覺語言相關任務，如視覺敘事、基於圖像的文本生成等。

🚀 快速開始

若你不確定如何使用GGUF文件，請參考TheBloke的README獲取更多詳細信息，包括如何拼接多部分文件。

✨ 主要特性

模型類型：視覺語言模型
應用場景：視覺敘事、思維鏈推理、基於圖像的文本生成、跨幀一致性處理等
量化版本：提供多種量化類型，滿足不同需求

📦 安裝指南

文檔未提及具體安裝步驟，跳過此章節。

💻 使用示例

文檔未提供代碼示例，跳過此章節。

📚 詳細文檔

關於

靜態量化版本基於https://huggingface.co/daniel3303/QwenStoryteller。加權/矩陣量化文件可在https://huggingface.co/mradermacher/QwenStoryteller-i1-GGUF獲取。

提供的量化版本

（按大小排序，不一定代表質量。IQ量化通常優於類似大小的非IQ量化）

鏈接	類型	大小/GB	備註
GGUF	Q2_K	3.1
GGUF	Q3_K_S	3.6
GGUF	Q3_K_M	3.9	質量較低
GGUF	Q3_K_L	4.2
GGUF	IQ4_XS	4.4
GGUF	Q4_K_S	4.6	快速，推薦
GGUF	Q4_K_M	4.8	快速，推薦
GGUF	Q5_K_S	5.4
GGUF	Q5_K_M	5.5
GGUF	Q6_K	6.4	質量非常好
GGUF	Q8_0	8.2	快速，質量最佳
GGUF	f16	15.3	16位每權重，過度配置