P

Pixtral 12B Captioner Relaxed

由Ertugrul開發
基於Pixtral-12B-2409多模態大語言模型進行指令微調的版本,能夠為給定圖像生成更豐富的細節描述
下載量 79
發布時間 : 10/1/2024

模型概述

該模型通過人工精選的數據集優化,專為構建文生圖數據集優化,能夠生成更全面、細緻的圖像描述

模型特點

細節增強
生成更全面、細緻的圖像描述
寬鬆約束
相比基礎模型提供限制更少的圖像描述
自然語言定位
使用自然語言描述圖像中不同主體的位置關係
圖像生成優化
輸出格式兼容前沿的文生圖模型

模型能力

圖像描述生成
多模態理解
自然語言處理

使用案例

圖像理解與描述
文生圖數據集構建
為圖像生成詳細的文本描述,用於訓練文生圖模型
生成更豐富、更準確的圖像描述
圖像內容分析
分析圖像內容並生成詳細的描述文本
提供全面的圖像內容理解
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase