Pixtral-Large-Instruct-2411開源多模態模型 - 支持圖文輸入與多語言處理

首頁

Pixtral Large Instruct 2411

由nintwentydo開發

Pixtral-Large-Instruct-2411是基於MistralAI技術的多模態指令微調模型，支持圖像和文本輸入，具備多語言處理能力。

圖像生成文本

Transformers

支持多種語言開源協議:其他 #多模態指令理解 #多語言交互 #圖像文本融合

下載量 23

發布時間 : 12/17/2024

模型概述

這是一個多模態大型語言模型，能夠處理圖像和文本輸入，生成文本輸出。特別設計用於遵循指令的任務，支持複雜的對話交互和工具調用。

模型特點

多模態處理能力

能夠同時處理圖像和文本輸入，在對話中靈活使用視覺信息

多語言支持

支持10種主要語言的文本處理

靈活的工具調用

支持定義和調用外部工具，並能處理工具返回的結果（包括圖像）

長上下文記憶

能夠記住並引用對話歷史中較早出現的圖像內容

模型能力

多模態對話

多語言文本生成

圖像理解與描述

工具調用與集成

複雜指令跟隨

使用案例

創意應用

圖像輔助創作

基於用戶提供的圖像進行創意寫作或故事生成

能夠結合視覺元素生成連貫的敘事內容

技術支持

視覺問題解答

根據用戶提供的圖像進行技術問題診斷或解答

能夠準確理解圖像內容並提供相關建議

多語言服務

跨語言交流輔助

在多語言環境中提供翻譯和解釋服務

支持10種語言的互譯和解釋

🚀 Pixtral-Large-Instruct-2411 🎉

Pixtral-Large-Instruct-2411 是一個圖像文本生成模型，它基於 Transformers 架構實現，可用於圖像文本到文本的轉換任務，為多模態交互提供了強大的支持。

🚀 快速開始

本項目是 Pixtral-Large-Instruct-2411 的 Transformers 實現。

2024 年 12 月 21 日：這個模型在實驗和學習過程中帶來了很多樂趣。下面的模型卡片已更新，包含了過去一週對該倉庫所做的更改。

✨ 主要特性

架構差異

與 Pixtral 12B 相比，Pixtral Large 在多模態投影層（multi_modal_projector layers）沒有偏置鍵（bias keys）。在轉換過程中不包含這些偏置鍵，與 Mistral 最初上傳的 Pixtral Large 中的鍵保持一致。模型的 config.json 文件中包含 "multimodal_projector_bias": false 來標記這一點。注意：如果社區中有任何人確認以零值初始化這些鍵是更好的做法，我很樂意重新上傳不排除它們的版本。

分詞器

此模型使用 Mistral v7m1 分詞器的轉換版本。Pixtral 12B 和 Pixtral Large 使用不同的分詞器，詞彙表大小也不同，因此請確保使用正確的分詞器。

提示/聊天模板

包含的 chat_template.json 支持 Mistral 定義的所有功能，並添加了一些我自己的擴展。

我相信這個實現為使用該模型提供了很大的靈活性，並且在我的測試中效果很好。

示例（為了可讀性添加了換行）

<s>[SYSTEM_PROMPT] <系統提示>[/SYSTEM_PROMPT]  
[INST] [IMG]<用戶消息>  
[AVAILABLE_TOOLS] [<工具定義>][/AVAILABLE_TOOLS][/INST]  
[IMG]<助手回覆>  
[TOOL_CALLS] [<工具調用>][/TOOL_CALLS]  
[TOOL_RESULTS] <包含圖像的工具結果>[/TOOL_RESULTS]  
</s>[INST] <用戶消息>[/INST]

系統提示：角色為 "system" 的消息將在聊天曆史中的任何位置被解析為 [SYSTEM_PROMPT] <內容>[/SYSTEM_PROMPT]。

這似乎在傳遞不同深度的額外指令方面效果很好，並將指令與對話分開。

允許非交替角色：可以連續提供多個用戶消息，每個消息將用 [INST][/INST] 分隔。這在群組對話設置或在調用模型之前可以提供多個用戶消息的環境中可能效果很好。用 [/INST] 分隔每個消息似乎有助於防止模型認為它需要回復每個先前的消息，而是專注於最後一條消息，同時仍然保留對之前消息的記憶。

隨處輸入圖像：現在可以在用戶、助手和工具結果消息中發送圖像，並且似乎確實有效。我進行了一些測試，例如在對話中 10 - 15 條消息之前的助手回覆中包含一張圖像，然後要求助手回憶他們之前發送的圖像，它能夠準確描述該圖像。

這種靈活性可以實現一些有趣的應用，例如，如果您要為圖像生成定義一個工具定義：

調用工具並調用圖像生成 API/模型
圖像在工具結果消息中返回
模型根據生成的圖像上下文回覆一條消息
您可以進一步討論生成的圖像，或者在模型實際知道生成內容的情況下進行修改

使用說明

在使用 Transformers 加載模型時，可能需要添加一些處理邏輯，以確保尊重缺少多模態投影偏置（mmproj bias）的情況，從而使模型能夠正確處理視覺輸入。

我的大部分測試都是使用 TabbyAPI 和 ExLlamaV2（開發分支）進行的，視覺輸入功能正常。圖像輸入示例

量化版本

不同大小的 EXL2 量化版本可在此處獲取。要使用視覺輸入功能，需要使用 ExLlamaV2 的開發分支。

📄 許可證

許可證類型：其他
許可證名稱：mrl
許可證鏈接：https://mistral.ai/licenses/MRL-0.1.md

📦 相關信息

屬性	詳情
支持語言	英語、法語、德語、西班牙語、意大利語、葡萄牙語、中文、日語、俄語、韓語
基礎模型	mistralai/Pixtral-Large-Instruct-2411
推理功能	否
庫名稱	transformers
任務類型	圖像文本到文本