🚀 Pixtral-Large-Instruct-2411 🎉
Pixtral-Large-Instruct-2411 是一個圖像文本生成模型,它基於 Transformers 架構實現,可用於圖像文本到文本的轉換任務,為多模態交互提供了強大的支持。
🚀 快速開始
本項目是 Pixtral-Large-Instruct-2411 的 Transformers 實現。
2024 年 12 月 21 日:這個模型在實驗和學習過程中帶來了很多樂趣。下面的模型卡片已更新,包含了過去一週對該倉庫所做的更改。
✨ 主要特性
架構差異
與 Pixtral 12B 相比,Pixtral Large 在多模態投影層(multi_modal_projector layers)沒有偏置鍵(bias keys)。在轉換過程中不包含這些偏置鍵,與 Mistral 最初上傳的 Pixtral Large 中的鍵保持一致。模型的 config.json
文件中包含 "multimodal_projector_bias": false
來標記這一點。注意:如果社區中有任何人確認以零值初始化這些鍵是更好的做法,我很樂意重新上傳不排除它們的版本。
分詞器
此模型使用 Mistral v7m1 分詞器的轉換版本。Pixtral 12B 和 Pixtral Large 使用不同的分詞器,詞彙表大小也不同,因此請確保使用正確的分詞器。
提示/聊天模板
包含的 chat_template.json
支持 Mistral 定義的所有功能,並添加了一些我自己的擴展。
我相信這個實現為使用該模型提供了很大的靈活性,並且在我的測試中效果很好。
示例(為了可讀性添加了換行)
<s>[SYSTEM_PROMPT] <系統提示>[/SYSTEM_PROMPT]
[INST] [IMG]<用戶消息>
[AVAILABLE_TOOLS] [<工具定義>][/AVAILABLE_TOOLS][/INST]
[IMG]<助手回覆>
[TOOL_CALLS] [<工具調用>][/TOOL_CALLS]
[TOOL_RESULTS] <包含圖像的工具結果>[/TOOL_RESULTS]
</s>[INST] <用戶消息>[/INST]
系統提示:
角色為 "system" 的消息將在聊天曆史中的任何位置被解析為 [SYSTEM_PROMPT] <內容>[/SYSTEM_PROMPT]
。
這似乎在傳遞不同深度的額外指令方面效果很好,並將指令與對話分開。
允許非交替角色:
可以連續提供多個用戶消息,每個消息將用 [INST][/INST]
分隔。這在群組對話設置或在調用模型之前可以提供多個用戶消息的環境中可能效果很好。用 [/INST]
分隔每個消息似乎有助於防止模型認為它需要回復每個先前的消息,而是專注於最後一條消息,同時仍然保留對之前消息的記憶。
隨處輸入圖像:
現在可以在用戶、助手和工具結果消息中發送圖像,並且似乎確實有效。我進行了一些測試,例如在對話中 10 - 15 條消息之前的助手回覆中包含一張圖像,然後要求助手回憶他們之前發送的圖像,它能夠準確描述該圖像。
這種靈活性可以實現一些有趣的應用,例如,如果您要為圖像生成定義一個工具定義:
- 調用工具並調用圖像生成 API/模型
- 圖像在工具結果消息中返回
- 模型根據生成的圖像上下文回覆一條消息
- 您可以進一步討論生成的圖像,或者在模型實際知道生成內容的情況下進行修改
使用說明
在使用 Transformers 加載模型時,可能需要添加一些處理邏輯,以確保尊重缺少多模態投影偏置(mmproj bias)的情況,從而使模型能夠正確處理視覺輸入。
我的大部分測試都是使用 TabbyAPI 和 ExLlamaV2(開發分支)進行的,視覺輸入功能正常。

量化版本
不同大小的 EXL2 量化版本可在 此處 獲取。要使用視覺輸入功能,需要使用 ExLlamaV2 的開發分支。
📄 許可證
- 許可證類型:其他
- 許可證名稱:mrl
- 許可證鏈接:https://mistral.ai/licenses/MRL-0.1.md
📦 相關信息
屬性 |
詳情 |
支持語言 |
英語、法語、德語、西班牙語、意大利語、葡萄牙語、中文、日語、俄語、韓語 |
基礎模型 |
mistralai/Pixtral-Large-Instruct-2411 |
推理功能 |
否 |
庫名稱 |
transformers |
任務類型 |
圖像文本到文本 |