Pixtral-Large-Instruct-2411オープンソースマルチモーダルモデル - 画像とテキスト入力と多言語処理をサポート

ホーム

Pixtral Large Instruct 2411

nintwentydoによって開発

Pixtral-Large-Instruct-2411はMistralAI技術を基にしたマルチモーダル命令微調整モデルで、画像とテキスト入力をサポートし、多言語処理能力を備えています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:その他 #マルチモーダル命令理解 #多言語インタラクション #画像テキスト融合

ダウンロード数 23

リリース時間 : 12/17/2024

モデル概要

これは画像とテキスト入力を処理し、テキスト出力を生成できるマルチモーダル大規模言語モデルです。特に命令に従うタスク向けに設計されており、複雑な対話インタラクションやツール呼び出しをサポートします。

モデル特徴

マルチモーダル処理能力

画像とテキスト入力を同時に処理でき、対話中に視覚情報を柔軟に使用可能

多言語サポート

10の主要言語のテキスト処理をサポート

柔軟なツール呼び出し

外部ツールの定義と呼び出しをサポートし、ツールからの結果（画像を含む）を処理可能

長文脈記憶

対話履歴で以前に登場した画像内容を記憶し、参照可能

モデル能力

マルチモーダル対話

多言語テキスト生成

画像理解と説明

ツール呼び出しと統合

複雑な命令追従

使用事例

クリエイティブアプリケーション

画像支援創作

ユーザー提供の画像に基づくクリエイティブライティングやストーリー生成

視覚要素を統合した一貫性のある物語内容を生成可能

テクニカルサポート

視覚的質問応答

ユーザー提供の画像に基づく技術的問題診断や解答

画像内容を正確に理解し、関連するアドバイスを提供可能

多言語サービス

異言語交流支援

多言語環境での翻訳や解説サービス提供

10言語間の相互翻訳と解説をサポート

🚀 Pixtral-Large-Instruct-2411 🖼️

このプロジェクトは、Pixtral-Large-Instruct-2411 のTransformers実装です。画像とテキストを入力としてテキストを出力するモデルで、多様な言語に対応しています。

サポート言語

言語	詳細
言語サポート	英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、中国語、日本語、ロシア語、韓国語

ライセンス情報

属性	詳細
ライセンスタイプ	mrl
ベースモデル	mistralai/Pixtral-Large-Instruct-2411
推論	false
ライセンスリンク	https://mistral.ai/licenses/MRL-0.1.md
ライブラリ名	transformers
パイプラインタグ	image-text-to-text

2024年12月21日の更新

このモデルを使って実験し学ぶのはとても楽しいです。このリポジトリに過去1週間で加えられた変更に合わせて、モデルカードを更新しました。

🔧 Pixtral 12Bとのアーキテクチャの違い

Pixtral 12Bは、マルチモーダルプロジェクターレイヤーにバイアスキーがありますが、Pixtral Largeにはありません。この変換では、低/ゼロ値でのバイアスキーを含めず、Mistralからの元のPixtral Largeアップロードに存在するキーと一致させています。モデルのconfig.jsonファイルには、"multimodal_projector_bias": false が含まれています。もしコミュニティ内でゼロ値でこれらのキーを初期化する方が良いことが確認されたら、除外せずに再アップロードします。

📚 トークナイザー

このモデルは、Mistral v7m1トークナイザーの変換版を使用しています。Pixtral 12BとLargeは異なる語彙サイズの異なるトークナイザーを使用しているため、正しいトークナイザーを使用するようにしてください。

💬 プロンプト / チャットテンプレート

含まれているchat_template.jsonは、Mistralが定義したすべての機能をサポートし、独自の追加機能も備えています。この実装は、モデルを使用する際にかなりの柔軟性を提供し、私のテストではうまく機能しました。

基本的な使用法

<s>[SYSTEM_PROMPT] <システムプロンプト>[/SYSTEM_PROMPT]  
[INST] [IMG]<ユーザーメッセージ>  
[AVAILABLE_TOOLS] [<ツール定義>][/AVAILABLE_TOOLS][/INST]  
[IMG]<アシスタント応答>  
[TOOL_CALLS] [<ツール呼び出し>][/TOOL_CALLS]  
[TOOL_RESULTS] <画像を含むツール結果>[/TOOL_RESULTS]  
</s>[INST] <ユーザーメッセージ>[/INST]

システムプロンプト

役割が "system" のメッセージは、チャット履歴のどこにあっても [SYSTEM_PROMPT] <内容>[/SYSTEM_PROMPT] として解析されます。これは、様々な深さで追加の指示を渡すのに非常にうまく機能し、指示を会話から分離して保持します。

非交互的な役割の許可

連続した複数のユーザーメッセージを提供することができ、各メッセージは [INST][/INST] で区切られます。これは、グループ会話の設定や、モデルを呼び出す前に複数のユーザーメッセージを提供できる環境でうまく機能する可能性があります。各メッセージを [/INST] で区切ることで、モデルが以前のすべてのメッセージに応答する必要があると考えるのを防ぎ、最後のメッセージに焦点を当てることができます。

どこでも画像入力

画像は、ユーザー、アシスタント、およびツール結果メッセージで送信することができます。実際に機能することが確認されています。例えば、会話の10 - 15メッセージ前のアシスタントの返信に画像を含め、アシスタントに以前送信した画像を思い出すように依頼すると、正確に説明することができました。この柔軟性により、興味深いアプリケーションが可能になります。