Mixtral_AI_Vision_128k_7bオープンソースマルチモーダルモデル - 画像とテキストの自由な対話を実現

ホーム

Mixtral AI Vision 128k 7b

LeroyDyerによって開発

視覚と言語能力を結合したマルチモーダルモデルで、マージ手法により画像とテキストのインタラクション機能を実現します。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #マルチモーダルインタラクション #ビジュアルテキスト融合 #画像理解

ダウンロード数 384

リリース時間 : 3/22/2024

モデル概要

このモデルは線形マージ手法を用いて複数の基礎モデルを融合し、視覚と言語のインタラクション能力を備え、画像理解とテキスト生成をサポートします。

モデル特徴

マルチモーダル能力

画像とテキストのインタラクションをサポートし、視覚機能を実現します。

モデルマージ技術

線形マージ手法を用いて複数の基礎モデルを融合します。

視覚互換性

mmprojファイルにより、複数の互換モデルの視覚能力をサポートします。

モデル能力

画像理解

テキスト生成

マルチモーダルインタラクション

使用事例

マルチモーダルインタラクション

画像説明生成

入力された画像に基づいて関連するテキスト説明を生成します。

視覚質問応答

画像の内容に基づいて関連する質問に回答します。

🚀 LeroyDyer/Mixtral_AI_Vision_128k_7b

このモデルは、視覚と言語の能力を結合したものです。特定の統合方法を用いて複数の基礎モデルを融合し、ユーザーに画像とテキストの相互作用機能を提供します。

🚀 クイックスタート

視覚機能を使用する場合は、最新バージョンの KoboldCpp を使用していることを確認してください。このモデルのマルチモーダル機能（視覚機能など）を使用するには、指定された mmproj ファイルを読み込む必要があります。以下のリンクから取得できます： mmproj-model-f16.gguf

mmproj ファイルは、インターフェイスの該当部分から読み込むことができます：

KoboldCpp は現在、マルチモーダル投影器（LLaVA）を通じて視覚機能をサポートしており、画像を認識して反応することができます！適切な --mmproj ファイルを読み込むか、グラフィカルインターフェイスの起動画面で選択することで、視覚機能を使用できます（Vulkan では使用できません）。

注意：これは LLaVA モデルに限定されるものではありません。同じサイズとアーキテクチャの互換性のあるモデルであれば、視覚能力を持つことができます！アーキテクチャに合った 200MB の mmproj ファイルを以下のリンクから取得し、--mmproj を使用して読み込み、好きな互換モデルに適用すると、そのモデルが画像を認識できるようになります！ mmproj

✨ 主な機能

マルチモーダル能力：画像とテキストの相互作用をサポートし、視覚機能を実現します。
モデル統合：線形統合方法を用いて複数の基礎モデルを統合します。

🔧 技術詳細

統合詳細

このモデルは線形統合方法を用いて統合されています。統合には以下のモデルが含まれています：

📄 ライセンス

このプロジェクトは MIT ライセンスの下で提供されています。

📦 モデル情報

属性	詳細
基礎モデル	LeroyDyer/Mixtral_Chat_X_128k、ChaoticNeutrals/Eris_PrimeV3-Vision-7B
ライブラリ名	transformers
タグ	mergekit、merge
ライセンス	mit
言語	en
評価指標	accuracy、bertscore、bleurt、brier_score、cer、code_eval
タスクタイプ	image-text-to-text