InternVL3-8B-6bitオープンソースビジュアル言語モデル - マルチ言語の画像テキストをテキストに変換するタスクをサポート

Internvl3 8B 6bit

mlx-communityによって開発

InternVL3-8B-6bit はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。

ダウンロード数 70

リリース時間 : 4/18/2025

モデル概要

このモデルはInternVL3-8Bからファインチューニングされ、画像理解とテキスト生成タスクをサポートし、多言語環境に適しています。

多言語サポート

多言語環境での画像理解とテキスト生成タスクをサポートします。

6bit 量子化

モデルは6bit量子化処理されており、計算リソースの需要を低減しています。

MLX フォーマット

モデルはMLXフォーマットに変換されており、MLXエコシステムでの使用が容易です。

画像理解

テキスト生成

多言語処理

画像記述

画像内容の記述

入力された画像に基づいて詳細なテキスト記述を生成します。

正確で詳細な画像記述テキストを生成します。

多言語アプリケーション

多言語画像質問応答

多言語環境での画像質問応答タスクをサポートします。

質問の文脈に合った回答テキストを生成します。

属性	详情
パイプラインタグ	画像テキストからテキスト
ライブラリ名	transformers
ベースモデル	OpenGVLab/InternVL3-1B-Instruct
ベースモデルの関係	ファインチューニング
データセット	OpenGVLab/MMPR-v1.2
言語	多言語
タグ	internvl、custom_code、mlx