Kimi-VL-A3B-Thinking-6bitオープンソースビジュアル言語モデル - 多言語の画像テキストからテキストへのタスクをサポート

Kimi VL A3B Thinking 6bit

mlx-communityによって開発

Kimi-VL-A3B-Thinking-6bitは、MLX形式に変換された多言語のビジュアル言語モデルで、画像テキストからテキストへのタスクをサポートしています。

ダウンロード数 135

リリース時間 : 4/17/2025

モデル概要

このモデルは、moonshotai/Kimi-VL-A3B-Thinkingから変換されたもので、主に画像理解とテキスト生成タスクに使用されます。

多言語対応

複数の言語のテキスト生成と理解をサポートします。

ビジュアル言語モデル

画像とテキストの連合タスク（画像記述生成など）を処理できます。

MLX形式

MLX形式に変換され、特定の環境でのデプロイと使用が容易です。

画像記述生成

多言語テキスト生成

ビジュアル言語理解

画像理解

画像記述

入力された画像に基づいて記述的なテキストを生成します。

画像内容に関連する詳細な記述を生成します。

多言語アプリケーション

多言語画像記述

複数の言語の画像記述生成をサポートします。

目的の言語の画像記述テキストを生成します。

属性	詳細
モデルタイプ	画像テキストからテキスト
ライブラリ名	transformers
ベースモデル	OpenGVLab/InternVL3 - 1B - Instruct
ベースモデルの関係	ファインチューニング
学習データセット	OpenGVLab/MMPR - v1.2
言語サポート	多言語
ラベル	internvl、custom_code、mlx