VL - Rethinker - 7B - fp16オープンソースマルチモーダルモデル - ビジュアルQAタスクをサポートする無料デプロイ

ホーム

VL Rethinker 7B Fp16

mlx-communityによって開発

このモデルはQwen2.5-VL-7B-Instructを変換したマルチモーダル視覚言語モデルで、視覚質問応答タスクをサポートします。

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダルQA #視覚言語理解 #7Bパラメータ規模

ダウンロード数 17

リリース時間 : 4/16/2025

モデル概要

VL-Rethinker-7B-fp16は7Bパラメータ規模のマルチモーダルモデルで、視覚言語タスクに特化しており、画像に関連するテキスト内容を理解・生成できます。

モデル特徴

マルチモーダルサポート

画像とテキスト入力を同時に処理し、視覚言語の理解と生成を実現します。

効率的な推論

MLXフレームワークで最適化され、Apple Siliconデバイス上で効率的に動作します。

視覚質問応答能力

画像内容に基づいて関連質問に回答したり、記述テキストを生成したりできます。

モデル能力

画像理解

視覚質問応答

画像記述生成

使用事例

インテリジェントアシスタント

画像内容記述

視覚障害者向けに画像内容を説明

画像内容を正確に記述するテキストを生成

教育

視覚学習支援

教材の画像内容理解を学生支援

教材画像に関連する解説と説明を提供

属性	详情
モデルタイプ	visual-question-answering
ベースモデル	Qwen/Qwen2.5-VL-7B-Instruct
タグ	transformers, multimodal, mlx
ライセンス	apache-2.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

VL Rethinker 7B Fp16

モデル概要

モデル特徴

モデル能力

使用事例

🚀 mlx-community/VL-Rethinker-7B-fp16

🚀 クイックスタート

📦 インストール

💻 使用例

基本的な使用法

📄 ライセンス

📋 モデル情報