Q

Qwen 2 VL 7B OCR

Developed by Swapnik
Qwen2-VL-7Bモデルを基にした微調整バージョンで、UnslothとHuggingfaceのTRLライブラリを使用して訓練され、速度が2倍向上しました。
Downloads 103
Release Time : 3/9/2025

Model Overview

このモデルは視覚言語モデルで、テキストと画像処理能力を組み合わせており、マルチモーダルタスクに適しています。

Model Features

効率的な訓練
UnslothとTRLライブラリを使用して訓練され、速度が2倍向上しました。
マルチモーダル能力
テキストと画像処理能力を組み合わせており、複雑なマルチモーダルタスクに適しています。
量子化サポート
4ビット量子化技術を使用して、モデルのメモリ使用量を削減します。

Model Capabilities

テキスト生成
画像理解
マルチモーダル推論

Use Cases

マルチモーダルアプリケーション
画像キャプション生成
入力された画像に基づいて詳細なテキスト説明を生成します。
視覚的質問応答
画像内容に関する自然言語の質問に答えます。
テキスト生成
命令追従
与えられた命令に基づいて対応するテキスト出力を生成します。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase