Qwen-2-VL-7B-OCRオープンソースモデル - 無料でデプロイ可能、文字認識速度が2倍向上！

Qwen 2 VL 7B OCR

Swapnikによって開発

Qwen2-VL-7Bモデルを基にした微調整バージョンで、UnslothとHuggingfaceのTRLライブラリを使用して訓練され、速度が2倍向上しました。

ダウンロード数 103

リリース時間 : 3/9/2025

モデル概要

このモデルは視覚言語モデルで、テキストと画像処理能力を組み合わせており、マルチモーダルタスクに適しています。

効率的な訓練

UnslothとTRLライブラリを使用して訓練され、速度が2倍向上しました。

マルチモーダル能力

テキストと画像処理能力を組み合わせており、複雑なマルチモーダルタスクに適しています。

量子化サポート

4ビット量子化技術を使用して、モデルのメモリ使用量を削減します。

テキスト生成

画像理解

マルチモーダル推論

マルチモーダルアプリケーション

画像キャプション生成

入力された画像に基づいて詳細なテキスト説明を生成します。

視覚的質問応答

画像内容に関する自然言語の質問に答えます。

テキスト生成

命令追従

与えられた命令に基づいて対応するテキスト出力を生成します。

属性	详情
モデルタイプ	アップロードされたファインチューニング済みモデル
開発者	Swapnik
ライセンス	apache - 2.0
ファインチューニング元のモデル	unsloth/qwen2-vl-7b-instruct-unsloth-bnb-4bit
タグ	text - generation - inference、transformers、unsloth、qwen2_vl