Q

Qwen2 VL 7B Latex OCR

erickrusによって開発
Qwen2-VL-7Bモデルを基にしたファインチューニング版で、UnslothとHuggingface TRLライブラリを使用してトレーニングされ、推論速度が2倍向上しました。
ダウンロード数 35
リリース時間 : 2/16/2025

モデル概要

これは視覚言語モデルで、テキスト生成と視覚理解タスクをサポートし、特に推論速度が最適化されています。

モデル特徴

効率的な推論
Unslothによる最適化で、オリジナル版に比べて推論速度が2倍向上
4-bit量子化
4-bit量子化技術を採用し、メモリ要件を削減
視覚言語能力
テキストと視覚入力の理解と生成を同時にサポート

モデル能力

テキスト生成
視覚理解
マルチモーダル推論
命令追従

使用事例

コンテンツ生成
画像キャプション生成
入力された画像に基づいて詳細な文章説明を生成
質問応答システム
視覚的質問応答
画像内容に関する複雑な質問に回答
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase