DocumentCogitoオープンソース多モーダルモデル - ビジュアル言語タスクを最適化し、無料でデプロイして指令応答を高速化！

Documentcogito

Daemontatoxによって開発

unsloth/Llama-3.2-11B-Vision-Instructを基にファインチューニングされたマルチモーダルモデルで、視覚-言語タスクに最適化され指示追従能力が強化されており、Unslothフレームワークにより2倍のトレーニング加速を実現

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル指示追従 #視覚テキスト生成 #効率的なトレーニング加速

ダウンロード数 73

リリース時間 : 1/16/2025

モデル概要

本モデルはUnslothフレームワークとHugging FaceのTRLライブラリを組み合わせ、高性能を維持しながら効率的なトレーニングを実現し、視覚テキスト生成やマルチモーダル指示追従などのタスクに適しています

モデル特徴

効率的なトレーニング

Unslothフレームワークを採用し2倍のトレーニング速度向上を実現

マルチモーダル能力

視覚と言語の相互作用処理能力を強化

指示最適化

指示の理解と実行能力を特別に最適化

モデル能力

視覚テキスト生成

マルチモーダル推論

指示追従

画像キャプション生成

使用事例

視覚コンテンツ分析

画像キャプション生成

入力画像に基づいて詳細な文章説明を生成

オープン大規模モデルランキングで指示追従精度50.64%を達成

教育支援

マルチモーダル学習

視覚とテキスト情報を組み合わせた教育支援

🚀 unsloth/Llama-3.2-11B-Vision-Instruct (Fine-Tuned)

このモデルは、ビジョンと言語のタスクに最適化され、命令に対する追従能力が強化されています。unsloth/Llama-3.2-11B-Vision-Instruct をベースにファインチューニングされ、UnslothフレームワークとHugging FaceのTRLライブラリを組み合わせることで、高速かつ高性能なトレーニングが実現されています。

🚀 クイックスタート

このモデルは、ビジョンと言語を組み合わせたタスクに最適化されています。以下のセクションでは、モデルの概要、主要な情報、性能と利用事例、使用方法について説明します。

✨ 主な機能

2倍高速なトレーニング：Unslothフレームワークを活用して、ファインチューニングを高速化します。
マルチモーダル機能：ビジョンと言語の相互作用を効果的に処理できるように強化されています。
命令最適化：命令の理解と実行能力が向上するように調整されています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")

input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 ドキュメント

モデル概要

このモデルは、unsloth/Llama-3.2-11B-Vision-Instruct をベースにファインチューニングされたもので、ビジョンと言語のタスクに最適化されています。UnslothフレームワークとHugging FaceのTRLライブラリを組み合わせることで、2倍高速なトレーニングが可能で、高性能を維持しています。

主要な情報

属性	详情
開発者	Daemontatox
ベースモデル	`unsloth/Llama-3.2-11B-Vision-Instruct`
ライセンス	Apache-2.0
言語	英語 (`en`)
使用フレームワーク	Hugging Face Transformers、Unsloth、TRL