🚀 otpensource-vision
otpensource-visionは、画像とテキストを組み合わせて様々なタスクを実行できるVision-Languageモデルです。韓国語と英語のテキストと画像を活用し、多言語環境での使用に最適化されています。
🚀 クイックスタート
このセクションでは、otpensource-visionモデルの概要と主な機能について説明します。
✨ 主な機能
- Bllossomベースの学習: llama-3.2-Korean-Bllossom-AICA-5Bをベースに学習されたモデルで、言語モデルとビジョン言語モデルの両方の利点を兼ね備えています。
- Vision-Languageタスクのサポート: 画像を入力として受け取り、テキスト情報を生成することができます。また、テキストのみの入力で自然言語処理タスクを実行することも可能です。
- ファッションデータを用いた学習: 韓国語のファッションデータセット(otpensource_data)を使用して、衣服のカテゴリ、色、季節、特徴などの関連情報を抽出するように学習されています。
- 商用利用可能: ライセンスはCC-BY-4.0で、商用利用が可能です。
📦 インストール
このドキュメントには具体的なインストール手順が記載されていないため、このセクションを省略します。
💻 使用例
基本的な使用法
from transformers import MllamaForConditionalGeneration, MllamaProcessor
import torch
from PIL import Image
import requests
model = MllamaForConditionalGeneration.from_pretrained(
'otpensource-vision',
torch_dtype=torch.bfloat16,
device_map='auto'
)
processor = MllamaProcessor.from_pretrained('otpensource-vision')
url = "https://image.msscdn.net/thumbnails/images/prd_img/20240710/4242307/detail_4242307_17205916382801_big.jpg?w=1200"
image = Image.open(requests.get(url, stream=True).raw)
messages = [
{'role': 'user', 'content': [
{'type': 'image', 'image': image},
{'type': 'text', 'text': '이 옷의 정보를 JSON으로 알려줘.'}
]}
]
input_text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(
image=image,
text=input_text,
add_special_tokens=False,
return_tensors="pt",
).to(model.device)
output = model.generate(**inputs, max_new_tokens=256, temperature=0.1)
print(processor.decode(output[0]))
高度な使用法
このドキュメントには高度な使用法の説明が記載されていないため、このサブセクションを省略します。
📚 ドキュメント
モデルの詳細
学習データ
モデルの学習に使用されたデータセットは以下の通りです。
- otpensource_dataset:
- 約9000件のファッションデータで構成されています。
- 衣服のカテゴリ、色、季節、特徴、画像URLなどを含み、Vision-Languageの学習に最適化されています。
学習方法
- ベースモデル: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B
- GPU要件: A100 40GB以上を推奨します。
- 最適化: Vision-Languageタスクと韓国語テキストタスクを統合的に学習しています。
主な使用事例
Vision-Languageタスク
-
画像分析
- 入力された画像から衣服のカテゴリ、色、季節、特徴を抽出し、JSON形式で返します。
- 例:
{
"category": "트렌치코트",
"gender": "여",
"season": "SS",
"color": "네이비",
"material": "",
"feature": "트렌치코트"
}
-
言語モデルタスク
- テキストのみを入力した場合、自然言語処理を実行し、質問応答、テキスト要約、感情分析などの様々なタスクを実行できます。
学習と性能
LogicKorベンチマークの性能 (Bllossomベースのモデル性能)
カテゴリ |
シングルターン |
マルチターン |
推論 |
6.57 |
5.29 |
数学 |
6.43 |
6.29 |
文章作成 |
9.14 |
8.71 |
コーディング |
8.00 |
9.14 |
理解 |
8.14 |
9.29 |
文法 |
6.71 |
4.86 |
学習構成
- モデルサイズ: 5Bパラメータ
- 学習データサイズ: 約9000件のビジョン言語データ
- 評価結果: ファッション関連のタスクで高い精度と効率を提供します。
🔧 技術詳細
このドキュメントには具体的な技術的詳細が記載されていないため、このセクションを省略します。
📄 ライセンス
このモデルのライセンスはCC-BY-4.0です。
アップロードされたファインチューニング済みモデル
- 開発者: hateslopacademy
- ライセンス: apache-2.0
- ファインチューニング元のモデル: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B
このmllamaモデルは、UnslothとHuggingfaceのTRLライブラリを使用して2倍速で学習されています。
