🚀 開源視覺模型(otpensource-vision)
開源視覺模型(otpensource-vision) 是一款基於 Bllossom/llama-3.2-Korean-Bllossom-AICA-5B 訓練的視覺語言模型。該模型旨在結合韓語和英語文本與圖像,以執行各種任務。
✨ 主要特性
- 基於Bllossom訓練:此模型基於 llama-3.2-Korean-Bllossom-AICA-5B 進行訓練,兼具語言模型和視覺語言模型的優勢。
- 支持視覺語言任務:它既可以接收圖像輸入並生成文本信息,也能僅通過文本輸入執行自然語言處理任務。
- 利用時尚數據訓練:使用韓語時尚數據集(otpensource_data)進行訓練,能夠提取服裝的類別、顏色、季節、特徵等相關信息。
- 可商業使用:該模型採用 CC - BY - 4.0 許可證,允許商業使用。
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
💻 使用示例
基礎用法
from transformers import MllamaForConditionalGeneration, MllamaProcessor
import torch
from PIL import Image
import requests
model = MllamaForConditionalGeneration.from_pretrained(
'otpensource-vision',
torch_dtype=torch.bfloat16,
device_map='auto'
)
processor = MllamaProcessor.from_pretrained('otpensource-vision')
url = "https://image.msscdn.net/thumbnails/images/prd_img/20240710/4242307/detail_4242307_17205916382801_big.jpg?w=1200"
image = Image.open(requests.get(url, stream=True).raw)
messages = [
{'role': 'user', 'content': [
{'type': 'image', 'image': image},
{'type': 'text', 'text': '이 옷의 정보를 JSON으로 알려줘.'}
]}
]
input_text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(
image=image,
text=input_text,
add_special_tokens=False,
return_tensors="pt",
).to(model.device)
output = model.generate(**inputs, max_new_tokens=256, temperature=0.1)
print(processor.decode(output[0]))
📚 詳細文檔
模型詳細信息
屬性 |
詳情 |
模型類型 |
基於 Bllossom/llama - 3.2 - Korean - Bllossom - AICA - 5B 的視覺語言模型 |
訓練數據 |
otpensource_dataset,約 9000 個時尚數據,包含服裝類別、顏色、季節、特徵、圖像 URL 等信息 |
主要使用場景
- 視覺語言任務
- 圖像分析:輸入圖像後,可提取服裝的類別、顏色、季節、特徵等信息,並以 JSON 格式返回。例如:
{
"category": "트렌치코트",
"gender": "여",
"season": "SS",
"color": "네이비",
"material": "",
"feature": "트렌치코트"
}
- **語言模型任務**:僅輸入文本時,可執行自然語言處理任務,如問答、文本摘要、情感分析等。
訓練與性能
- LogicKor 基準測試性能(基於 Bllossom 的模型性能)
| 類別 | 單輪對話 | 多輪對話 |
|------|----------|----------|
| 推理能力 | 6.57 | 5.29 |
| 數學能力 | 6.43 | 6.29 |
| 寫作能力 | 9.14 | 8.71 |
| 編碼能力 | 8.00 | 9.14 |
| 理解能力 | 8.14 | 9.29 |
| 語法能力 | 6.71 | 4.86 |
- 訓練配置
- 模型大小:50 億參數
- 訓練數據大小:約 9000 個視覺語言數據
- 評估結果:在時尚相關任務中表現出較高的準確性和效率。
🔧 技術細節
文檔未提供足夠技術細節,暫不展示。
📄 許可證
該模型採用 CC - BY - 4.0 許可證,允許商業使用。此外,上傳的微調模型由 hateslopacademy 開發,採用 apache - 2.0 許可證,基於 Bllossom/llama - 3.2 - Korean - Bllossom - AICA - 5B 進行微調。此 mllama 模型使用 Unsloth 和 Huggingface 的 TRL 庫進行訓練,速度提升了 2 倍。