🚀 开源视觉模型(otpensource-vision)
开源视觉模型(otpensource-vision) 是一款基于 Bllossom/llama-3.2-Korean-Bllossom-AICA-5B 训练的视觉语言模型。该模型旨在结合韩语和英语文本与图像,以执行各种任务。
✨ 主要特性
- 基于Bllossom训练:此模型基于 llama-3.2-Korean-Bllossom-AICA-5B 进行训练,兼具语言模型和视觉语言模型的优势。
- 支持视觉语言任务:它既可以接收图像输入并生成文本信息,也能仅通过文本输入执行自然语言处理任务。
- 利用时尚数据训练:使用韩语时尚数据集(otpensource_data)进行训练,能够提取服装的类别、颜色、季节、特征等相关信息。
- 可商业使用:该模型采用 CC - BY - 4.0 许可证,允许商业使用。
📦 安装指南
文档未提供安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import MllamaForConditionalGeneration, MllamaProcessor
import torch
from PIL import Image
import requests
model = MllamaForConditionalGeneration.from_pretrained(
'otpensource-vision',
torch_dtype=torch.bfloat16,
device_map='auto'
)
processor = MllamaProcessor.from_pretrained('otpensource-vision')
url = "https://image.msscdn.net/thumbnails/images/prd_img/20240710/4242307/detail_4242307_17205916382801_big.jpg?w=1200"
image = Image.open(requests.get(url, stream=True).raw)
messages = [
{'role': 'user', 'content': [
{'type': 'image', 'image': image},
{'type': 'text', 'text': '이 옷의 정보를 JSON으로 알려줘.'}
]}
]
input_text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(
image=image,
text=input_text,
add_special_tokens=False,
return_tensors="pt",
).to(model.device)
output = model.generate(**inputs, max_new_tokens=256, temperature=0.1)
print(processor.decode(output[0]))
📚 详细文档
模型详细信息
属性 |
详情 |
模型类型 |
基于 Bllossom/llama - 3.2 - Korean - Bllossom - AICA - 5B 的视觉语言模型 |
训练数据 |
otpensource_dataset,约 9000 个时尚数据,包含服装类别、颜色、季节、特征、图像 URL 等信息 |
主要使用场景
- 视觉语言任务
- 图像分析:输入图像后,可提取服装的类别、颜色、季节、特征等信息,并以 JSON 格式返回。例如:
{
"category": "트렌치코트",
"gender": "여",
"season": "SS",
"color": "네이비",
"material": "",
"feature": "트렌치코트"
}
- **语言模型任务**:仅输入文本时,可执行自然语言处理任务,如问答、文本摘要、情感分析等。
训练与性能
- LogicKor 基准测试性能(基于 Bllossom 的模型性能)
| 类别 | 单轮对话 | 多轮对话 |
|------|----------|----------|
| 推理能力 | 6.57 | 5.29 |
| 数学能力 | 6.43 | 6.29 |
| 写作能力 | 9.14 | 8.71 |
| 编码能力 | 8.00 | 9.14 |
| 理解能力 | 8.14 | 9.29 |
| 语法能力 | 6.71 | 4.86 |
- 训练配置
- 模型大小:50 亿参数
- 训练数据大小:约 9000 个视觉语言数据
- 评估结果:在时尚相关任务中表现出较高的准确性和效率。
🔧 技术细节
文档未提供足够技术细节,暂不展示。
📄 许可证
该模型采用 CC - BY - 4.0 许可证,允许商业使用。此外,上传的微调模型由 hateslopacademy 开发,采用 apache - 2.0 许可证,基于 Bllossom/llama - 3.2 - Korean - Bllossom - AICA - 5B 进行微调。此 mllama 模型使用 Unsloth 和 Huggingface 的 TRL 库进行训练,速度提升了 2 倍。