🚀 vision-1-mini
vision-1-mini 是一个基于 Llama 3.1 的优化 80 亿参数模型,专为品牌安全分类而设计。该模型针对苹果硅芯片设备进行了特别优化,使用 BrandSafe - 16k 分类系统,能提供高效、准确的品牌安全评估。
🚀 快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("maxsonderby/vision-1-mini",
device_map="auto",
torch_dtype=torch.float16,
low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained("maxsonderby/vision-1-mini")
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs,
max_new_tokens=1,
temperature=0.1,
top_p=0.9)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
✨ 主要特性
- 基于 Llama 3.1 构建,专为品牌安全分类任务优化。
- 针对苹果硅芯片设备进行了特别优化,能在相关设备上高效运行。
- 使用 BrandSafe - 16k 分类系统,提供准确的品牌安全评估。
📦 安装指南
暂未提供具体安装步骤,可参考上述快速开始中的代码示例进行模型加载。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("maxsonderby/vision-1-mini",
device_map="auto",
torch_dtype=torch.float16,
low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained("maxsonderby/vision-1-mini")
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs,
max_new_tokens=1,
temperature=0.1,
top_p=0.9)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
品牌安全分类器 |
基础模型 |
Meta Llama 3.1 80 亿指令模型 |
参数数量 |
80.3 亿 |
架构 |
Llama |
量化方式 |
Q4_K |
大小 |
4.58 GiB (4.89 BPW) |
许可证 |
Llama 3.1 |
性能指标
- 加载时间:3.27 秒(在苹果 M3 Pro 上)
- 内存使用:
- CPU 缓冲区:4552.80 MiB
- Metal 缓冲区:132.50 MiB
- KV 缓存:1024.00 MiB (512.00 MiB K, 512.00 MiB V)
- 计算缓冲区:560.00 MiB
硬件兼容性
苹果硅芯片优化
- 针对 Metal/MPS 进行优化。
- 支持统一内存架构。
- 优化了 SIMD 组约简和矩阵乘法。
- 实现了高效的层卸载(1/33 层卸载到 GPU)。
系统要求
- 推荐内存:12GB 以上
- GPU:推荐使用苹果硅芯片(M1/M2/M3 系列)
- 存储空间:5GB 可用空间
分类类别
该模型将内容分为以下类别:
- B1 - 亵渎内容 - 包含亵渎或粗俗语言
- B2 - 冒犯性俚语 - 包含冒犯性俚语或贬义词
- B3 - 竞争对手 - 提及或推广竞争品牌
- B4 - 品牌批评 - 包含对品牌的批评或负面反馈
- B5 - 误导性信息 - 包含误导或欺骗性信息
- B6 - 政治内容 - 包含政治内容或偏见
- B7 - 宗教内容 - 包含宗教内容或引用
- B8 - 争议性话题 - 包含争议性话题或讨论
- B9 - 成人内容 - 包含成人或成熟内容
- B10 - 暴力内容 - 包含暴力内容或引用
- B11 - 物质相关 - 包含对毒品、酒精或物质的引用
- B12 - 仇恨言论 - 包含仇恨言论或歧视性内容
- B13 - 刻板印象 - 包含刻板印象的表述
- B14 - 偏见 - 表现出对群体或个人的偏见
- B15 - 不专业内容 - 包含不专业的内容或行为
- B16 - 操纵性内容 - 包含操纵性内容或策略
- 安全 - 不包含品牌安全问题
模型架构
- 注意力机制:
- 头数:32
- KV 头数:8
- 层数:32
- 嵌入长度:4096
- 前馈长度:14336
- 上下文长度:2048(从 131072 优化而来)
- RoPE 基础频率:500000
- 维度数:128
训练与微调
该模型使用 BrandSafe - 16k 数据集在品牌安全分类任务上进行了微调。模型使用了 2048 个标记的优化上下文窗口,并配置为产生精确、确定性的输出,参数如下:
- 温度:0.1
- 顶部概率:0.9
- 批量大小:512
- 线程数:8
局限性
- 该模型针对较短内容分类(最多 2048 个标记)进行了优化。
- 在非苹果硅芯片硬件上的性能可能会有所不同。
- 该模型仅专注于品牌安全分类,可能不适用于其他任务。
- 分类准确率可能会因内容复杂度和上下文而有所不同。
引用
如果您在研究中使用了该模型,请引用:
@misc{vision-1-mini,
author = {Max Sonderby},
title = {Vision-1-Mini: Optimized Brand Safety Classification Model},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Model Hub},
howpublished = {\url{https://huggingface.co/maxsonderby/vision-1-mini}}
}
📄 许可证
本模型使用的许可证为 llama3.1。