Asagi 8B
A
Asagi 8B
由 MIL-UT 开发
Asagi-8B是一个大规模的日语视觉与语言模型(VLM),基于广泛的日语数据集训练,整合了多样化的数据来源。
下载量 58
发布时间 : 2/19/2025
模型简介
Asagi-8B是一个日语视觉与语言模型,能够处理图像到文本的任务,适用于日语环境下的多模态应用。
模型特点
多模态能力
结合视觉编码器和语言模型,能够理解和生成与图像相关的日语文本。
日语优化
专门针对日语数据进行训练,适用于日语环境下的视觉与语言任务。
合成数据训练
使用合成数据训练,避免使用许可证限制输出用途的LLM生成的数据。
模型能力
图像描述生成
视觉问答
多模态推理
使用案例
视觉问答
图像内容描述
根据图像生成详细的日语描述。
生成详细的图像描述,包括场景、物体和活动。
地点识别
识别图像中的拍摄地点并提供详细解释。
提供可能的地点识别和详细的环境描述。
创意写作
故事生成
基于图像生成故事情节。
生成与图像内容相关的故事情节。
🚀 浅葱-8B模型
浅葱-8B是一个大规模的日语视觉与语言模型(VLM),它在广泛的日语数据集上进行训练,整合了多种不同的数据来源,能有效处理图像文本相关任务。
🚀 快速开始
环境要求
transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0
使用方法
import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig
transformers.set_seed(42)
model_path = "MIL-UT/Asagi-8B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
model_path, trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
generation_config = GenerationConfig(
do_sample=True,
num_beams=5,
max_new_tokens=256,
temperature=0.7,
repetition_penalty=1.5
)
prompt = ("以下是对任务的说明,请根据要求给出合适的回答。\n\n"
"### 说明:\n<image>\n请仔细查看这张图片,并详细具体地回答以下问题。这张照片是在哪里拍摄的?请详细描述图片的内容。\n\n### 回答:\n")
# 示例图片
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)
inputs = processor(
text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
if v.dtype == torch.float32:
inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}
generate_ids = model.generate(
**inputs,
generation_config=generation_config
)
generated_text = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
# 不打印提示信息
if "<image>" in prompt:
prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")
print(f"生成的文本: {generated_text}")
# >>> 生成的文本: 这张照片拍摄的是东京银座的夜景。银座是东京最具代表性的繁华街区之一,许多高楼大厦林立,霓虹灯和路灯的光芒交相辉映。特别引人注目的是,位于中央的“银座水晶大厦”,其独特的钟楼给人留下深刻的印象。穿梭于楼宇间的车辆和行人,让人感受到都市的活力。
示例
提示 | 输出 |
---|---|
请仔细查看这张图片,并详细具体地回答以下问题。这张照片是在哪里拍摄的?请详细描述图片的内容。 | 这张照片拍摄的是东京银座的夜景。银座是东京最具代表性的繁华街区之一,许多高楼大厦林立,霓虹灯和路灯的光芒交相辉映。特别引人注目的是,位于中央的“银座水晶大厦”,其独特的钟楼给人留下深刻的印象。穿梭于楼宇间的车辆和行人,让人感受到都市的活力。 |
注意:这张图片实际拍摄于涩谷,而非银座。
更多示例
点击展开
提示 | 输出 |
---|---|
请仔细查看这张图片,并详细具体地回答以下问题。请详细描述这张照片的内容。 | 这张照片拍摄的是东京台场地区的彩虹桥。彩虹桥是连接东京港区和江东区的重要交通要道,其标志性的白色塔楼和电缆令人印象深刻。背景中林立的高楼大厦,展现出东京的城市风貌。天空部分被云层覆盖,暗示着拍摄时间可能是早晨或傍晚。 |
提示 | 输出 |
---|---|
请仔细查看这张图片,并详细具体地回答以下问题。请对这张照片进行评价。 | 这张照片捕捉到了东京晴空塔的壮丽景色,红白相间的建筑结构直插云霄。由于采用了低角度拍摄,塔楼显得更加雄伟壮观。背景是湛蓝的天空中点缀着朵朵白云,前景则是郁郁葱葱的树木和路灯,自然元素与城市景观完美融合。整体而言,这是一张人工与自然和谐共生的美丽照片。 |
提示 | 输出 |
---|---|
请仔细查看这张图片,并详细具体地回答以下问题。请详细描述照片中的神社。 | 照片中的神社体现了传统的日本建筑风格。朱红色的鸟居与白色的墙壁形成鲜明对比,营造出一种神圣的氛围。鸟居位于神社入口,起到分隔神域与世俗世界的作用。神社的屋顶采用瓦片铺设,使用了绿色的瓦片,这是日本传统建筑风格的一种体现。此外,神社周围林立的现代建筑,象征着传统与现代在日本的和谐共存。 |
提示 | 输出 |
---|---|
请仔细查看这张图片,并详细具体地回答以下问题。在日本园林中,这种园林属于哪种类型?原因是什么? | 这种园林属于“池泉回游式园林”。池泉回游式园林是指带有池塘和水景的园林,也被称为水生园林或有水景的园林。这种园林的设计旨在充分展现自然之美,池塘和水景是园林的核心元素。 |
提示 | 输出 |
---|---|
请仔细查看这张图片,并详细回答以下问题。请以这张图片的场景为背景,编写一个小说的梗概。 | 以这张图片的场景为背景的小说名为《石阶的秘密》。故事从主人公逃离城市喧嚣,踏上古老的石阶开始。石阶周围绿树成荫,历史悠久的建筑错落有致。主人公在攀登石阶的过程中,经历了一场穿越过去与未来的奇妙之旅,最终揭开了石阶下隐藏的秘密。 |
✨ 主要特性
本仓库提供了浅葱-8B,这是一个大规模的日语视觉与语言模型(VLM)。它具有以下特性:
- 丰富的训练数据:在广泛的日语数据集上进行训练,整合了多种不同的数据来源。
- 合成数据的使用:部分训练数据是使用日语大语言模型(如[CALM3 - 22B - Chat](https://huggingface.co/cyberagent/calm3 - 22b - chat))和英语视觉与语言模型(如[Phi3.5 - vision - instruct](https://huggingface.co/microsoft/Phi - 3.5 - vision - instruct))合成的。
- 避免受限模型:在合成训练数据时,不使用许可证条款限制输出使用的大语言模型(如GPT - 4)。
- 跳过阶段一训练:与浅葱系列的其他模型不同,浅葱 - 8B跳过了阶段一的训练。
📦 安装指南
安装所需的库,可使用以下命令:
pip install transformers==4.45.1 accelerate==0.34.2 torch==2.4.0 torchvision==0.19.0
📚 详细文档
模型详情
模型组件 | 模型/架构 | 参数数量 |
---|---|---|
视觉编码器 | [siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384) | 4.28亿 |
投影器 | 2层MLP | 4300万 |
大语言模型 | [llm - jp - 3 - 7.2b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 7.2b - instruct) | 72亿 |
训练详情
注意:浅葱 - 8B跳过了阶段一的训练。
数据集 | 预处理方式 | 阶段一 | 阶段二 | 规模 |
---|---|---|---|---|
ROIS(自有) | 合成 | ✓ | ✓ | 840万 |
日语图像文本对 | 合成 | ✓ | ✓ | 440万 |
维基百科 | 合成 | ✓ | ✓ | 250万 |
Open Images | 翻译 | ✓ | ✓ | 68万 |
DCI | 翻译 | ✓ | ✓ | 7000 |
CommonCatalog CC - BY | 翻译 | ✓ | ✓ | 350万 |
LLaVA - Pretrain - JA | ✓ | ✓ | 55万 | |
STAIR Captions | ✓ | ✓ | 41万 | |
Flickr - JP | ✓ | ✓ | 16万 | |
YJ Captions | ✓ | ✓ | 13万 | |
日语Pascal | ✓ | ✓ | 5000 | |
ArtBench | 合成 | ✓ | 10万 | |
GQA | 翻译 | ✓ | 190万 | |
VQA v2 | 翻译 | ✓ | 88万 | |
A - OKVQA | 翻译 | ✓ | 3.4万 | |
OK - VQA | 翻译 | ✓ | 1.8万 | |
日语视觉基因组 | 翻译 | ✓ | 160万 | |
PangeaInstruct | ✓ | 9.3万 |
注意:ROIS(自有)是专门为该项目从网络上爬取的新数据集,由图像和原始文本对组成,用于合成训练数据。
评估
使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500对模型进行评估,评估使用了eval - mm库。
以下表格中,带有“†”的模型未使用GPT生成的数据进行训练。粗体数字表示所有模型中的最佳性能,下划线数字表示未使用GPT生成数据训练的模型中的最佳性能。
模型 | 语言模型规模 | Heron - Bench (LLM (%)) | JA - VLM - Bench - In - the - Wild (ROUGE - L) | JA - VLM - Bench - In - the - Wild (LLM (/5.0)) | JA - VG - VQA - 500 (ROUGE - L) | JA - VG - VQA - 500 (LLM (/5.0)) |
---|---|---|---|---|---|---|
日语InstructBLIP Alpha† | 70亿 | 14.0 | 20.8 | 2.42 | - | - |
日语Stable VLM† | 70亿 | 24.2 | 23.3 | 2.47 | - | - |
LLaVA - CALM2 - SigLIP† | 70亿 | 43.3 | 47.2 | 3.15 | 17.4 | 3.21 |
Llama - 3 - EvoVLM - JP - v2 | 80亿 | 39.3 | 41.4 | 2.92 | 23.5 | 2.96 |
VILA - jp | 130亿 | 57.2 | 52.3 | 3.69 | 16.2 | 3.62 |
浅葱 - 2B† | 18亿 | 44.7 | 48.8 | 3.26 | 53.7 | 3.69 |
浅葱 - 4B† | 37亿 | 49.3 | 49.6 | 3.38 | 55.6 | 3.78 |
浅葱 - 8B† | 72亿 | 54.7 | 49.4 | 3.45 | 56.43 | 3.84 |
浅葱 - 14B† | 130亿 | 55.8 | 50.8 | 3.44 | 56.8 | 3.84 |
GPT - 4o | - | 87.6 | 37.6 | 3.85 | 12.1 | 3.58 |
🔧 技术细节
模型架构
- 视觉编码器:采用[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384),参数数量为4.28亿。
- 投影器:使用2层MLP,参数数量为4300万。
- 大语言模型:选用[llm - jp - 3 - 7.2b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 7.2b - instruct),参数数量为72亿。
训练过程
浅葱 - 8B跳过了阶段一的训练,在阶段二使用了多种数据集进行训练,包括合成数据和翻译数据。
评估指标
使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500等评估指标,从不同方面评估模型的性能。
📄 许可证
本项目采用Apache - 2.0许可证。
⚠️ 风险与限制
本项目发布的模型处于研究和开发的早期阶段,尚未进行调整以确保输出符合人类意图和安全考虑。
👨💻 模型卡片作者
上原浩平(Kohei Uehara)
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98