Asagi 14B
Asagi-14B是一个大规模的日语视觉与语言模型(VLM),在广泛的日语数据集上进行了训练,整合了多样化的数据来源。
下载量 83
发布时间 : 1/9/2025
模型简介
Asagi-14B是一个结合视觉编码器和大语言模型的视觉与语言模型,主要用于图像文本到文本的任务,支持日语。
模型特点
多模态能力
结合视觉编码器和语言模型,能够理解和生成基于图像的文本描述。
日语优化
专门针对日语进行了训练和优化,适用于日语场景下的视觉与语言任务。
数据合成
训练数据大部分通过模型合成,避免了使用限制性许可的LLM输出。
模型能力
图像描述生成
视觉问答
多模态推理
日语文本生成
使用案例
图像理解与描述
场景识别
识别图像中的场景并生成详细描述。
例如,识别出照片拍摄于东京的某个著名地点,并描述其细节。
物体识别
识别图像中的物体并生成描述。
例如,识别出图像中的建筑、自然景观等。
视觉问答
图像内容问答
回答关于图像内容的详细问题。
例如,回答图像拍摄地点、图像中的物体等。
🚀 浅葱-14B:日本大型视觉语言模型
浅葱-14B是一款大规模的日本视觉语言模型(VLM),它基于丰富的日本数据集进行训练,融合了多种不同来源的数据,为图像与文本交互处理提供了强大的能力。
🚀 快速开始
环境要求
transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0
使用方法
import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig
transformers.set_seed(42)
model_path = "MIL-UT/Asagi-14B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
model_path, trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
generation_config = GenerationConfig(
do_sample=True,
num_beams=5,
max_new_tokens=256,
temperature=0.7,
repetition_penalty=1.5
)
prompt = ("以下是对任务的说明,请写出合适的回复。\n\n"
"### 说明:\n<image>\n请查看此图像,并详细具体地回答以下问题。这张照片是在哪里拍摄的?另外,请详细描述图像的内容。\n\n### 回复:\n")
# 示例图像
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)
inputs = processor(
text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
if v.dtype == torch.float32:
inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}
generate_ids = model.generate(
**inputs,
generation_config=generation_config
)
generated_text = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
# 不打印提示信息
if "<image>" in prompt:
prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")
print(f"生成的文本: {generated_text}")
# >>> 生成的文本: 这张照片拍摄的是涩谷十字路口的夜景。涩谷十字路口是位于东京涩谷区的一个著名十字路口,以人来人往而闻名。照片中可以看到高楼大厦、霓虹灯招牌和路灯等,让人感受到城市的活力和能量。
示例
提示 | 输出 |
---|---|
请查看此图像,并详细具体地回答以下问题。这张照片是在哪里拍摄的?另外,请详细描述图像的内容。 | 这张照片拍摄的是涩谷十字路口的夜景。涩谷十字路口是位于东京涩谷区的一个著名十字路口,以人来人往而闻名。照片中可以看到高楼大厦、霓虹灯招牌和路灯等,让人感受到城市的活力和能量。 |
更多示例
点击展开
提示 | 输出 |
---|---|
请查看此图像,并详细具体地回答以下说明。请详细介绍这张照片的内容。 | 这张照片拍摄的是以东京彩虹桥为背景的城市景观。桥身涂有白色和灰色的油漆,优雅地横跨在水面上形成拱形。天空是清澈的蓝色,漂浮着几朵云彩。远处可以看到高楼林立的城市风景。 |
提示 | 输出 |
---|---|
请查看此图像,并详细具体地回答以下问题。请对这张照片进行评价。 | 这张照片非常漂亮。东京塔红色和白色的对比鲜明,与蓝天和白云的对比给人留下深刻印象。周围郁郁葱葱的树木和路灯营造出都市氛围,整体构图平衡。 |
提示 | 输出 |
---|---|
请查看此图像,并详细具体地回答以下问题。请详细介绍这张照片中的神社。 | 这张照片中的神社体现了日本传统的建筑风格。白色的墙壁和橙色的柱子很有特色,屋顶覆盖着绿色的瓦片。神社入口处有一座朱红色的鸟居,这是通往神圣场所的象征性大门。鸟居两侧装饰着注连绳,营造出神圣的氛围。此外,神社前铺设着石板路,这是参拜者踏入神圣场所时表达敬意的方式。这座神社虽然位于现代都市中,但在传承日本传统文化和信仰方面发挥着重要作用。 |
提示 | 输出 |
---|---|
请查看此图像,并详细具体地回答以下说明。这在日本庭院中属于哪种类型的庭院?原因是什么? | 这在日本庭院中属于池泉回游式庭院。池泉回游式庭院以池塘为中心进行布局,设计成可以围绕池塘漫步的形式。这种类型的庭院旨在最大限度地展现自然之美,为游客提供宁静和安宁。 |
提示 | 输出 |
---|---|
请查看此图像,并详细回答以下问题。请撰写一个以此图像场景为背景的小说梗概。 | 以此图像场景为背景的小说标题是《楼梯的秘密》。故事以一条远离城市喧嚣的安静小巷里的古老石楼梯为背景展开。主人公在攀登楼梯的过程中,经历着过去与现在交织的奇妙体验。楼梯中途有长满青苔的石壁,让人感受到历史的沧桑,还有传统的木结构建筑。主人公每攀登一段楼梯,都会触及过去的事件和人们的记忆,直面自己的过去。当到达楼梯顶端时,隐藏在那里的秘密将被揭开。 |
✨ 主要特性
- 大规模日本数据集训练:浅葱-14B在广泛的日本数据集上进行训练,涵盖多种数据来源,确保对日本文化和语言有更深入的理解。
- 避免受限模型合成数据:在合成训练数据时,不使用许可证条款限制输出使用的大语言模型(如GPT - 4),保障数据使用的合规性。
📦 模型详情
模型描述
本仓库提供浅葱-14B,这是一款大规模的日本视觉语言模型(VLM)。它在大量的日本数据集上进行训练,融合了多种不同的数据来源。
大部分训练数据是使用日本大语言模型([CALM3 - 22B - Chat](https://huggingface.co/cyberagent/calm3 - 22b - chat))和英语视觉语言模型([Phi3.5 - vision - instruct](https://huggingface.co/microsoft/Phi - 3.5 - vision - instruct))等模型合成的。
重要的是,我们在合成训练数据时不使用许可证条款限制输出使用的大语言模型(如GPT - 4)。
模型组件
模型组件 | 模型 / 架构 | 参数数量 |
---|---|---|
视觉编码器 | [siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384) | 4.28亿 |
投影器 | 2层多层感知机(MLP) | 6400万 |
大语言模型 | [llm - jp - 3 - 13b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 13b - instruct) | 130亿 |
🔧 训练详情
训练数据
数据集 | 预处理方式 | 阶段1 | 阶段2 | 规模 |
---|---|---|---|---|
ROIS(自有) | 合成 | ✓ | ✓ | 840万 |
日本图像文本对 | 合成 | ✓ | ✓ | 440万 |
维基百科 | 合成 | ✓ | ✓ | 250万 |
Open Images | 翻译 | ✓ | ✓ | 68万 |
DCI | 翻译 | ✓ | ✓ | 7000 |
CommonCatalog CC - BY | 翻译 | ✓ | ✓ | 350万 |
LLaVA - Pretrain - JA | ✓ | ✓ | 55万 | |
STAIR Captions | ✓ | ✓ | 41万 | |
Flickr - JP | ✓ | ✓ | 16万 | |
YJ Captions | ✓ | ✓ | 13万 | |
日本Pascal | ✓ | ✓ | 5000 | |
ArtBench | 合成 | ✓ | 10万 | |
GQA | 翻译 | ✓ | 190万 | |
VQA v2 | 翻译 | ✓ | 88万 | |
A - OKVQA | 翻译 | ✓ | 3.4万 | |
OK - VQA | 翻译 | ✓ | 1.8万 | |
日本视觉基因组 | 翻译 | ✓ | 160万 | |
PangeaInstruct | ✓ | 9.3万 |
注:ROIS(自有)是专门为该项目从网络上爬取的新数据集,由图像和原始文本对组成,用于合成训练数据。
📚 评估
我们使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500对模型进行评估,并使用eval - mm库进行评估操作。
此处,带有“†”标记的模型未使用GPT生成的数据进行训练。粗体数字表示所有模型中的最佳性能,下划线数字表示未使用GPT生成数据训练的模型中的最佳性能。
模型 | 语言模型规模 | Heron - Bench(大语言模型(%)) | JA - VLM - Bench - In - the - Wild(ROUGE - L) | JA - VLM - Bench - In - the - Wild(大语言模型(/5.0)) | JA - VG - VQA - 500(ROUGE - L) | JA - VG - VQA - 500(大语言模型(/5.0)) |
---|---|---|---|---|---|---|
日本InstructBLIP Alpha† | 70亿 | 14.0 | 20.8 | 2.42 | - | - |
日本Stable VLM† | 70亿 | 24.2 | 23.3 | 2.47 | - | - |
LLaVA - CALM2 - SigLIP† | 70亿 | 43.3 | 47.2 | 3.15 | 17.4 | 3.21 |
Llama - 3 - EvoVLM - JP - v2 | 80亿 | 39.3 | 41.4 | 2.92 | 23.5 | 2.96 |
VILA - jp | 130亿 | 57.2 | 52.3 | 3.69 | 16.2 | 3.62 |
浅葱 - 2B† | 18亿 | 44.7 | 48.8 | 3.26 | 53.7 | 3.69 |
浅葱 - 4B† | 37亿 | 49.3 | 49.6 | 3.38 | 55.6 | 3.78 |
浅葱 - 8B† | 72亿 | 54.7 | 49.4 | 3.45 | 56.43 | 3.84 |
浅葱 - 14B† | 130亿 | 55.8 | 50.8 | 3.44 | 56.8 | 3.84 |
GPT - 4o | - | 87.6 | 37.6 | 3.85 | 12.1 | 3.58 |
⚠️ 风险与局限
此处发布的模型处于我们研发的早期阶段,尚未进行调优以确保输出符合人类意图和安全考量。
📄 许可证
本模型采用Apache - 2.0许可证。
📖 模型卡片作者
上原浩平
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98