Asagi-8B开源日语视觉与语言模型 - 基于广泛数据集支持多样应用

首页

Asagi 8B

由 MIL-UT 开发

Asagi-8B是一个大规模的日语视觉与语言模型（VLM），基于广泛的日语数据集训练，整合了多样化的数据来源。

图像生成文本

Transformers

日语开源协议:Apache-2.0 #日语视觉语言模型 #多模态问答 #图像场景理解

下载量 58

发布时间 : 2/19/2025

模型简介

Asagi-8B是一个日语视觉与语言模型，能够处理图像到文本的任务，适用于日语环境下的多模态应用。

模型特点

多模态能力

结合视觉编码器和语言模型，能够理解和生成与图像相关的日语文本。

日语优化

专门针对日语数据进行训练，适用于日语环境下的视觉与语言任务。

合成数据训练

使用合成数据训练，避免使用许可证限制输出用途的LLM生成的数据。

模型能力

图像描述生成

视觉问答

多模态推理

使用案例

视觉问答

图像内容描述

根据图像生成详细的日语描述。

生成详细的图像描述，包括场景、物体和活动。

地点识别

识别图像中的拍摄地点并提供详细解释。

提供可能的地点识别和详细的环境描述。

创意写作

故事生成

基于图像生成故事情节。

生成与图像内容相关的故事情节。

🚀 浅葱-8B模型

浅葱-8B是一个大规模的日语视觉与语言模型（VLM），它在广泛的日语数据集上进行训练，整合了多种不同的数据来源，能有效处理图像文本相关任务。

🚀 快速开始

环境要求

transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0

使用方法

import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig

transformers.set_seed(42)
model_path = "MIL-UT/Asagi-8B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
    model_path, trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

generation_config = GenerationConfig(
    do_sample=True,
    num_beams=5,
    max_new_tokens=256,
    temperature=0.7,
    repetition_penalty=1.5
)

prompt = ("以下是对任务的说明，请根据要求给出合适的回答。\n\n"
            "### 说明:\n<image>\n请仔细查看这张图片，并详细具体地回答以下问题。这张照片是在哪里拍摄的？请详细描述图片的内容。\n\n### 回答:\n")

# 示例图片
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)

inputs = processor(
    text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
    if v.dtype == torch.float32:
        inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}

generate_ids = model.generate(
    **inputs,
    generation_config=generation_config
)
generated_text = processor.batch_decode(
    generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

# 不打印提示信息
if "<image>" in prompt:
    prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")

print(f"生成的文本: {generated_text}")

# >>> 生成的文本:  这张照片拍摄的是东京银座的夜景。银座是东京最具代表性的繁华街区之一，许多高楼大厦林立，霓虹灯和路灯的光芒交相辉映。特别引人注目的是，位于中央的“银座水晶大厦”，其独特的钟楼给人留下深刻的印象。穿梭于楼宇间的车辆和行人，让人感受到都市的活力。

示例

示例图片

提示	输出
请仔细查看这张图片，并详细具体地回答以下问题。这张照片是在哪里拍摄的？请详细描述图片的内容。	这张照片拍摄的是东京银座的夜景。银座是东京最具代表性的繁华街区之一，许多高楼大厦林立，霓虹灯和路灯的光芒交相辉映。特别引人注目的是，位于中央的“银座水晶大厦”，其独特的钟楼给人留下深刻的印象。穿梭于楼宇间的车辆和行人，让人感受到都市的活力。

注意：这张图片实际拍摄于涩谷，而非银座。

更多示例

点击展开

桥梁图片

提示	输出
请仔细查看这张图片，并详细具体地回答以下问题。请详细描述这张照片的内容。	这张照片拍摄的是东京台场地区的彩虹桥。彩虹桥是连接东京港区和江东区的重要交通要道，其标志性的白色塔楼和电缆令人印象深刻。背景中林立的高楼大厦，展现出东京的城市风貌。天空部分被云层覆盖，暗示着拍摄时间可能是早晨或傍晚。

塔楼图片

提示	输出
请仔细查看这张图片，并详细具体地回答以下问题。请对这张照片进行评价。	这张照片捕捉到了东京晴空塔的壮丽景色，红白相间的建筑结构直插云霄。由于采用了低角度拍摄，塔楼显得更加雄伟壮观。背景是湛蓝的天空中点缀着朵朵白云，前景则是郁郁葱葱的树木和路灯，自然元素与城市景观完美融合。整体而言，这是一张人工与自然和谐共生的美丽照片。

神社图片

提示	输出
请仔细查看这张图片，并详细具体地回答以下问题。请详细描述照片中的神社。	照片中的神社体现了传统的日本建筑风格。朱红色的鸟居与白色的墙壁形成鲜明对比，营造出一种神圣的氛围。鸟居位于神社入口，起到分隔神域与世俗世界的作用。神社的屋顶采用瓦片铺设，使用了绿色的瓦片，这是日本传统建筑风格的一种体现。此外，神社周围林立的现代建筑，象征着传统与现代在日本的和谐共存。

提示

输出

请仔细查看这张图片，并详细具体地回答以下问题。请详细描述照片中的神社。

照片中的神社体现了传统的日本建筑风格。朱红色的鸟居与白色的墙壁形成鲜明对比，营造出一种神圣的氛围。鸟居位于神社入口，起到分隔神域与世俗世界的作用。神社的屋顶采用瓦片铺设，使用了绿色的瓦片，这是日本传统建筑风格的一种体现。此外，神社周围林立的现代建筑，象征着传统与现代在日本的和谐共存。

花园图片

提示	输出
请仔细查看这张图片，并详细具体地回答以下问题。在日本园林中，这种园林属于哪种类型？原因是什么？	这种园林属于“池泉回游式园林”。池泉回游式园林是指带有池塘和水景的园林，也被称为水生园林或有水景的园林。这种园林的设计旨在充分展现自然之美，池塘和水景是园林的核心元素。

斜坡图片

提示	输出
请仔细查看这张图片，并详细回答以下问题。请以这张图片的场景为背景，编写一个小说的梗概。	以这张图片的场景为背景的小说名为《石阶的秘密》。故事从主人公逃离城市喧嚣，踏上古老的石阶开始。石阶周围绿树成荫，历史悠久的建筑错落有致。主人公在攀登石阶的过程中，经历了一场穿越过去与未来的奇妙之旅，最终揭开了石阶下隐藏的秘密。

✨ 主要特性

本仓库提供了浅葱-8B，这是一个大规模的日语视觉与语言模型（VLM）。它具有以下特性：

丰富的训练数据：在广泛的日语数据集上进行训练，整合了多种不同的数据来源。
合成数据的使用：部分训练数据是使用日语大语言模型（如[CALM3 - 22B - Chat](https://huggingface.co/cyberagent/calm3 - 22b - chat)）和英语视觉与语言模型（如[Phi3.5 - vision - instruct](https://huggingface.co/microsoft/Phi - 3.5 - vision - instruct)）合成的。
避免受限模型：在合成训练数据时，不使用许可证条款限制输出使用的大语言模型（如GPT - 4）。
跳过阶段一训练：与浅葱系列的其他模型不同，浅葱 - 8B跳过了阶段一的训练。

📦 安装指南

安装所需的库，可使用以下命令：

pip install transformers==4.45.1 accelerate==0.34.2 torch==2.4.0 torchvision==0.19.0

📚 详细文档

模型详情

模型组件	模型/架构	参数数量
视觉编码器	[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)	4.28亿
投影器	2层MLP	4300万
大语言模型	[llm - jp - 3 - 7.2b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 7.2b - instruct)	72亿

训练详情

注意：浅葱 - 8B跳过了阶段一的训练。

数据集	预处理方式	阶段一	阶段二	规模
ROIS（自有）	合成	✓	✓	840万
日语图像文本对	合成	✓	✓	440万
维基百科	合成	✓	✓	250万
Open Images	翻译	✓	✓	68万
DCI	翻译	✓	✓	7000
CommonCatalog CC - BY	翻译	✓	✓	350万
LLaVA - Pretrain - JA		✓	✓	55万
STAIR Captions		✓	✓	41万
Flickr - JP		✓	✓	16万
YJ Captions		✓	✓	13万
日语Pascal		✓	✓	5000
ArtBench	合成		✓	10万
GQA	翻译		✓	190万
VQA v2	翻译		✓	88万
A - OKVQA	翻译		✓	3.4万
OK - VQA	翻译		✓	1.8万
日语视觉基因组	翻译		✓	160万
PangeaInstruct			✓	9.3万

注意：ROIS（自有）是专门为该项目从网络上爬取的新数据集，由图像和原始文本对组成，用于合成训练数据。

评估

使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500对模型进行评估，评估使用了eval - mm库。

以下表格中，带有“†”的模型未使用GPT生成的数据进行训练。粗体数字表示所有模型中的最佳性能，下划线数字表示未使用GPT生成数据训练的模型中的最佳性能。

模型	语言模型规模	Heron - Bench (LLM (%))	JA - VLM - Bench - In - the - Wild (ROUGE - L)	JA - VLM - Bench - In - the - Wild (LLM (/5.0))	JA - VG - VQA - 500 (ROUGE - L)	JA - VG - VQA - 500 (LLM (/5.0))
日语InstructBLIP Alpha†	70亿	14.0	20.8	2.42	-	-
日语Stable VLM†	70亿	24.2	23.3	2.47	-	-
LLaVA - CALM2 - SigLIP†	70亿	43.3	47.2	3.15	17.4	3.21
Llama - 3 - EvoVLM - JP - v2	80亿	39.3	41.4	2.92	23.5	2.96
VILA - jp	130亿	57.2	52.3	3.69	16.2	3.62
浅葱 - 2B†	18亿	44.7	48.8	3.26	53.7	3.69
浅葱 - 4B†	37亿	49.3	49.6	3.38	55.6	3.78
浅葱 - 8B†	72亿	54.7	49.4	3.45	56.43	3.84
浅葱 - 14B†	130亿	55.8	50.8	3.44	56.8	3.84
GPT - 4o	-	87.6	37.6	3.85	12.1	3.58

🔧 技术细节

模型架构

视觉编码器：采用[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)，参数数量为4.28亿。
投影器：使用2层MLP，参数数量为4300万。
大语言模型：选用[llm - jp - 3 - 7.2b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 7.2b - instruct)，参数数量为72亿。