Asagi-14B开源日语视觉与语言模型 - 免费使用助力日语内容理解

首页

Asagi 14B

由 MIL-UT 开发

Asagi-14B是一个大规模的日语视觉与语言模型（VLM），在广泛的日语数据集上进行了训练，整合了多样化的数据来源。

图像生成文本

Transformers

日语开源协议:Apache-2.0 #日语视觉语言模型 #多模态图像理解 #高精度日语描述

下载量 83

发布时间 : 1/9/2025

模型简介

Asagi-14B是一个结合视觉编码器和大语言模型的视觉与语言模型，主要用于图像文本到文本的任务，支持日语。

模型特点

多模态能力

结合视觉编码器和语言模型，能够理解和生成基于图像的文本描述。

日语优化

专门针对日语进行了训练和优化，适用于日语场景下的视觉与语言任务。

数据合成

训练数据大部分通过模型合成，避免了使用限制性许可的LLM输出。

模型能力

图像描述生成

视觉问答

多模态推理

日语文本生成

使用案例

图像理解与描述

场景识别

识别图像中的场景并生成详细描述。

例如，识别出照片拍摄于东京的某个著名地点，并描述其细节。

物体识别

识别图像中的物体并生成描述。

例如，识别出图像中的建筑、自然景观等。

视觉问答

图像内容问答

回答关于图像内容的详细问题。

例如，回答图像拍摄地点、图像中的物体等。

🚀 浅葱-14B：日本大型视觉语言模型

浅葱-14B是一款大规模的日本视觉语言模型（VLM），它基于丰富的日本数据集进行训练，融合了多种不同来源的数据，为图像与文本交互处理提供了强大的能力。

🚀 快速开始

环境要求

transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0

使用方法

import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig

transformers.set_seed(42)
model_path = "MIL-UT/Asagi-14B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
    model_path, trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

generation_config = GenerationConfig(
    do_sample=True,
    num_beams=5,
    max_new_tokens=256,
    temperature=0.7,
    repetition_penalty=1.5
)

prompt = ("以下是对任务的说明，请写出合适的回复。\n\n"
            "### 说明:\n<image>\n请查看此图像，并详细具体地回答以下问题。这张照片是在哪里拍摄的？另外，请详细描述图像的内容。\n\n### 回复:\n")

# 示例图像
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)

inputs = processor(
    text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
    if v.dtype == torch.float32:
        inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}

generate_ids = model.generate(
    **inputs,
    generation_config=generation_config
)
generated_text = processor.batch_decode(
    generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

# 不打印提示信息
if "<image>" in prompt:
    prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")

print(f"生成的文本: {generated_text}")

# >>> 生成的文本:  这张照片拍摄的是涩谷十字路口的夜景。涩谷十字路口是位于东京涩谷区的一个著名十字路口，以人来人往而闻名。照片中可以看到高楼大厦、霓虹灯招牌和路灯等，让人感受到城市的活力和能量。

示例

示例图片

提示	输出
请查看此图像，并详细具体地回答以下问题。这张照片是在哪里拍摄的？另外，请详细描述图像的内容。	这张照片拍摄的是涩谷十字路口的夜景。涩谷十字路口是位于东京涩谷区的一个著名十字路口，以人来人往而闻名。照片中可以看到高楼大厦、霓虹灯招牌和路灯等，让人感受到城市的活力和能量。

更多示例

点击展开

桥梁图片

提示	输出
请查看此图像，并详细具体地回答以下说明。请详细介绍这张照片的内容。	这张照片拍摄的是以东京彩虹桥为背景的城市景观。桥身涂有白色和灰色的油漆，优雅地横跨在水面上形成拱形。天空是清澈的蓝色，漂浮着几朵云彩。远处可以看到高楼林立的城市风景。

塔楼图片

提示	输出
请查看此图像，并详细具体地回答以下问题。请对这张照片进行评价。	这张照片非常漂亮。东京塔红色和白色的对比鲜明，与蓝天和白云的对比给人留下深刻印象。周围郁郁葱葱的树木和路灯营造出都市氛围，整体构图平衡。

神社图片

提示	输出
请查看此图像，并详细具体地回答以下问题。请详细介绍这张照片中的神社。	这张照片中的神社体现了日本传统的建筑风格。白色的墙壁和橙色的柱子很有特色，屋顶覆盖着绿色的瓦片。神社入口处有一座朱红色的鸟居，这是通往神圣场所的象征性大门。鸟居两侧装饰着注连绳，营造出神圣的氛围。此外，神社前铺设着石板路，这是参拜者踏入神圣场所时表达敬意的方式。这座神社虽然位于现代都市中，但在传承日本传统文化和信仰方面发挥着重要作用。

提示

输出

请查看此图像，并详细具体地回答以下问题。请详细介绍这张照片中的神社。

这张照片中的神社体现了日本传统的建筑风格。白色的墙壁和橙色的柱子很有特色，屋顶覆盖着绿色的瓦片。神社入口处有一座朱红色的鸟居，这是通往神圣场所的象征性大门。鸟居两侧装饰着注连绳，营造出神圣的氛围。此外，神社前铺设着石板路，这是参拜者踏入神圣场所时表达敬意的方式。这座神社虽然位于现代都市中，但在传承日本传统文化和信仰方面发挥着重要作用。

花园图片

提示	输出
请查看此图像，并详细具体地回答以下说明。这在日本庭院中属于哪种类型的庭院？原因是什么？	这在日本庭院中属于池泉回游式庭院。池泉回游式庭院以池塘为中心进行布局，设计成可以围绕池塘漫步的形式。这种类型的庭院旨在最大限度地展现自然之美，为游客提供宁静和安宁。

斜坡图片

提示	输出
请查看此图像，并详细回答以下问题。请撰写一个以此图像场景为背景的小说梗概。	以此图像场景为背景的小说标题是《楼梯的秘密》。故事以一条远离城市喧嚣的安静小巷里的古老石楼梯为背景展开。主人公在攀登楼梯的过程中，经历着过去与现在交织的奇妙体验。楼梯中途有长满青苔的石壁，让人感受到历史的沧桑，还有传统的木结构建筑。主人公每攀登一段楼梯，都会触及过去的事件和人们的记忆，直面自己的过去。当到达楼梯顶端时，隐藏在那里的秘密将被揭开。

提示

输出

请查看此图像，并详细回答以下问题。请撰写一个以此图像场景为背景的小说梗概。

以此图像场景为背景的小说标题是《楼梯的秘密》。故事以一条远离城市喧嚣的安静小巷里的古老石楼梯为背景展开。主人公在攀登楼梯的过程中，经历着过去与现在交织的奇妙体验。楼梯中途有长满青苔的石壁，让人感受到历史的沧桑，还有传统的木结构建筑。主人公每攀登一段楼梯，都会触及过去的事件和人们的记忆，直面自己的过去。当到达楼梯顶端时，隐藏在那里的秘密将被揭开。

✨ 主要特性

大规模日本数据集训练：浅葱-14B在广泛的日本数据集上进行训练，涵盖多种数据来源，确保对日本文化和语言有更深入的理解。
避免受限模型合成数据：在合成训练数据时，不使用许可证条款限制输出使用的大语言模型（如GPT - 4），保障数据使用的合规性。

📦 模型详情

模型描述

本仓库提供浅葱-14B，这是一款大规模的日本视觉语言模型（VLM）。它在大量的日本数据集上进行训练，融合了多种不同的数据来源。

大部分训练数据是使用日本大语言模型（[CALM3 - 22B - Chat](https://huggingface.co/cyberagent/calm3 - 22b - chat)）和英语视觉语言模型（[Phi3.5 - vision - instruct](https://huggingface.co/microsoft/Phi - 3.5 - vision - instruct)）等模型合成的。

重要的是，我们在合成训练数据时不使用许可证条款限制输出使用的大语言模型（如GPT - 4）。

模型组件

模型组件	模型 / 架构	参数数量
视觉编码器	[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)	4.28亿
投影器	2层多层感知机（MLP）	6400万
大语言模型	[llm - jp - 3 - 13b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 13b - instruct)	130亿

🔧 训练详情

训练数据

数据集	预处理方式	阶段1	阶段2	规模
ROIS（自有）	合成	✓	✓	840万
日本图像文本对	合成	✓	✓	440万
维基百科	合成	✓	✓	250万
Open Images	翻译	✓	✓	68万
DCI	翻译	✓	✓	7000
CommonCatalog CC - BY	翻译	✓	✓	350万
LLaVA - Pretrain - JA		✓	✓	55万
STAIR Captions		✓	✓	41万
Flickr - JP		✓	✓	16万
YJ Captions		✓	✓	13万
日本Pascal		✓	✓	5000
ArtBench	合成		✓	10万
GQA	翻译		✓	190万
VQA v2	翻译		✓	88万
A - OKVQA	翻译		✓	3.4万
OK - VQA	翻译		✓	1.8万
日本视觉基因组	翻译		✓	160万
PangeaInstruct			✓	9.3万

注：ROIS（自有）是专门为该项目从网络上爬取的新数据集，由图像和原始文本对组成，用于合成训练数据。

📚 评估

我们使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500对模型进行评估，并使用eval - mm库进行评估操作。

此处，带有“†”标记的模型未使用GPT生成的数据进行训练。粗体数字表示所有模型中的最佳性能，下划线数字表示未使用GPT生成数据训练的模型中的最佳性能。

模型	语言模型规模	Heron - Bench（大语言模型（%））	JA - VLM - Bench - In - the - Wild（ROUGE - L）	JA - VLM - Bench - In - the - Wild（大语言模型（/5.0））	JA - VG - VQA - 500（ROUGE - L）	JA - VG - VQA - 500（大语言模型（/5.0））
日本InstructBLIP Alpha†	70亿	14.0	20.8	2.42	-	-
日本Stable VLM†	70亿	24.2	23.3	2.47	-	-
LLaVA - CALM2 - SigLIP†	70亿	43.3	47.2	3.15	17.4	3.21
Llama - 3 - EvoVLM - JP - v2	80亿	39.3	41.4	2.92	23.5	2.96
VILA - jp	130亿	57.2	52.3	3.69	16.2	3.62
浅葱 - 2B†	18亿	44.7	48.8	3.26	53.7	3.69
浅葱 - 4B†	37亿	49.3	49.6	3.38	55.6	3.78
浅葱 - 8B†	72亿	54.7	49.4	3.45	56.43	3.84
浅葱 - 14B†	130亿	55.8	50.8	3.44	56.8	3.84
GPT - 4o	-	87.6	37.6	3.85	12.1	3.58