Asagi-8B開源日語視覺與語言模型 - 基於廣泛數據集支持多樣應用

首頁

Asagi 8B

由MIL-UT開發

Asagi-8B是一個大規模的日語視覺與語言模型（VLM），基於廣泛的日語數據集訓練，整合了多樣化的數據來源。

圖像生成文本

Transformers

日語開源協議:Apache-2.0 #日語視覺語言模型 #多模態問答 #圖像場景理解

下載量 58

發布時間 : 2/19/2025

模型概述

Asagi-8B是一個日語視覺與語言模型，能夠處理圖像到文本的任務，適用於日語環境下的多模態應用。

模型特點

多模態能力

結合視覺編碼器和語言模型，能夠理解和生成與圖像相關的日語文本。

日語優化

專門針對日語數據進行訓練，適用於日語環境下的視覺與語言任務。

合成數據訓練

使用合成數據訓練，避免使用許可證限制輸出用途的LLM生成的數據。

模型能力

圖像描述生成

視覺問答

多模態推理

使用案例

視覺問答

圖像內容描述

根據圖像生成詳細的日語描述。

生成詳細的圖像描述，包括場景、物體和活動。

地點識別

識別圖像中的拍攝地點並提供詳細解釋。

提供可能的地點識別和詳細的環境描述。

創意寫作

故事生成

基於圖像生成故事情節。

生成與圖像內容相關的故事情節。

🚀 淺蔥-8B模型

淺蔥-8B是一個大規模的日語視覺與語言模型（VLM），它在廣泛的日語數據集上進行訓練，整合了多種不同的數據來源，能有效處理圖像文本相關任務。

🚀 快速開始

環境要求

transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0

使用方法

import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig

transformers.set_seed(42)
model_path = "MIL-UT/Asagi-8B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
    model_path, trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

generation_config = GenerationConfig(
    do_sample=True,
    num_beams=5,
    max_new_tokens=256,
    temperature=0.7,
    repetition_penalty=1.5
)

prompt = ("以下是對任務的說明，請根據要求給出合適的回答。\n\n"
            "### 說明:\n<image>\n請仔細查看這張圖片，並詳細具體地回答以下問題。這張照片是在哪裡拍攝的？請詳細描述圖片的內容。\n\n### 回答:\n")

# 示例圖片
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)

inputs = processor(
    text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
    if v.dtype == torch.float32:
        inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}

generate_ids = model.generate(
    **inputs,
    generation_config=generation_config
)
generated_text = processor.batch_decode(
    generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

# 不打印提示信息
if "<image>" in prompt:
    prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")

print(f"生成的文本: {generated_text}")

# >>> 生成的文本:  這張照片拍攝的是東京銀座的夜景。銀座是東京最具代表性的繁華街區之一，許多高樓大廈林立，霓虹燈和路燈的光芒交相輝映。特別引人注目的是，位於中央的“銀座水晶大廈”，其獨特的鐘樓給人留下深刻的印象。穿梭於樓宇間的車輛和行人，讓人感受到都市的活力。

示例

示例圖片

提示	輸出
請仔細查看這張圖片，並詳細具體地回答以下問題。這張照片是在哪裡拍攝的？請詳細描述圖片的內容。	這張照片拍攝的是東京銀座的夜景。銀座是東京最具代表性的繁華街區之一，許多高樓大廈林立，霓虹燈和路燈的光芒交相輝映。特別引人注目的是，位於中央的“銀座水晶大廈”，其獨特的鐘樓給人留下深刻的印象。穿梭於樓宇間的車輛和行人，讓人感受到都市的活力。

注意：這張圖片實際拍攝於澀谷，而非銀座。

更多示例

點擊展開

橋樑圖片

提示	輸出
請仔細查看這張圖片，並詳細具體地回答以下問題。請詳細描述這張照片的內容。	這張照片拍攝的是東京臺場地區的彩虹橋。彩虹橋是連接東京港區和江東區的重要交通要道，其標誌性的白色塔樓和電纜令人印象深刻。背景中林立的高樓大廈，展現出東京的城市風貌。天空部分被雲層覆蓋，暗示著拍攝時間可能是早晨或傍晚。

塔樓圖片

提示	輸出
請仔細查看這張圖片，並詳細具體地回答以下問題。請對這張照片進行評價。	這張照片捕捉到了東京晴空塔的壯麗景色，紅白相間的建築結構直插雲霄。由於採用了低角度拍攝，塔樓顯得更加雄偉壯觀。背景是湛藍的天空中點綴著朵朵白雲，前景則是鬱鬱蔥蔥的樹木和路燈，自然元素與城市景觀完美融合。整體而言，這是一張人工與自然和諧共生的美麗照片。

神社圖片

提示	輸出
請仔細查看這張圖片，並詳細具體地回答以下問題。請詳細描述照片中的神社。	照片中的神社體現了傳統的日本建築風格。硃紅色的鳥居與白色的牆壁形成鮮明對比，營造出一種神聖的氛圍。鳥居位於神社入口，起到分隔神域與世俗世界的作用。神社的屋頂採用瓦片鋪設，使用了綠色的瓦片，這是日本傳統建築風格的一種體現。此外，神社周圍林立的現代建築，象徵著傳統與現代在日本的和諧共存。

提示

輸出

請仔細查看這張圖片，並詳細具體地回答以下問題。請詳細描述照片中的神社。

照片中的神社體現了傳統的日本建築風格。硃紅色的鳥居與白色的牆壁形成鮮明對比，營造出一種神聖的氛圍。鳥居位於神社入口，起到分隔神域與世俗世界的作用。神社的屋頂採用瓦片鋪設，使用了綠色的瓦片，這是日本傳統建築風格的一種體現。此外，神社周圍林立的現代建築，象徵著傳統與現代在日本的和諧共存。

花園圖片

提示	輸出
請仔細查看這張圖片，並詳細具體地回答以下問題。在日本園林中，這種園林屬於哪種類型？原因是什麼？	這種園林屬於“池泉迴游式園林”。池泉迴游式園林是指帶有池塘和水景的園林，也被稱為水生園林或有水景的園林。這種園林的設計旨在充分展現自然之美，池塘和水景是園林的核心元素。

斜坡圖片

提示	輸出
請仔細查看這張圖片，並詳細回答以下問題。請以這張圖片的場景為背景，編寫一個小說的梗概。	以這張圖片的場景為背景的小說名為《石階的秘密》。故事從主人公逃離城市喧囂，踏上古老的石階開始。石階周圍綠樹成蔭，歷史悠久的建築錯落有致。主人公在攀登石階的過程中，經歷了一場穿越過去與未來的奇妙之旅，最終揭開了石階下隱藏的秘密。

✨ 主要特性

本倉庫提供了淺蔥-8B，這是一個大規模的日語視覺與語言模型（VLM）。它具有以下特性：

豐富的訓練數據：在廣泛的日語數據集上進行訓練，整合了多種不同的數據來源。
合成數據的使用：部分訓練數據是使用日語大語言模型（如[CALM3 - 22B - Chat](https://huggingface.co/cyberagent/calm3 - 22b - chat)）和英語視覺與語言模型（如[Phi3.5 - vision - instruct](https://huggingface.co/microsoft/Phi - 3.5 - vision - instruct)）合成的。
避免受限模型：在合成訓練數據時，不使用許可證條款限制輸出使用的大語言模型（如GPT - 4）。
跳過階段一訓練：與淺蔥系列的其他模型不同，淺蔥 - 8B跳過了階段一的訓練。

📦 安裝指南

安裝所需的庫，可使用以下命令：

pip install transformers==4.45.1 accelerate==0.34.2 torch==2.4.0 torchvision==0.19.0

📚 詳細文檔

模型詳情

模型組件	模型/架構	參數數量
視覺編碼器	[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)	4.28億
投影器	2層MLP	4300萬
大語言模型	[llm - jp - 3 - 7.2b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 7.2b - instruct)	72億

訓練詳情

注意：淺蔥 - 8B跳過了階段一的訓練。

數據集	預處理方式	階段一	階段二	規模
ROIS（自有）	合成	✓	✓	840萬
日語圖像文本對	合成	✓	✓	440萬
維基百科	合成	✓	✓	250萬
Open Images	翻譯	✓	✓	68萬
DCI	翻譯	✓	✓	7000
CommonCatalog CC - BY	翻譯	✓	✓	350萬
LLaVA - Pretrain - JA		✓	✓	55萬
STAIR Captions		✓	✓	41萬
Flickr - JP		✓	✓	16萬
YJ Captions		✓	✓	13萬
日語Pascal		✓	✓	5000
ArtBench	合成		✓	10萬
GQA	翻譯		✓	190萬
VQA v2	翻譯		✓	88萬
A - OKVQA	翻譯		✓	3.4萬
OK - VQA	翻譯		✓	1.8萬
日語視覺基因組	翻譯		✓	160萬
PangeaInstruct			✓	9.3萬

注意：ROIS（自有）是專門為該項目從網絡上爬取的新數據集，由圖像和原始文本對組成，用於合成訓練數據。

評估

使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500對模型進行評估，評估使用了eval - mm庫。

以下表格中，帶有“†”的模型未使用GPT生成的數據進行訓練。粗體數字表示所有模型中的最佳性能，下劃線數字表示未使用GPT生成數據訓練的模型中的最佳性能。

模型	語言模型規模	Heron - Bench (LLM (%))	JA - VLM - Bench - In - the - Wild (ROUGE - L)	JA - VLM - Bench - In - the - Wild (LLM (/5.0))	JA - VG - VQA - 500 (ROUGE - L)	JA - VG - VQA - 500 (LLM (/5.0))
日語InstructBLIP Alpha†	70億	14.0	20.8	2.42	-	-
日語Stable VLM†	70億	24.2	23.3	2.47	-	-
LLaVA - CALM2 - SigLIP†	70億	43.3	47.2	3.15	17.4	3.21
Llama - 3 - EvoVLM - JP - v2	80億	39.3	41.4	2.92	23.5	2.96
VILA - jp	130億	57.2	52.3	3.69	16.2	3.62
淺蔥 - 2B†	18億	44.7	48.8	3.26	53.7	3.69
淺蔥 - 4B†	37億	49.3	49.6	3.38	55.6	3.78
淺蔥 - 8B†	72億	54.7	49.4	3.45	56.43	3.84
淺蔥 - 14B†	130億	55.8	50.8	3.44	56.8	3.84
GPT - 4o	-	87.6	37.6	3.85	12.1	3.58

🔧 技術細節

模型架構

視覺編碼器：採用[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)，參數數量為4.28億。
投影器：使用2層MLP，參數數量為4300萬。
大語言模型：選用[llm - jp - 3 - 7.2b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 7.2b - instruct)，參數數量為72億。