Asagi-14B開源日語視覺與語言模型 - 免費使用助力日語內容理解

首頁

Asagi 14B

由MIL-UT開發

Asagi-14B是一個大規模的日語視覺與語言模型（VLM），在廣泛的日語數據集上進行了訓練，整合了多樣化的數據來源。

圖像生成文本

Transformers

日語開源協議:Apache-2.0 #日語視覺語言模型 #多模態圖像理解 #高精度日語描述

下載量 83

發布時間 : 1/9/2025

模型概述

Asagi-14B是一個結合視覺編碼器和大語言模型的視覺與語言模型，主要用於圖像文本到文本的任務，支持日語。

模型特點

多模態能力

結合視覺編碼器和語言模型，能夠理解和生成基於圖像的文本描述。

日語優化

專門針對日語進行了訓練和優化，適用於日語場景下的視覺與語言任務。

數據合成

訓練數據大部分通過模型合成，避免了使用限制性許可的LLM輸出。

模型能力

圖像描述生成

視覺問答

多模態推理

日語文本生成

使用案例

圖像理解與描述

場景識別

識別圖像中的場景並生成詳細描述。

例如，識別出照片拍攝於東京的某個著名地點，並描述其細節。

物體識別

識別圖像中的物體並生成描述。

例如，識別出圖像中的建築、自然景觀等。

視覺問答

圖像內容問答

回答關於圖像內容的詳細問題。

例如，回答圖像拍攝地點、圖像中的物體等。

🚀 淺蔥-14B：日本大型視覺語言模型

淺蔥-14B是一款大規模的日本視覺語言模型（VLM），它基於豐富的日本數據集進行訓練，融合了多種不同來源的數據，為圖像與文本交互處理提供了強大的能力。

🚀 快速開始

環境要求

transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0

使用方法

import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig

transformers.set_seed(42)
model_path = "MIL-UT/Asagi-14B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
    model_path, trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

generation_config = GenerationConfig(
    do_sample=True,
    num_beams=5,
    max_new_tokens=256,
    temperature=0.7,
    repetition_penalty=1.5
)

prompt = ("以下是對任務的說明，請寫出合適的回覆。\n\n"
            "### 說明:\n<image>\n請查看此圖像，並詳細具體地回答以下問題。這張照片是在哪裡拍攝的？另外，請詳細描述圖像的內容。\n\n### 回覆:\n")

# 示例圖像
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)

inputs = processor(
    text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
    if v.dtype == torch.float32:
        inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}

generate_ids = model.generate(
    **inputs,
    generation_config=generation_config
)
generated_text = processor.batch_decode(
    generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

# 不打印提示信息
if "<image>" in prompt:
    prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")

print(f"生成的文本: {generated_text}")

# >>> 生成的文本:  這張照片拍攝的是澀谷十字路口的夜景。澀谷十字路口是位於東京澀谷區的一個著名十字路口，以人來人往而聞名。照片中可以看到高樓大廈、霓虹燈招牌和路燈等，讓人感受到城市的活力和能量。

示例

示例圖片

提示	輸出
請查看此圖像，並詳細具體地回答以下問題。這張照片是在哪裡拍攝的？另外，請詳細描述圖像的內容。	這張照片拍攝的是澀谷十字路口的夜景。澀谷十字路口是位於東京澀谷區的一個著名十字路口，以人來人往而聞名。照片中可以看到高樓大廈、霓虹燈招牌和路燈等，讓人感受到城市的活力和能量。

更多示例

點擊展開

橋樑圖片

提示	輸出
請查看此圖像，並詳細具體地回答以下說明。請詳細介紹這張照片的內容。	這張照片拍攝的是以東京彩虹橋為背景的城市景觀。橋身塗有白色和灰色的油漆，優雅地橫跨在水面上形成拱形。天空是清澈的藍色，漂浮著幾朵雲彩。遠處可以看到高樓林立的城市風景。

塔樓圖片

提示	輸出
請查看此圖像，並詳細具體地回答以下問題。請對這張照片進行評價。	這張照片非常漂亮。東京塔紅色和白色的對比鮮明，與藍天和白雲的對比給人留下深刻印象。周圍鬱鬱蔥蔥的樹木和路燈營造出都市氛圍，整體構圖平衡。

神社圖片

提示	輸出
請查看此圖像，並詳細具體地回答以下問題。請詳細介紹這張照片中的神社。	這張照片中的神社體現了日本傳統的建築風格。白色的牆壁和橙色的柱子很有特色，屋頂覆蓋著綠色的瓦片。神社入口處有一座硃紅色的鳥居，這是通往神聖場所的象徵性大門。鳥居兩側裝飾著注連繩，營造出神聖的氛圍。此外，神社前鋪設著石板路，這是參拜者踏入神聖場所時表達敬意的方式。這座神社雖然位於現代都市中，但在傳承日本傳統文化和信仰方面發揮著重要作用。

提示

輸出

請查看此圖像，並詳細具體地回答以下問題。請詳細介紹這張照片中的神社。

這張照片中的神社體現了日本傳統的建築風格。白色的牆壁和橙色的柱子很有特色，屋頂覆蓋著綠色的瓦片。神社入口處有一座硃紅色的鳥居，這是通往神聖場所的象徵性大門。鳥居兩側裝飾著注連繩，營造出神聖的氛圍。此外，神社前鋪設著石板路，這是參拜者踏入神聖場所時表達敬意的方式。這座神社雖然位於現代都市中，但在傳承日本傳統文化和信仰方面發揮著重要作用。

花園圖片

提示	輸出
請查看此圖像，並詳細具體地回答以下說明。這在日本庭院中屬於哪種類型的庭院？原因是什麼？	這在日本庭院中屬於池泉迴游式庭院。池泉迴游式庭院以池塘為中心進行佈局，設計成可以圍繞池塘漫步的形式。這種類型的庭院旨在最大限度地展現自然之美，為遊客提供寧靜和安寧。

斜坡圖片

提示	輸出
請查看此圖像，並詳細回答以下問題。請撰寫一個以此圖像場景為背景的小說梗概。	以此圖像場景為背景的小說標題是《樓梯的秘密》。故事以一條遠離城市喧囂的安靜小巷裡的古老石樓梯為背景展開。主人公在攀登樓梯的過程中，經歷著過去與現在交織的奇妙體驗。樓梯中途有長滿青苔的石壁，讓人感受到歷史的滄桑，還有傳統的木結構建築。主人公每攀登一段樓梯，都會觸及過去的事件和人們的記憶，直面自己的過去。當到達樓梯頂端時，隱藏在那裡的秘密將被揭開。

提示

輸出

請查看此圖像，並詳細回答以下問題。請撰寫一個以此圖像場景為背景的小說梗概。

以此圖像場景為背景的小說標題是《樓梯的秘密》。故事以一條遠離城市喧囂的安靜小巷裡的古老石樓梯為背景展開。主人公在攀登樓梯的過程中，經歷著過去與現在交織的奇妙體驗。樓梯中途有長滿青苔的石壁，讓人感受到歷史的滄桑，還有傳統的木結構建築。主人公每攀登一段樓梯，都會觸及過去的事件和人們的記憶，直面自己的過去。當到達樓梯頂端時，隱藏在那裡的秘密將被揭開。

✨ 主要特性

大規模日本數據集訓練：淺蔥-14B在廣泛的日本數據集上進行訓練，涵蓋多種數據來源，確保對日本文化和語言有更深入的理解。
避免受限模型合成數據：在合成訓練數據時，不使用許可證條款限制輸出使用的大語言模型（如GPT - 4），保障數據使用的合規性。

📦 模型詳情

模型描述

本倉庫提供淺蔥-14B，這是一款大規模的日本視覺語言模型（VLM）。它在大量的日本數據集上進行訓練，融合了多種不同的數據來源。

大部分訓練數據是使用日本大語言模型（[CALM3 - 22B - Chat](https://huggingface.co/cyberagent/calm3 - 22b - chat)）和英語視覺語言模型（[Phi3.5 - vision - instruct](https://huggingface.co/microsoft/Phi - 3.5 - vision - instruct)）等模型合成的。

重要的是，我們在合成訓練數據時不使用許可證條款限制輸出使用的大語言模型（如GPT - 4）。

模型組件

模型組件	模型 / 架構	參數數量
視覺編碼器	[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)	4.28億
投影器	2層多層感知機（MLP）	6400萬
大語言模型	[llm - jp - 3 - 13b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 13b - instruct)	130億

🔧 訓練詳情

訓練數據

數據集	預處理方式	階段1	階段2	規模
ROIS（自有）	合成	✓	✓	840萬
日本圖像文本對	合成	✓	✓	440萬
維基百科	合成	✓	✓	250萬
Open Images	翻譯	✓	✓	68萬
DCI	翻譯	✓	✓	7000
CommonCatalog CC - BY	翻譯	✓	✓	350萬
LLaVA - Pretrain - JA		✓	✓	55萬
STAIR Captions		✓	✓	41萬
Flickr - JP		✓	✓	16萬
YJ Captions		✓	✓	13萬
日本Pascal		✓	✓	5000
ArtBench	合成		✓	10萬
GQA	翻譯		✓	190萬
VQA v2	翻譯		✓	88萬
A - OKVQA	翻譯		✓	3.4萬
OK - VQA	翻譯		✓	1.8萬
日本視覺基因組	翻譯		✓	160萬
PangeaInstruct			✓	9.3萬

注：ROIS（自有）是專門為該項目從網絡上爬取的新數據集，由圖像和原始文本對組成，用於合成訓練數據。

📚 評估

我們使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500對模型進行評估，並使用eval - mm庫進行評估操作。

此處，帶有“†”標記的模型未使用GPT生成的數據進行訓練。粗體數字表示所有模型中的最佳性能，下劃線數字表示未使用GPT生成數據訓練的模型中的最佳性能。

模型	語言模型規模	Heron - Bench（大語言模型（%））	JA - VLM - Bench - In - the - Wild（ROUGE - L）	JA - VLM - Bench - In - the - Wild（大語言模型（/5.0））	JA - VG - VQA - 500（ROUGE - L）	JA - VG - VQA - 500（大語言模型（/5.0））
日本InstructBLIP Alpha†	70億	14.0	20.8	2.42	-	-
日本Stable VLM†	70億	24.2	23.3	2.47	-	-
LLaVA - CALM2 - SigLIP†	70億	43.3	47.2	3.15	17.4	3.21
Llama - 3 - EvoVLM - JP - v2	80億	39.3	41.4	2.92	23.5	2.96
VILA - jp	130億	57.2	52.3	3.69	16.2	3.62
淺蔥 - 2B†	18億	44.7	48.8	3.26	53.7	3.69
淺蔥 - 4B†	37億	49.3	49.6	3.38	55.6	3.78
淺蔥 - 8B†	72億	54.7	49.4	3.45	56.43	3.84
淺蔥 - 14B†	130億	55.8	50.8	3.44	56.8	3.84
GPT - 4o	-	87.6	37.6	3.85	12.1	3.58