Asagi 14B
Asagi-14B是一個大規模的日語視覺與語言模型(VLM),在廣泛的日語數據集上進行了訓練,整合了多樣化的數據來源。
下載量 83
發布時間 : 1/9/2025
模型概述
Asagi-14B是一個結合視覺編碼器和大語言模型的視覺與語言模型,主要用於圖像文本到文本的任務,支持日語。
模型特點
多模態能力
結合視覺編碼器和語言模型,能夠理解和生成基於圖像的文本描述。
日語優化
專門針對日語進行了訓練和優化,適用於日語場景下的視覺與語言任務。
數據合成
訓練數據大部分通過模型合成,避免了使用限制性許可的LLM輸出。
模型能力
圖像描述生成
視覺問答
多模態推理
日語文本生成
使用案例
圖像理解與描述
場景識別
識別圖像中的場景並生成詳細描述。
例如,識別出照片拍攝於東京的某個著名地點,並描述其細節。
物體識別
識別圖像中的物體並生成描述。
例如,識別出圖像中的建築、自然景觀等。
視覺問答
圖像內容問答
回答關於圖像內容的詳細問題。
例如,回答圖像拍攝地點、圖像中的物體等。
🚀 淺蔥-14B:日本大型視覺語言模型
淺蔥-14B是一款大規模的日本視覺語言模型(VLM),它基於豐富的日本數據集進行訓練,融合了多種不同來源的數據,為圖像與文本交互處理提供了強大的能力。
🚀 快速開始
環境要求
transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0
使用方法
import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig
transformers.set_seed(42)
model_path = "MIL-UT/Asagi-14B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
model_path, trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
generation_config = GenerationConfig(
do_sample=True,
num_beams=5,
max_new_tokens=256,
temperature=0.7,
repetition_penalty=1.5
)
prompt = ("以下是對任務的說明,請寫出合適的回覆。\n\n"
"### 說明:\n<image>\n請查看此圖像,並詳細具體地回答以下問題。這張照片是在哪裡拍攝的?另外,請詳細描述圖像的內容。\n\n### 回覆:\n")
# 示例圖像
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)
inputs = processor(
text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
if v.dtype == torch.float32:
inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}
generate_ids = model.generate(
**inputs,
generation_config=generation_config
)
generated_text = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
# 不打印提示信息
if "<image>" in prompt:
prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")
print(f"生成的文本: {generated_text}")
# >>> 生成的文本: 這張照片拍攝的是澀谷十字路口的夜景。澀谷十字路口是位於東京澀谷區的一個著名十字路口,以人來人往而聞名。照片中可以看到高樓大廈、霓虹燈招牌和路燈等,讓人感受到城市的活力和能量。
示例
提示 | 輸出 |
---|---|
請查看此圖像,並詳細具體地回答以下問題。這張照片是在哪裡拍攝的?另外,請詳細描述圖像的內容。 | 這張照片拍攝的是澀谷十字路口的夜景。澀谷十字路口是位於東京澀谷區的一個著名十字路口,以人來人往而聞名。照片中可以看到高樓大廈、霓虹燈招牌和路燈等,讓人感受到城市的活力和能量。 |
更多示例
點擊展開
提示 | 輸出 |
---|---|
請查看此圖像,並詳細具體地回答以下說明。請詳細介紹這張照片的內容。 | 這張照片拍攝的是以東京彩虹橋為背景的城市景觀。橋身塗有白色和灰色的油漆,優雅地橫跨在水面上形成拱形。天空是清澈的藍色,漂浮著幾朵雲彩。遠處可以看到高樓林立的城市風景。 |
提示 | 輸出 |
---|---|
請查看此圖像,並詳細具體地回答以下問題。請對這張照片進行評價。 | 這張照片非常漂亮。東京塔紅色和白色的對比鮮明,與藍天和白雲的對比給人留下深刻印象。周圍鬱鬱蔥蔥的樹木和路燈營造出都市氛圍,整體構圖平衡。 |
提示 | 輸出 |
---|---|
請查看此圖像,並詳細具體地回答以下問題。請詳細介紹這張照片中的神社。 | 這張照片中的神社體現了日本傳統的建築風格。白色的牆壁和橙色的柱子很有特色,屋頂覆蓋著綠色的瓦片。神社入口處有一座硃紅色的鳥居,這是通往神聖場所的象徵性大門。鳥居兩側裝飾著注連繩,營造出神聖的氛圍。此外,神社前鋪設著石板路,這是參拜者踏入神聖場所時表達敬意的方式。這座神社雖然位於現代都市中,但在傳承日本傳統文化和信仰方面發揮著重要作用。 |
提示 | 輸出 |
---|---|
請查看此圖像,並詳細具體地回答以下說明。這在日本庭院中屬於哪種類型的庭院?原因是什麼? | 這在日本庭院中屬於池泉迴游式庭院。池泉迴游式庭院以池塘為中心進行佈局,設計成可以圍繞池塘漫步的形式。這種類型的庭院旨在最大限度地展現自然之美,為遊客提供寧靜和安寧。 |
提示 | 輸出 |
---|---|
請查看此圖像,並詳細回答以下問題。請撰寫一個以此圖像場景為背景的小說梗概。 | 以此圖像場景為背景的小說標題是《樓梯的秘密》。故事以一條遠離城市喧囂的安靜小巷裡的古老石樓梯為背景展開。主人公在攀登樓梯的過程中,經歷著過去與現在交織的奇妙體驗。樓梯中途有長滿青苔的石壁,讓人感受到歷史的滄桑,還有傳統的木結構建築。主人公每攀登一段樓梯,都會觸及過去的事件和人們的記憶,直面自己的過去。當到達樓梯頂端時,隱藏在那裡的秘密將被揭開。 |
✨ 主要特性
- 大規模日本數據集訓練:淺蔥-14B在廣泛的日本數據集上進行訓練,涵蓋多種數據來源,確保對日本文化和語言有更深入的理解。
- 避免受限模型合成數據:在合成訓練數據時,不使用許可證條款限制輸出使用的大語言模型(如GPT - 4),保障數據使用的合規性。
📦 模型詳情
模型描述
本倉庫提供淺蔥-14B,這是一款大規模的日本視覺語言模型(VLM)。它在大量的日本數據集上進行訓練,融合了多種不同的數據來源。
大部分訓練數據是使用日本大語言模型([CALM3 - 22B - Chat](https://huggingface.co/cyberagent/calm3 - 22b - chat))和英語視覺語言模型([Phi3.5 - vision - instruct](https://huggingface.co/microsoft/Phi - 3.5 - vision - instruct))等模型合成的。
重要的是,我們在合成訓練數據時不使用許可證條款限制輸出使用的大語言模型(如GPT - 4)。
模型組件
模型組件 | 模型 / 架構 | 參數數量 |
---|---|---|
視覺編碼器 | [siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384) | 4.28億 |
投影器 | 2層多層感知機(MLP) | 6400萬 |
大語言模型 | [llm - jp - 3 - 13b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 13b - instruct) | 130億 |
🔧 訓練詳情
訓練數據
數據集 | 預處理方式 | 階段1 | 階段2 | 規模 |
---|---|---|---|---|
ROIS(自有) | 合成 | ✓ | ✓ | 840萬 |
日本圖像文本對 | 合成 | ✓ | ✓ | 440萬 |
維基百科 | 合成 | ✓ | ✓ | 250萬 |
Open Images | 翻譯 | ✓ | ✓ | 68萬 |
DCI | 翻譯 | ✓ | ✓ | 7000 |
CommonCatalog CC - BY | 翻譯 | ✓ | ✓ | 350萬 |
LLaVA - Pretrain - JA | ✓ | ✓ | 55萬 | |
STAIR Captions | ✓ | ✓ | 41萬 | |
Flickr - JP | ✓ | ✓ | 16萬 | |
YJ Captions | ✓ | ✓ | 13萬 | |
日本Pascal | ✓ | ✓ | 5000 | |
ArtBench | 合成 | ✓ | 10萬 | |
GQA | 翻譯 | ✓ | 190萬 | |
VQA v2 | 翻譯 | ✓ | 88萬 | |
A - OKVQA | 翻譯 | ✓ | 3.4萬 | |
OK - VQA | 翻譯 | ✓ | 1.8萬 | |
日本視覺基因組 | 翻譯 | ✓ | 160萬 | |
PangeaInstruct | ✓ | 9.3萬 |
注:ROIS(自有)是專門為該項目從網絡上爬取的新數據集,由圖像和原始文本對組成,用於合成訓練數據。
📚 評估
我們使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500對模型進行評估,並使用eval - mm庫進行評估操作。
此處,帶有“†”標記的模型未使用GPT生成的數據進行訓練。粗體數字表示所有模型中的最佳性能,下劃線數字表示未使用GPT生成數據訓練的模型中的最佳性能。
模型 | 語言模型規模 | Heron - Bench(大語言模型(%)) | JA - VLM - Bench - In - the - Wild(ROUGE - L) | JA - VLM - Bench - In - the - Wild(大語言模型(/5.0)) | JA - VG - VQA - 500(ROUGE - L) | JA - VG - VQA - 500(大語言模型(/5.0)) |
---|---|---|---|---|---|---|
日本InstructBLIP Alpha† | 70億 | 14.0 | 20.8 | 2.42 | - | - |
日本Stable VLM† | 70億 | 24.2 | 23.3 | 2.47 | - | - |
LLaVA - CALM2 - SigLIP† | 70億 | 43.3 | 47.2 | 3.15 | 17.4 | 3.21 |
Llama - 3 - EvoVLM - JP - v2 | 80億 | 39.3 | 41.4 | 2.92 | 23.5 | 2.96 |
VILA - jp | 130億 | 57.2 | 52.3 | 3.69 | 16.2 | 3.62 |
淺蔥 - 2B† | 18億 | 44.7 | 48.8 | 3.26 | 53.7 | 3.69 |
淺蔥 - 4B† | 37億 | 49.3 | 49.6 | 3.38 | 55.6 | 3.78 |
淺蔥 - 8B† | 72億 | 54.7 | 49.4 | 3.45 | 56.43 | 3.84 |
淺蔥 - 14B† | 130億 | 55.8 | 50.8 | 3.44 | 56.8 | 3.84 |
GPT - 4o | - | 87.6 | 37.6 | 3.85 | 12.1 | 3.58 |
⚠️ 風險與侷限
此處發佈的模型處於我們研發的早期階段,尚未進行調優以確保輸出符合人類意圖和安全考量。
📄 許可證
本模型採用Apache - 2.0許可證。
📖 模型卡片作者
上原浩平
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98