Asagi 8B
A
Asagi 8B
由MIL-UT開發
Asagi-8B是一個大規模的日語視覺與語言模型(VLM),基於廣泛的日語數據集訓練,整合了多樣化的數據來源。
下載量 58
發布時間 : 2/19/2025
模型概述
Asagi-8B是一個日語視覺與語言模型,能夠處理圖像到文本的任務,適用於日語環境下的多模態應用。
模型特點
多模態能力
結合視覺編碼器和語言模型,能夠理解和生成與圖像相關的日語文本。
日語優化
專門針對日語數據進行訓練,適用於日語環境下的視覺與語言任務。
合成數據訓練
使用合成數據訓練,避免使用許可證限制輸出用途的LLM生成的數據。
模型能力
圖像描述生成
視覺問答
多模態推理
使用案例
視覺問答
圖像內容描述
根據圖像生成詳細的日語描述。
生成詳細的圖像描述,包括場景、物體和活動。
地點識別
識別圖像中的拍攝地點並提供詳細解釋。
提供可能的地點識別和詳細的環境描述。
創意寫作
故事生成
基於圖像生成故事情節。
生成與圖像內容相關的故事情節。
🚀 淺蔥-8B模型
淺蔥-8B是一個大規模的日語視覺與語言模型(VLM),它在廣泛的日語數據集上進行訓練,整合了多種不同的數據來源,能有效處理圖像文本相關任務。
🚀 快速開始
環境要求
transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0
使用方法
import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig
transformers.set_seed(42)
model_path = "MIL-UT/Asagi-8B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
model_path, trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
generation_config = GenerationConfig(
do_sample=True,
num_beams=5,
max_new_tokens=256,
temperature=0.7,
repetition_penalty=1.5
)
prompt = ("以下是對任務的說明,請根據要求給出合適的回答。\n\n"
"### 說明:\n<image>\n請仔細查看這張圖片,並詳細具體地回答以下問題。這張照片是在哪裡拍攝的?請詳細描述圖片的內容。\n\n### 回答:\n")
# 示例圖片
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)
inputs = processor(
text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
if v.dtype == torch.float32:
inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}
generate_ids = model.generate(
**inputs,
generation_config=generation_config
)
generated_text = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
# 不打印提示信息
if "<image>" in prompt:
prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")
print(f"生成的文本: {generated_text}")
# >>> 生成的文本: 這張照片拍攝的是東京銀座的夜景。銀座是東京最具代表性的繁華街區之一,許多高樓大廈林立,霓虹燈和路燈的光芒交相輝映。特別引人注目的是,位於中央的“銀座水晶大廈”,其獨特的鐘樓給人留下深刻的印象。穿梭於樓宇間的車輛和行人,讓人感受到都市的活力。
示例
提示 | 輸出 |
---|---|
請仔細查看這張圖片,並詳細具體地回答以下問題。這張照片是在哪裡拍攝的?請詳細描述圖片的內容。 | 這張照片拍攝的是東京銀座的夜景。銀座是東京最具代表性的繁華街區之一,許多高樓大廈林立,霓虹燈和路燈的光芒交相輝映。特別引人注目的是,位於中央的“銀座水晶大廈”,其獨特的鐘樓給人留下深刻的印象。穿梭於樓宇間的車輛和行人,讓人感受到都市的活力。 |
注意:這張圖片實際拍攝於澀谷,而非銀座。
更多示例
點擊展開
提示 | 輸出 |
---|---|
請仔細查看這張圖片,並詳細具體地回答以下問題。請詳細描述這張照片的內容。 | 這張照片拍攝的是東京臺場地區的彩虹橋。彩虹橋是連接東京港區和江東區的重要交通要道,其標誌性的白色塔樓和電纜令人印象深刻。背景中林立的高樓大廈,展現出東京的城市風貌。天空部分被雲層覆蓋,暗示著拍攝時間可能是早晨或傍晚。 |
提示 | 輸出 |
---|---|
請仔細查看這張圖片,並詳細具體地回答以下問題。請對這張照片進行評價。 | 這張照片捕捉到了東京晴空塔的壯麗景色,紅白相間的建築結構直插雲霄。由於採用了低角度拍攝,塔樓顯得更加雄偉壯觀。背景是湛藍的天空中點綴著朵朵白雲,前景則是鬱鬱蔥蔥的樹木和路燈,自然元素與城市景觀完美融合。整體而言,這是一張人工與自然和諧共生的美麗照片。 |
提示 | 輸出 |
---|---|
請仔細查看這張圖片,並詳細具體地回答以下問題。請詳細描述照片中的神社。 | 照片中的神社體現了傳統的日本建築風格。硃紅色的鳥居與白色的牆壁形成鮮明對比,營造出一種神聖的氛圍。鳥居位於神社入口,起到分隔神域與世俗世界的作用。神社的屋頂採用瓦片鋪設,使用了綠色的瓦片,這是日本傳統建築風格的一種體現。此外,神社周圍林立的現代建築,象徵著傳統與現代在日本的和諧共存。 |
提示 | 輸出 |
---|---|
請仔細查看這張圖片,並詳細具體地回答以下問題。在日本園林中,這種園林屬於哪種類型?原因是什麼? | 這種園林屬於“池泉迴游式園林”。池泉迴游式園林是指帶有池塘和水景的園林,也被稱為水生園林或有水景的園林。這種園林的設計旨在充分展現自然之美,池塘和水景是園林的核心元素。 |
提示 | 輸出 |
---|---|
請仔細查看這張圖片,並詳細回答以下問題。請以這張圖片的場景為背景,編寫一個小說的梗概。 | 以這張圖片的場景為背景的小說名為《石階的秘密》。故事從主人公逃離城市喧囂,踏上古老的石階開始。石階周圍綠樹成蔭,歷史悠久的建築錯落有致。主人公在攀登石階的過程中,經歷了一場穿越過去與未來的奇妙之旅,最終揭開了石階下隱藏的秘密。 |
✨ 主要特性
本倉庫提供了淺蔥-8B,這是一個大規模的日語視覺與語言模型(VLM)。它具有以下特性:
- 豐富的訓練數據:在廣泛的日語數據集上進行訓練,整合了多種不同的數據來源。
- 合成數據的使用:部分訓練數據是使用日語大語言模型(如[CALM3 - 22B - Chat](https://huggingface.co/cyberagent/calm3 - 22b - chat))和英語視覺與語言模型(如[Phi3.5 - vision - instruct](https://huggingface.co/microsoft/Phi - 3.5 - vision - instruct))合成的。
- 避免受限模型:在合成訓練數據時,不使用許可證條款限制輸出使用的大語言模型(如GPT - 4)。
- 跳過階段一訓練:與淺蔥系列的其他模型不同,淺蔥 - 8B跳過了階段一的訓練。
📦 安裝指南
安裝所需的庫,可使用以下命令:
pip install transformers==4.45.1 accelerate==0.34.2 torch==2.4.0 torchvision==0.19.0
📚 詳細文檔
模型詳情
模型組件 | 模型/架構 | 參數數量 |
---|---|---|
視覺編碼器 | [siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384) | 4.28億 |
投影器 | 2層MLP | 4300萬 |
大語言模型 | [llm - jp - 3 - 7.2b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 7.2b - instruct) | 72億 |
訓練詳情
注意:淺蔥 - 8B跳過了階段一的訓練。
數據集 | 預處理方式 | 階段一 | 階段二 | 規模 |
---|---|---|---|---|
ROIS(自有) | 合成 | ✓ | ✓ | 840萬 |
日語圖像文本對 | 合成 | ✓ | ✓ | 440萬 |
維基百科 | 合成 | ✓ | ✓ | 250萬 |
Open Images | 翻譯 | ✓ | ✓ | 68萬 |
DCI | 翻譯 | ✓ | ✓ | 7000 |
CommonCatalog CC - BY | 翻譯 | ✓ | ✓ | 350萬 |
LLaVA - Pretrain - JA | ✓ | ✓ | 55萬 | |
STAIR Captions | ✓ | ✓ | 41萬 | |
Flickr - JP | ✓ | ✓ | 16萬 | |
YJ Captions | ✓ | ✓ | 13萬 | |
日語Pascal | ✓ | ✓ | 5000 | |
ArtBench | 合成 | ✓ | 10萬 | |
GQA | 翻譯 | ✓ | 190萬 | |
VQA v2 | 翻譯 | ✓ | 88萬 | |
A - OKVQA | 翻譯 | ✓ | 3.4萬 | |
OK - VQA | 翻譯 | ✓ | 1.8萬 | |
日語視覺基因組 | 翻譯 | ✓ | 160萬 | |
PangeaInstruct | ✓ | 9.3萬 |
注意:ROIS(自有)是專門為該項目從網絡上爬取的新數據集,由圖像和原始文本對組成,用於合成訓練數據。
評估
使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500對模型進行評估,評估使用了eval - mm庫。
以下表格中,帶有“†”的模型未使用GPT生成的數據進行訓練。粗體數字表示所有模型中的最佳性能,下劃線數字表示未使用GPT生成數據訓練的模型中的最佳性能。
模型 | 語言模型規模 | Heron - Bench (LLM (%)) | JA - VLM - Bench - In - the - Wild (ROUGE - L) | JA - VLM - Bench - In - the - Wild (LLM (/5.0)) | JA - VG - VQA - 500 (ROUGE - L) | JA - VG - VQA - 500 (LLM (/5.0)) |
---|---|---|---|---|---|---|
日語InstructBLIP Alpha† | 70億 | 14.0 | 20.8 | 2.42 | - | - |
日語Stable VLM† | 70億 | 24.2 | 23.3 | 2.47 | - | - |
LLaVA - CALM2 - SigLIP† | 70億 | 43.3 | 47.2 | 3.15 | 17.4 | 3.21 |
Llama - 3 - EvoVLM - JP - v2 | 80億 | 39.3 | 41.4 | 2.92 | 23.5 | 2.96 |
VILA - jp | 130億 | 57.2 | 52.3 | 3.69 | 16.2 | 3.62 |
淺蔥 - 2B† | 18億 | 44.7 | 48.8 | 3.26 | 53.7 | 3.69 |
淺蔥 - 4B† | 37億 | 49.3 | 49.6 | 3.38 | 55.6 | 3.78 |
淺蔥 - 8B† | 72億 | 54.7 | 49.4 | 3.45 | 56.43 | 3.84 |
淺蔥 - 14B† | 130億 | 55.8 | 50.8 | 3.44 | 56.8 | 3.84 |
GPT - 4o | - | 87.6 | 37.6 | 3.85 | 12.1 | 3.58 |
🔧 技術細節
模型架構
- 視覺編碼器:採用[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384),參數數量為4.28億。
- 投影器:使用2層MLP,參數數量為4300萬。
- 大語言模型:選用[llm - jp - 3 - 7.2b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 7.2b - instruct),參數數量為72億。
訓練過程
淺蔥 - 8B跳過了階段一的訓練,在階段二使用了多種數據集進行訓練,包括合成數據和翻譯數據。
評估指標
使用Heron - Bench、JA - VLM - Bench - in - the - Wild和JA - VG - VQA - 500等評估指標,從不同方面評估模型的性能。
📄 許可證
本項目採用Apache - 2.0許可證。
⚠️ 風險與限制
本項目發佈的模型處於研究和開發的早期階段,尚未進行調整以確保輸出符合人類意圖和安全考慮。
👨💻 模型卡片作者
上原浩平(Kohei Uehara)
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98