TaiVisionLM-base-v2开源视觉语言模型 - 支持繁体指令输入，加载微调超方便

Home

Taivisionlm Base V2

Developed by benchang1110

首个支持繁体中文指令输入的视觉语言模型（12亿参数），兼容Transformers库，加载迅速、微调便捷

图像生成文本

Transformers

Chinese#繁体中文视觉语言 #多模态指令理解 #SigLIP-Tinyllama架构

Downloads 122

Release Time : 9/17/2024

Model Overview

多模态大语言模型，结合SigLIP视觉编码器与Tinyllama语言模型，通过视觉投影器连接双模态，专为繁体中文视觉语言任务设计

Model Features

繁体中文支持

首个专门支持繁体中文指令输入的视觉语言模型

高效架构

仅12亿参数的轻量级设计，保持高性能的同时降低计算需求

Transformers兼容

完全兼容Hugging Face Transformers库，无需额外依赖

多阶段训练

采用单模态预训练、特征对齐和任务专项训练的三阶段开发流程

Model Capabilities

图像描述生成

视觉问答

多模态理解

繁体中文文本生成

Use Cases

内容理解

图像描述

为图像生成详细的繁体中文描述

v2版本能提供比v1更详细的视觉元素分析

视觉问答

回答关于图像内容的繁体中文问题

教育应用

辅助学习

帮助繁体中文用户理解视觉内容

🚀 台視 (TaiVisionLM) 模型卡

台視 (TaiVisionLM) 是一個小型的視覺語言模型，僅有 12 億參數，能根據圖像輸入回覆繁體中文指令。它與 Transformers 庫兼容，可快速加載、微調，進行快速推理，無需任何外部庫。

🚀 快速開始

利用 transformers，可以用下面程式碼進行推論:

⚠️ 重要提示

台視 (TaiVisionLM) 還沒被整合進 transformers，因此在下載模型時要使用 trust_remote_code=True，下載模型將會使用 configuration_taivisionlm.py、 modeling_taivisionlm.py 和 processing_taivisionlm.py 這三個檔案，若擔心有惡意程式碼，請先點選右方 Files and Versions 來查看程式碼內容。

from transformers import AutoProcessor, AutoModelForCausalLM, AutoConfig
from PIL import Image
import requests
import torch
config = AutoConfig.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True)
processor = AutoProcessor.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True,torch_dtype=torch.float16,attn_implementation="sdpa").to('cuda')
model.eval()
url = "https://media.wired.com/photos/598e35fb99d76447c4eb1f28/master/pass/phonepicutres-TA.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
text = "描述圖片"
inputs = processor(text=text,images=image, return_tensors="pt",padding=False).to('cuda')
outputs = processor.tokenizer.decode(model.generate(**inputs,max_length=512)[0])
print(outputs)

✨ 主要特性

小型視覺語言模型，僅有 12 億參數，可根據圖像輸入回覆繁體中文指令。
與 Transformers 庫兼容，加載、微調和推理速度快，無需外部庫。

📚 詳細文檔

模型描述

這個模型是一個多模態的語言模型，結合了 SigLIP 作為其視覺編碼器，並使用 Tinyllama 作為語言模型。視覺投影器將這兩種模態結合在一起。
其架構與 PaliGemma 非常相似。

以下是開發過程的摘要：

單模態預訓練
- 在這個階段，利用了 google/siglip-base-patch16-224-multilingual 的圖像編碼器，以及自己訓練的語言模型（Taiwan-tinyllama-v1.0-chat）。
特徵對齊
- 使用了 100 萬個圖片和文本的配對來訓練圖像投影器 (visual projector)，並使用 LoRA 來微調語言模型的權重。這個模型是 benchang1110/TaiVisionLM-base-v1 的微調版本。使用了 100 萬個圖片和文本的配對來微調模型。微調後的模型將生成更長、更詳細的圖片描述。
任務特定訓練
- 對齊後的模型將進行進一步的訓練，針對短描述、詳細描述和簡單視覺問答等任務。將在數據集準備好後進行這一階段的訓練！

與先前模型的比較 (benchang1110/TaiVisionLM-base-v1)

示例 1

TaiVisionLM-base-v1:
卡通插圖描繪掛在家門口的標誌，上下方以卡通插圖的方式呈現。
TaiVisionLM-base-v2:
這張圖片呈現了發人深省的對比。圖片中央，白色文字中的「Smile」以粗體黑色字母書寫。文字略微有些傾斜，為原本靜止的圖片增添了動感。背景是一個鮮明的白色，突顯文字並確立其在圖片中的重要性。背景並非僅僅是白色的；它與黑色文字形成鮮明對比，創造出引人注目的視覺效果。文字、背景和形狀和諧合作，每個元素都互相襯托，形成和諧的構圖。圖片底部右角有微妙的脊狀邊緣。脊狀的輪廓為圖片增添了一種深度，吸引觀眾的注意力，探索圖片的整體背景。脊狀邊緣與圖片整體的設計相輔相成，增強了節奏和能量氛圍。整體而言，這張圖片是一個色彩和形狀的和諧結合，每個元素都經過精心放置，創造出視覺上令人愉悅的構圖。使用黑色、粗體字和微妙的脊狀邊緣增添了神秘感，將其印象擴展到更深層，既引人入勝又引人思考。

示例 2

TaiVisionLM-base-v1:
這是一幅攝影作品，展示了巴黎的鐵塔被水景所環繞
TaiVisionLM-base-v2:
這幅圖片捕捉到法國著名地標艾菲爾鐵塔的令人驚嘆的景觀。天空呈現明亮的藍色，與周圍的綠意交織，形成令人驚嘆的構圖。這座高聳的拱門塗上淺棕色的艾菲爾鐵塔，自豪地矗立在畫面右側。它旁邊是河流，它的平靜水域反射著上方的藍天。在遠處，其他著名地標的蹤影可見，包括一座標誌性的橋樑和一座城堡般的摩天大樓，為場景增添深度和尺度。前景中的樹木增添了一抹綠意，為鐵塔的淺褐色和藍天的色彩提供了清新的對比。這張圖片是從水面上觀看艾菲爾鐵塔的角度拍攝的，提供了對整個景觀的鳥瞰視角。這個視角可以全面地觀察到艾菲爾鐵塔及其周圍環境，展現了它的壯麗以及位於其中的生命。這張圖片中沒有任何虛構的內容，所有描述都是基於圖片中可見的元素。

訓練過程

特徵對齊

屬性	詳情
數據規模	135 萬
全局批次大小	4
學習率	5e - 3
訓練輪數	1
最大長度	1024
權重衰減	0

對投影器使用全參數微調，並對語言模型應用 LoRA。

將在有更多資源對整個數據集進行模型訓練時更新訓練過程。 metric

計算基礎設施

特徵對齊 1xV100(32GB)，大約需要 45 個 GPU 小時。

🔧 技術細節

這個多模態大型語言模型結合了 SigLIP 作為視覺編碼器，Tinyllama 作為語言模型，通過視覺投影器連接兩種模態，架構與 PaliGemma 相似。開發過程包括單模態預訓練、特徵對齊和任務特定訓練三個階段。在特徵對齊階段，使用 100 萬個圖文配對訓練投影器和微調語言模型權重，得到的微調模型能生成更詳細的圖片描述。

📄 許可證

文檔中未提及相關許可證信息。

屬性	詳情
模型類型	Image-Text-to-Text
訓練數據	benchang1110/TaiVision-pretrain-1M-v2.0
創作者	benchang1110
語言	繁體中文
基礎模型	benchang1110/TaiVisionLM-base-v1