TaiVisionLM-base-v2開源視覺語言模型 - 支持繁體指令輸入，加載微調超方便

首頁

Taivisionlm Base V2

由benchang1110開發

首個支持繁體中文指令輸入的視覺語言模型（12億參數），兼容Transformers庫，加載迅速、微調便捷

圖像生成文本

Transformers

中文#繁體中文視覺語言 #多模態指令理解 #SigLIP-Tinyllama架構

下載量 122

發布時間 : 9/17/2024

模型概述

多模態大語言模型，結合SigLIP視覺編碼器與Tinyllama語言模型，通過視覺投影器連接雙模態，專為繁體中文視覺語言任務設計

模型特點

繁體中文支持

首個專門支持繁體中文指令輸入的視覺語言模型

高效架構

僅12億參數的輕量級設計，保持高性能的同時降低計算需求

Transformers兼容

完全兼容Hugging Face Transformers庫，無需額外依賴

多階段訓練

採用單模態預訓練、特徵對齊和任務專項訓練的三階段開發流程

模型能力

圖像描述生成

視覺問答

多模態理解

繁體中文文本生成

使用案例

內容理解

圖像描述

為圖像生成詳細的繁體中文描述

v2版本能提供比v1更詳細的視覺元素分析

視覺問答

回答關於圖像內容的繁體中文問題

教育應用

輔助學習

幫助繁體中文用戶理解視覺內容

🚀 臺視 (TaiVisionLM) 模型卡

臺視 (TaiVisionLM) 是一個小型的視覺語言模型，僅有 12 億參數，能根據圖像輸入回覆繁體中文指令。它與 Transformers 庫兼容，可快速加載、微調，進行快速推理，無需任何外部庫。

🚀 快速開始

利用 transformers，可以用下面程式碼進行推論:

⚠️ 重要提示

臺視 (TaiVisionLM) 還沒被整合進 transformers，因此在下載模型時要使用 trust_remote_code=True，下載模型將會使用 configuration_taivisionlm.py、 modeling_taivisionlm.py 和 processing_taivisionlm.py 這三個檔案，若擔心有惡意程式碼，請先點選右方 Files and Versions 來查看程式碼內容。

from transformers import AutoProcessor, AutoModelForCausalLM, AutoConfig
from PIL import Image
import requests
import torch
config = AutoConfig.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True)
processor = AutoProcessor.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True,torch_dtype=torch.float16,attn_implementation="sdpa").to('cuda')
model.eval()
url = "https://media.wired.com/photos/598e35fb99d76447c4eb1f28/master/pass/phonepicutres-TA.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
text = "描述圖片"
inputs = processor(text=text,images=image, return_tensors="pt",padding=False).to('cuda')
outputs = processor.tokenizer.decode(model.generate(**inputs,max_length=512)[0])
print(outputs)

✨ 主要特性

小型視覺語言模型，僅有 12 億參數，可根據圖像輸入回覆繁體中文指令。
與 Transformers 庫兼容，加載、微調和推理速度快，無需外部庫。

📚 詳細文檔

模型描述

這個模型是一個多模態的語言模型，結合了 SigLIP 作為其視覺編碼器，並使用 Tinyllama 作為語言模型。視覺投影器將這兩種模態結合在一起。
其架構與 PaliGemma 非常相似。

以下是開發過程的摘要：

單模態預訓練
- 在這個階段，利用了 google/siglip-base-patch16-224-multilingual 的圖像編碼器，以及自己訓練的語言模型（Taiwan-tinyllama-v1.0-chat）。
特徵對齊
- 使用了 100 萬個圖片和文本的配對來訓練圖像投影器 (visual projector)，並使用 LoRA 來微調語言模型的權重。這個模型是 benchang1110/TaiVisionLM-base-v1 的微調版本。使用了 100 萬個圖片和文本的配對來微調模型。微調後的模型將生成更長、更詳細的圖片描述。
任務特定訓練
- 對齊後的模型將進行進一步的訓練，針對短描述、詳細描述和簡單視覺問答等任務。將在數據集準備好後進行這一階段的訓練！

與先前模型的比較 (benchang1110/TaiVisionLM-base-v1)

示例 1

TaiVisionLM-base-v1:
卡通插圖描繪掛在家門口的標誌，上下方以卡通插圖的方式呈現。
TaiVisionLM-base-v2:
這張圖片呈現了發人深省的對比。圖片中央，白色文字中的「Smile」以粗體黑色字母書寫。文字略微有些傾斜，為原本靜止的圖片增添了動感。背景是一個鮮明的白色，突顯文字並確立其在圖片中的重要性。背景並非僅僅是白色的；它與黑色文字形成鮮明對比，創造出引人注目的視覺效果。文字、背景和形狀和諧合作，每個元素都互相襯託，形成和諧的構圖。圖片底部右角有微妙的脊狀邊緣。脊狀的輪廓為圖片增添了一種深度，吸引觀眾的注意力，探索圖片的整體背景。脊狀邊緣與圖片整體的設計相輔相成，增強了節奏和能量氛圍。整體而言，這張圖片是一個色彩和形狀的和諧結合，每個元素都經過精心放置，創造出視覺上令人愉悅的構圖。使用黑色、粗體字和微妙的脊狀邊緣增添了神秘感，將其印象擴展到更深層，既引人入勝又引人思考。

示例 2

TaiVisionLM-base-v1:
這是一幅攝影作品，展示了巴黎的鐵塔被水景所環繞
TaiVisionLM-base-v2:
這幅圖片捕捉到法國著名地標艾菲爾鐵塔的令人驚嘆的景觀。天空呈現明亮的藍色，與周圍的綠意交織，形成令人驚嘆的構圖。這座高聳的拱門塗上淺棕色的艾菲爾鐵塔，自豪地矗立在畫面右側。它旁邊是河流，它的平靜水域反射著上方的藍天。在遠處，其他著名地標的蹤影可見，包括一座標誌性的橋樑和一座城堡般的摩天大樓，為場景增添深度和尺度。前景中的樹木增添了一抹綠意，為鐵塔的淺褐色和藍天的色彩提供了清新的對比。這張圖片是從水面上觀看艾菲爾鐵塔的角度拍攝的，提供了對整個景觀的鳥瞰視角。這個視角可以全面地觀察到艾菲爾鐵塔及其周圍環境，展現了它的壯麗以及位於其中的生命。這張圖片中沒有任何虛構的內容，所有描述都是基於圖片中可見的元素。

訓練過程

特徵對齊

屬性	詳情
數據規模	135 萬
全局批次大小	4
學習率	5e - 3
訓練輪數	1
最大長度	1024
權重衰減	0

對投影器使用全參數微調，並對語言模型應用 LoRA。

將在有更多資源對整個數據集進行模型訓練時更新訓練過程。 metric

計算基礎設施

特徵對齊 1xV100(32GB)，大約需要 45 個 GPU 小時。

🔧 技術細節

這個多模態大型語言模型結合了 SigLIP 作為視覺編碼器，Tinyllama 作為語言模型，通過視覺投影器連接兩種模態，架構與 PaliGemma 相似。開發過程包括單模態預訓練、特徵對齊和任務特定訓練三個階段。在特徵對齊階段，使用 100 萬個圖文配對訓練投影器和微調語言模型權重，得到的微調模型能生成更詳細的圖片描述。

📄 許可證

文檔中未提及相關許可證信息。

屬性	詳情
模型類型	Image-Text-to-Text
訓練數據	benchang1110/TaiVision-pretrain-1M-v2.0
創作者	benchang1110
語言	繁體中文
基礎模型	benchang1110/TaiVisionLM-base-v1