🚀 台視 (TaiVisionLM) 模型卡
台視 (TaiVisionLM) 是一個小型的視覺語言模型,僅有 12 億參數,能根據圖像輸入回覆繁體中文指令。它與 Transformers 庫兼容,可快速加載、微調,進行快速推理,無需任何外部庫。
🚀 快速開始
利用 transformers,可以用下面程式碼進行推論:
⚠️ 重要提示
台視 (TaiVisionLM) 還沒被整合進 transformers,因此在下載模型時要使用 trust_remote_code=True
,下載模型將會使用 configuration_taivisionlm.py
、 modeling_taivisionlm.py
和 processing_taivisionlm.py
這三個檔案,若擔心有惡意程式碼,請先點選右方 Files and Versions 來查看程式碼內容。
from transformers import AutoProcessor, AutoModelForCausalLM, AutoConfig
from PIL import Image
import requests
import torch
config = AutoConfig.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True)
processor = AutoProcessor.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("benchang1110/TaiVisionLM-base-v2",trust_remote_code=True,torch_dtype=torch.float16,attn_implementation="sdpa").to('cuda')
model.eval()
url = "https://media.wired.com/photos/598e35fb99d76447c4eb1f28/master/pass/phonepicutres-TA.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
text = "描述圖片"
inputs = processor(text=text,images=image, return_tensors="pt",padding=False).to('cuda')
outputs = processor.tokenizer.decode(model.generate(**inputs,max_length=512)[0])
print(outputs)
✨ 主要特性
- 小型視覺語言模型,僅有 12 億參數,可根據圖像輸入回覆繁體中文指令。
- 與 Transformers 庫兼容,加載、微調和推理速度快,無需外部庫。
📚 詳細文檔
模型描述
這個模型是一個多模態的語言模型,結合了 SigLIP 作為其視覺編碼器,並使用 Tinyllama 作為語言模型。視覺投影器將這兩種模態結合在一起。
其架構與 PaliGemma 非常相似。
以下是開發過程的摘要:
- 單模態預訓練
- 特徵對齊
- 任務特定訓練
- 對齊後的模型將進行進一步的訓練,針對短描述、詳細描述和簡單視覺問答等任務。將在數據集準備好後進行這一階段的訓練!
- 示例 1

- TaiVisionLM-base-v1:
卡通插圖描繪掛在家門口的標誌,上下方以卡通插圖的方式呈現。
- TaiVisionLM-base-v2:
這張圖片呈現了發人深省的對比。圖片中央,白色文字中的「Smile」以粗體黑色字母書寫。文字略微有些傾斜,為原本靜止的圖片增添了動感。背景是一個鮮明的白色,突顯文字並確立其在圖片中的重要性。
背景並非僅僅是白色的;它與黑色文字形成鮮明對比,創造出引人注目的視覺效果。文字、背景和形狀和諧合作,每個元素都互相襯托,形成和諧的構圖。
圖片底部右角有微妙的脊狀邊緣。脊狀的輪廓為圖片增添了一種深度,吸引觀眾的注意力,探索圖片的整體背景。脊狀邊緣與圖片整體的設計相輔相成,增強了節奏和能量氛圍。
整體而言,這張圖片是一個色彩和形狀的和諧結合,每個元素都經過精心放置,創造出視覺上令人愉悅的構圖。使用黑色、粗體字和微妙的脊狀邊緣增添了神秘感,將其印象擴展到更深層,既引人入勝又引人思考。
- 示例 2

- TaiVisionLM-base-v1:
這是一幅攝影作品,展示了巴黎的鐵塔被水景所環繞
- TaiVisionLM-base-v2:
這幅圖片捕捉到法國著名地標艾菲爾鐵塔的令人驚嘆的景觀。天空呈現明亮的藍色,與周圍的綠意交織,形成令人驚嘆的構圖。這座高聳的拱門塗上淺棕色的艾菲爾鐵塔,自豪地矗立在畫面右側。它旁邊是河流,它的平靜水域反射著上方的藍天。
在遠處,其他著名地標的蹤影可見,包括一座標誌性的橋樑和一座城堡般的摩天大樓,為場景增添深度和尺度。前景中的樹木增添了一抹綠意,為鐵塔的淺褐色和藍天的色彩提供了清新的對比。
這張圖片是從水面上觀看艾菲爾鐵塔的角度拍攝的,提供了對整個景觀的鳥瞰視角。這個視角可以全面地觀察到艾菲爾鐵塔及其周圍環境,展現了它的壯麗以及位於其中的生命。這張圖片中沒有任何虛構的內容,所有描述都是基於圖片中可見的元素。
訓練過程
屬性 |
詳情 |
數據規模 |
135 萬 |
全局批次大小 |
4 |
學習率 |
5e - 3 |
訓練輪數 |
1 |
最大長度 |
1024 |
權重衰減 |
0 |
對投影器使用全參數微調,並對語言模型應用 LoRA。
將在有更多資源對整個數據集進行模型訓練時更新訓練過程。

計算基礎設施
- 特徵對齊
1xV100(32GB),大約需要 45 個 GPU 小時。
🔧 技術細節
這個多模態大型語言模型結合了 SigLIP 作為視覺編碼器,Tinyllama 作為語言模型,通過視覺投影器連接兩種模態,架構與 PaliGemma 相似。開發過程包括單模態預訓練、特徵對齊和任務特定訓練三個階段。在特徵對齊階段,使用 100 萬個圖文配對訓練投影器和微調語言模型權重,得到的微調模型能生成更詳細的圖片描述。
📄 許可證
文檔中未提及相關許可證信息。