S

Sarashina2 Vision 8b

由sbintuitions開發
Sarashina2-Vision-8B是由SB Intuitions訓練的日本大型視覺語言模型,基於Sarashina2-7B和Qwen2-VL-7B的圖像編碼器,在多個基準測試中表現優異。
下載量 1,233
發布時間 : 3/9/2025

模型概述

該模型是一個多模態視覺語言模型,能夠理解和生成與圖像相關的文本描述,適用於日語和英語環境。

模型特點

多模態支持
結合視覺和語言處理能力,能夠理解和生成與圖像相關的文本描述。
高性能
在多個基準測試中取得最高分數,表現優於同類模型。
日語優化
特別針對日語環境進行了優化,適用於日語視覺語言任務。

模型能力

圖像理解
文本生成
多模態推理
視覺問答

使用案例

視覺問答
識別著名建築
識別圖像中的著名建築並描述其位置。
能夠準確識別並描述圖像中的東京塔等著名建築。
圖像描述
描述圖像內容
生成圖像的詳細文本描述。
能夠生成準確且詳細的圖像描述。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase