多模態學習

# 多模態學習

Openvision Vit So400m Patch14 384

OpenVision是一個完全開放、經濟高效的高級視覺編碼器家族，用於多模態學習。

多模態融合

Openvision Vit Base Patch8 384

OpenVision是一個完全開源且經濟高效的先進視覺編碼器家族，專為多模態學習設計。

多模態融合

Openvision Vit Base Patch16 160

OpenVision是一個完全開源、經濟高效的高級視覺編碼器家族，用於多模態學習。

多模態融合

Openvision Vit Small Patch8 384

OpenVision是一個全開放、高性價比的先進視覺編碼器家族，專注於多模態學習。

多模態融合

Openvision Vit Small Patch16 224

OpenVision是一個全開放、高性價比的先進視覺編碼器家族，專注於多模態學習。

一個基於PyTorch的動作識別模型，適用於機器人技術領域

Wedgit Stack Single Fixed

一個基於擴散策略的機器人控制模型，通過PyTorchModelHubMixin集成發佈

多模態融合

InstructCLIP是一種通過對比學習自動優化數據的模型，旨在提升指令引導的圖像編輯效果。

文本生成圖像英語

Genmedclip B 16 PMB

基於open_clip庫的零樣本圖像分類模型，專注於醫療領域的圖像分析

GenMedClip 是一個基於 open_clip 庫的零樣本圖像分類模型，專注於醫學圖像分析。

Moe LLaVA Qwen 1.8B 4e

MoE-LLaVA是一種基於專家混合架構的大型視覺語言模型，通過稀疏激活參數實現高效的多模態學習

文本生成圖像

一個基於開放剪輯庫的零樣本圖像分類模型，支持多種視覺任務

mkaichristensen

基於微軟GIT框架的多模態模型，專注於從學生作業圖像中提取文本並生成教師反饋

圖像生成文本

Transformers 支持多種語言

Git Base Textvqa

基於microsoft/git-base-textvqa在textvqa數據集上微調的視覺問答模型，擅長處理包含文本的圖像問答任務

大型語言模型

Transformers 其他

基於naver-clova-ix/donut-base微調的模型，具體用途未明確說明

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase