多模態生成

# 多模態生成

OmniGen2 是一個強大且高效的統一多模態模型，由 3B 視覺語言模型和 4B 擴散模型構成，支持視覺理解、文本到圖像生成、指令引導的圖像編輯和上下文生成。

文本生成圖像

Blip Arabic Flickr 8k

基於BLIP架構微調的阿拉伯語圖像字幕生成模型，專門針對Flickr8k阿拉伯語數據集優化

圖像生成文本

Transformers 支持多種語言

GLM 4 32B 0414 GGUF

GLM-4-32B-0414是擁有320億參數的大語言模型，性能媲美GPT-4o和DeepSeek-V3，支持中文和英語，具備卓越的代碼生成、函數調用和複雜任務處理能力。

大型語言模型支持多種語言

BLIP 是一個基於 Transformer 的圖像到文本生成模型，能夠為輸入圖像生成自然語言描述。

圖像生成文本

Skyreels V2 DF 1.3B 540P

SkyReels V2是首個採用自迴歸擴散強制架構的開源視頻生成模型，支持無限時長電影生成，在公開模型中實現最先進的性能表現。

Instancecap Captioner

基於Qwen2.5-VL-7B-Instruct在instancevid數據集上微調的視覺語言模型，專注於實例級圖像描述生成

圖像生成文本

GLM-4-32B-0414是擁有320億參數規模的大語言模型，性能與GPT系列相當，支持中英文，擅長代碼生成、函數調用和複雜任務處理。

大型語言模型

Transformers 支持多種語言

基於Qwen2.5-7B擴展的語音語言模型，支持語音-文本交錯訓練和跨模態生成

文本生成音頻

Transformers 英語

Llama 3.2 Vision Instruct Bpmncoder

基於Unsloth優化的Llama 3.2 11B視覺指令微調模型，採用4位量化技術，訓練速度提升2倍

文本生成圖像

Transformers 英語

Qwen2 Vl Instuct Bpmncoder

基於Qwen2-VL-7B模型的4位量化版本，使用Unsloth和Huggingface TRL庫進行訓練，推理速度提升2倍

文本生成圖像

Transformers 英語

Vit Gpt2 Image Captioning

這是一個基於ViT和GPT2架構的圖像描述生成模型，能夠為輸入的圖像生成自然語言描述。

圖像生成文本

基於VILA-v1.5-13B開發的視頻文本生成模型，能夠為輸入視頻生成精細的描述文本，符合人類偏好。

視頻生成文本

Llama 3.2 11B Vision Invoices Mini

基於unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit微調的多模態大語言模型，支持視覺指令理解任務，使用Unsloth優化訓練速度提升2倍。

文本生成圖像

Transformers 英語

這是一個為Wan2.1 14B視頻生成模型訓練的LoRA，適用於文本轉視頻和圖像轉視頻任務。

視頻處理支持多種語言

Liquid 是一種自迴歸生成範式，通過將圖像標記化為離散代碼並在共享特徵空間中學習這些代碼嵌入與文本標記，實現了視覺理解與生成的無縫融合。

文本生成圖像

Transformers 英語

Molmo 7B D 0924 NF4

Molmo-7B-D-0924的4Bit量化版本，通過NF4量化策略降低顯存佔用，適用於顯存受限環境。

圖像生成文本

Mini Image Captioning

一個基於bert-mini和vit-small的輕量級圖像字幕生成模型，僅重130MB，在CPU上運行速度極快。

圖像生成文本

Transformers 英語

Janus Pro 1B ONNX

Janus-Pro-1B 是一個多模態因果語言模型，支持文本到圖像、圖像到文本等多種任務。

文本生成圖像

LongVA-7B-TPO是基於LongVA-7B通過時序偏好優化而來的視頻-文本模型，在長視頻理解任務中表現優異。

視頻生成文本

Hunyuanvideo HFIE

騰訊混元視頻是一個文本生成視頻的模型，適配於Hugging Face推理端點。

文本生成視頻英語

Instructcir Llava Phi35 Clip224 Lp

InstructCIR是一個基於指令感知對比學習的組合式圖像檢索模型，採用ViT-L-224和Phi-3.5-Mini架構，專注於圖像文本到文本生成任務。

圖像生成文本

Captain Eris Violet V0.420 12B

Captain Violet 是一個12B參數規模的合併模型，由Epiculous/Violet_Twilight-v0.2和Nitral-AI/Captain_BMO-12B通過mergekit工具合併而成，支持文本生成任務。

大型語言模型

Transformers 英語

Cogvideox 2B LiFT

CogVideoX-2B-LiFT是基於獎勵加權學習方法對CogVideoX-1.5進行微調的文本到視頻生成模型

文本生成視頻英語

Llama 3.2 11B Vision Radiology Mini

基於Unsloth優化的視覺指令微調模型，支持多模態任務處理

文本生成圖像

Transformers 英語

Thaicapgen Clip Gpt2

基於CLIP編碼器和GPT2架構的編碼器-解碼器模型，用於生成泰語圖像描述

圖像生成文本其他

Janus 1.3B ONNX

Janus-1.3B 是一個多模態因果語言模型，支持文本到圖像、圖像到文本以及圖像文本到文本的轉換任務。

文本生成圖像

OmniGen是一個統一的圖像生成模型，支持多種圖像生成任務。

Emu3是由北京智源研究院開發的多模態模型，僅通過預測下一個標記訓練而成，支持圖像、文本和視頻處理。

文本生成圖像

Sd15.ip Adapter.plus

基於IP-Adapter技術的圖像到圖像適配器，用於穩定擴散模型SD1.5，支持通過圖像提示生成藝術圖像。

Safetensors 其他

Swin Distilbertimbau

基於Swin Transformer和DistilBERTimbau的巴西葡萄牙語圖像描述生成模型

圖像生成文本

Transformers 其他

AiM是一個基於PyTorch的無條件圖像生成模型，通過PytorchModelHubMixin集成推送到Hugging Face Hub。

Show O W Clip Vit

Show-o 是一個基於 PyTorch 的任意到任意轉換模型，專注於多模態任務處理。

文本生成圖像

Show-o 是一個基於 PyTorch 的任意到任意轉換模型，支持多種模態的輸入和輸出轉換。

文本生成視頻

Cogflorence 2.2 Large

該模型是microsoft/Florence-2-large的微調版本，在Ejafa/ye-pop數據集的4萬張圖像子集上進行訓練，標註文本由THUDM/cogvlm2-llama3-chat-19B生成，適用於圖像轉文本任務。

圖像生成文本

Transformers 支持多種語言

Lumina Mgpt 7B 1024

Lumina-mGPT 是一個多模態自迴歸模型家族，擅長根據文本描述生成靈活逼真的圖像，並能執行多種視覺和語言任務。

文本生成圖像

Lumina Mgpt 7B 768

Lumina-mGPT 是一個多模態自迴歸模型家族，擅長根據文本描述生成靈活逼真的圖像，並能執行多種視覺與語言任務。

文本生成圖像

Lumina Mgpt 7B 768 Omni

Lumina-mGPT 是一個多模態自迴歸模型系列，擅長根據文本描述生成靈活逼真的圖像。

文本生成圖像

Cogflorence 2.1 Large

該模型是microsoft/Florence-2-large的微調版本，在Ejafa/ye-pop數據集的4萬張圖像子集上進行了訓練，標註由THUDM/cogvlm2-llama3-chat-19B生成，專注於圖像轉文本任務。

圖像生成文本

Transformers 支持多種語言

Latte是一個基於Transformer的潛在擴散模型，專注於文本生成視頻任務，支持多種數據集預訓練權重。

文本生成視頻

Shotluck Holmes 1.5

Shot2Story-20K 是一個基於圖像生成文本的模型，能夠將輸入的圖像轉換為連貫的文本描述或故事。

圖像生成文本

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase