跨模態生成

# 跨模態生成

Show-o2 是一個改進的原生統一多模態模型，利用自迴歸建模和流匹配技術，支持文本、圖像和視頻模態的統一理解和生成。

文本生成圖像

LLaDA-V是一款基於擴散模型的視覺語言模型，性能超越其他擴散多模態大語言模型。

文本生成圖像

輕量級統一多模態模型，高效處理圖像、文本、音頻和視頻等多種模態數據，在語音和圖像生成方面表現出色。

多模態融合

Qwen2.5 VL 7B Instruct Q8 0 GGUF

該模型是基於Qwen2.5-VL-7B-Instruct轉換的GGUF格式模型，支持多模態任務，適用於圖像和文本的交互處理。

文本生成圖像英語

Qwen.qwen2 VL 72B GGUF

Qwen2-VL-72B 是一個強大的視覺語言模型，支持圖像和文本的多模態理解與生成。

圖像生成文本

Llama 3.2 90B Vision Instruct

Llama 3.2-Vision是Meta開發的多模態大語言模型，支持圖像和文本輸入，文本輸出，在視覺識別、圖像推理、圖像描述和圖像問答任務上表現優異。

圖像生成文本

Transformers 支持多種語言

AA Chameleon 7b Base

支持圖文交錯輸入輸出的多模態模型，基於變色龍7B模型並通過對齊萬物框架增強圖像生成能力

文本生成圖像

Transformers 英語

4M是一個通過標記化與掩碼技術實現多模態擴展的'任意到任意'基礎模型訓練框架

多模態融合

4M是一個通過標記化與掩碼技術擴展至多種模態的'任意到任意'基礎模型訓練框架

多模態融合

Ldm Text2im Large 256

基於潛在擴散模型的高分辨率文本到圖像生成模型，通過潛在空間操作實現高效圖像合成

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase