Janus-1.3B-ONNX開源多模態AI模型 - 支持文本與圖像靈活轉換任務

首頁

Janus 1.3B ONNX

由onnx-community開發

Janus-1.3B 是一個多模態因果語言模型，支持文本到圖像、圖像到文本以及圖像文本到文本的轉換任務。

文本生成圖像

Transformers

開源協議:其他 #多模態生成 #文本圖像互轉 #LaTeX公式識別

下載量 123

發布時間 : 10/26/2024

模型概述

Janus-1.3B 是一個基於 ONNX 權重的多模態模型，兼容 Transformers.js，能夠處理圖像和文本的交互任務，例如生成圖像描述或從文本生成圖像。

模型特點

多模態支持

能夠同時處理圖像和文本輸入，實現跨模態的交互和生成。

ONNX 兼容性

提供 ONNX 權重，兼容 Transformers.js，便於在瀏覽器和邊緣設備上部署。

高效生成

支持高效的文本和圖像生成，適用於即時應用場景。

模型能力

文本到圖像生成

圖像到文本轉換

圖像文本到文本轉換

多模態交互

使用案例

教育

公式轉換

將數學公式圖像轉換為 LaTeX 代碼。

生成準確的 LaTeX 代碼，便於學術文檔編寫。

創意設計

圖像生成

根據文本描述生成高質量圖像。

生成符合描述的圖像，適用於藝術創作和設計。

🚀 Janus-1.3B ONNX 模型

本項目將 deepseek-ai/Janus-1.3B 模型轉換為 ONNX 權重，以兼容 Transformers.js 庫。它支持多種跨模態任務，如文本到圖像、圖像到文本、圖像文本到文本等。

🚀 快速開始

本項目將 deepseek-ai/Janus-1.3B 模型轉換為 ONNX 權重，使其與 Transformers.js 兼容，可用於執行多種跨模態任務。

📦 安裝指南

如果你還沒有安裝 Transformers.js JavaScript 庫，可以使用以下命令從 NPM 進行安裝：

npm i @huggingface/transformers

💻 使用示例

基礎用法

示例：圖像+文本到文本

import { AutoProcessor, MultiModalityCausalLM } from "@huggingface/transformers";

// Load processor and model
const model_id = "onnx-community/Janus-1.3B-ONNX";
const processor = await AutoProcessor.from_pretrained(model_id);
const model = await MultiModalityCausalLM.from_pretrained(model_id);

// Prepare inputs
const conversation = [
  {
    role: "User",
    content: "<image_placeholder>\nConvert the formula into latex code.",
    images: ["https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/quadratic_formula.png"],
  },
];
const inputs = await processor(conversation);

// Generate response
const outputs = await model.generate({
  ...inputs,
  max_new_tokens: 150,
  do_sample: false,
});

// Decode output
const new_tokens = outputs.slice(null, [inputs.input_ids.dims.at(-1), null]);
const decoded = processor.batch_decode(new_tokens, { skip_special_tokens: true });
console.log(decoded[0]);

示例輸出：

Sure, here is the LaTeX code for the given formula:

x = \frac{-b \pm \sqrt{b^2 - 4a c}}{2a}


This code represents the mathematical expression for the variable \( x \).

示例：文本到圖像

import { AutoProcessor, MultiModalityCausalLM } from "@huggingface/transformers";

// Load processor and model
const model_id = "onnx-community/Janus-1.3B-ONNX";
const processor = await AutoProcessor.from_pretrained(model_id);
const model = await MultiModalityCausalLM.from_pretrained(model_id);

// Prepare inputs
const conversation = [
  {
    role: "User",
    content: "A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.",
  },
];
const inputs = await processor(conversation, { chat_template: "text_to_image" });

// Generate response
const num_image_tokens = processor.num_image_tokens;
const outputs = await model.generate_images({
  ...inputs,
  min_new_tokens: num_image_tokens,
  max_new_tokens: num_image_tokens,
  do_sample: true,
});

// Save the generated image
await outputs[0].save("test.png");