Janus - Pro - 1B - ONNXオープンソースマルチモーダルモデル - テキストと画像の相互変換などのマルチタスクを無料でサポート

ホーム

Janus Pro 1B ONNX

onnx-communityによって開発

Janus-Pro-1B はマルチモーダル因果言語モデルで、テキストから画像、画像からテキストなど様々なタスクをサポートします。

テキスト生成画像

Transformers

オープンソースライセンス:MIT #マルチモーダル生成 #画像テキスト相互変換 #LaTeX数式認識

ダウンロード数 3,010

リリース時間 : 1/27/2025

モデル概要

Janus-Pro-1B は ONNX 重みに基づくマルチモーダルモデルで、テキストと画像の相互作用生成タスクをサポートし、様々なクロスモーダルアプリケーションシナリオに適しています。

モデル特徴

マルチモーダルサポート

テキストと画像の相互作用生成をサポートし、クロスモーダルタスクを処理できます。

ONNX 互換

ONNX 重みを提供し、Transformers.js などの環境での展開が容易です。

効率的な生成

効率的なテキストと画像生成をサポートし、リアルタイムアプリケーションシナリオに適しています。

モデル能力

テキストから画像生成

画像からテキスト生成

画像テキストからテキスト生成

使用事例

コンテンツ生成

画像説明生成

入力された画像に基づいて記述テキストを生成します。

テキストから画像生成

テキスト記述に基づいて対応する画像を生成します。

教育

数式変換

画像中の数学的数式を LaTeX コードに変換します。

🚀 Janus-Pro-1B ONNX モデル

このプロジェクトは、DeepSeek AIのJanus-Pro-1BモデルをONNX形式に変換し、Transformers.jsと互換性を持たせたものです。画像とテキストの相互変換など、多様なタスクに対応しています。

🚀 クイックスタート

このモデルを使用するには、まずTransformers.jsライブラリをインストールする必要があります。

📦 インストール

NPMからTransformers.js JavaScriptライブラリをインストールできます。

npm i @huggingface/transformers

💻 使用例

基本的な使用法

画像+テキストからテキストへの変換

import { AutoProcessor, MultiModalityCausalLM } from "@huggingface/transformers";

// プロセッサとモデルをロード
const model_id = "onnx-community/Janus-Pro-1B-ONNX";
const processor = await AutoProcessor.from_pretrained(model_id);
const model = await MultiModalityCausalLM.from_pretrained(model_id);

// 入力を準備
const conversation = [
  {
    role: "<|User|>",
    content: "<image_placeholder>\nConvert the formula into latex code.",
    images: ["https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/quadratic_formula.png"],
  },
];
const inputs = await processor(conversation);

// 応答を生成
const outputs = await model.generate({
  ...inputs,
  max_new_tokens: 150,
  do_sample: false,
});

// 出力をデコード
const new_tokens = outputs.slice(null, [inputs.input_ids.dims.at(-1), null]);
const decoded = processor.batch_decode(new_tokens, { skip_special_tokens: true });
console.log(decoded[0]);

テキストから画像への変換

import { AutoProcessor, MultiModalityCausalLM } from "@huggingface/transformers";

// プロセッサとモデルをロード
const model_id = "onnx-community/Janus-Pro-1B-ONNX";
const processor = await AutoProcessor.from_pretrained(model_id);
const model = await MultiModalityCausalLM.from_pretrained(model_id);

// 入力を準備
const conversation = [
  {
    role: "<|User|>",
    content: "A stunning princess from kabul in red, white traditional clothing, blue eyes, brown hair",
  },
];
const inputs = await processor(conversation, { chat_template: "text_to_image" });

// 応答を生成
const num_image_tokens = processor.num_image_tokens;
const outputs = await model.generate_images({
  ...inputs,
  min_new_tokens: num_image_tokens,
  max_new_tokens: num_image_tokens,
  do_sample: true,
});

// 生成された画像を保存
await outputs[0].save("test.png");

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

属性	详情
モデルタイプ	Janus-Pro-1B ONNX
ベースモデル	deepseek-ai/Janus-Pro-1B
パイプラインタグ	any-to-any
ライブラリ名	transformers.js
タグ	text-to-image, image-to-text, image-text-to-text