Janus-1.3B - ONNXオープンソースマルチモーダルAIモデル - テキストと画像の柔軟な変換タスクをサポート

ホーム

Janus 1.3B ONNX

onnx-communityによって開発

Janus-1.3Bはマルチモーダル因果言語モデルで、テキストから画像、画像からテキスト、および画像テキストからテキストへの変換タスクをサポートします。

テキスト生成画像

Transformers

オープンソースライセンス:その他 #マルチモーダル生成 #テキストと画像の相互変換 #LaTeX数式認識

ダウンロード数 123

リリース時間 : 10/26/2024

モデル概要

Janus-1.3BはONNX重みに基づくマルチモーダルモデルで、Transformers.jsと互換性があり、画像とテキストの相互作用タスク（例：画像の説明生成やテキストからの画像生成）を処理できます。

モデル特徴

マルチモーダルサポート

画像とテキスト入力を同時に処理し、クロスモーダルの相互作用と生成を実現します。

ONNX互換性

ONNX重みを提供し、Transformers.jsと互換性があるため、ブラウザやエッジデバイスでの展開が容易です。

効率的な生成

効率的なテキストと画像生成をサポートし、リアルタイムアプリケーションに適しています。

モデル能力

テキストから画像生成

画像からテキスト変換

画像テキストからテキスト変換

マルチモーダル相互作用

使用事例

教育

数式変換

数学数式画像をLaTeXコードに変換します。

正確なLaTeXコードを生成し、学術文書作成に便利です。

クリエイティブデザイン

画像生成

テキスト記述に基づいて高品質な画像を生成します。

記述に合った画像を生成し、芸術創作やデザインに適しています。

🚀 Janus-1.3B ONNX版

このプロジェクトは、DeepSeek AIのJanus-1.3BモデルをONNX形式に変換し、Transformers.jsと互換性を持たせたものです。多様なモード（テキストから画像、画像からテキスト、画像とテキストからテキスト）での使用が可能です。

🚀 クイックスタート

このモデルをTransformers.jsで使用するには、まず必要なライブラリをインストールする必要があります。

📦 インストール

NPM から Transformers.js JavaScriptライブラリをインストールできます。以下のコマンドを使用してインストールします。

npm i @huggingface/transformers

💻 使用例

基本的な使用法

画像+テキストからテキスト

import { AutoProcessor, MultiModalityCausalLM } from "@huggingface/transformers";

// プロセッサとモデルをロード
const model_id = "onnx-community/Janus-1.3B-ONNX";
const processor = await AutoProcessor.from_pretrained(model_id);
const model = await MultiModalityCausalLM.from_pretrained(model_id);

// 入力を準備
const conversation = [
  {
    role: "User",
    content: "<image_placeholder>\nConvert the formula into latex code.",
    images: ["https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/quadratic_formula.png"],
  },
];
const inputs = await processor(conversation);

// 応答を生成
const outputs = await model.generate({
  ...inputs,
  max_new_tokens: 150,
  do_sample: false,
});

// 出力をデコード
const new_tokens = outputs.slice(null, [inputs.input_ids.dims.at(-1), null]);
const decoded = processor.batch_decode(new_tokens, { skip_special_tokens: true });
console.log(decoded[0]);

サンプル出力:

Sure, here is the LaTeX code for the given formula:

x = \frac{-b \pm \sqrt{b^2 - 4a c}}{2a}


This code represents the mathematical expression for the variable \( x \).

テキストから画像

import { AutoProcessor, MultiModalityCausalLM } from "@huggingface/transformers";

// プロセッサとモデルをロード
const model_id = "onnx-community/Janus-1.3B-ONNX";
const processor = await AutoProcessor.from_pretrained(model_id);
const model = await MultiModalityCausalLM.from_pretrained(model_id);

// 入力を準備
const conversation = [
  {
    role: "User",
    content: "A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.",
  },
];
const inputs = await processor(conversation, { chat_template: "text_to_image" });

// 応答を生成
const num_image_tokens = processor.num_image_tokens;
const outputs = await model.generate_images({
  ...inputs,
  min_new_tokens: num_image_tokens,
  max_new_tokens: num_image_tokens,
  do_sample: true,
});

// 生成された画像を保存
await outputs[0].save("test.png");

サンプル出力:

モデルを試してみたいですか？オンラインWebGPUデモをチェックしてください。

📄 ライセンス

このモデルは、他のライセンスの下で提供されています。

情報一覧

属性	详情
ベースモデル	deepseek-ai/Janus-1.3B
パイプラインタグ	any-to-any
ライブラリ名	transformers.js
タグ	テキストから画像、画像からテキスト、画像とテキストからテキスト