Oryx-1.5-7Bオープンソースモデル - 大規模コンテキストウィンドウに対応し、各種ビジュアル入力を効率的に処理

ホーム

Oryx 1.5 7B

THUdyhによって開発

Oryx-1.5-7BはQwen2.5言語モデルを基に開発された7Bパラメータモデルで、32Kトークンのコンテキストウィンドウをサポートし、任意の空間サイズと時間長の視覚入力を効率的に処理することに特化しています。

テキスト生成ビデオ

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #長動画理解 #マルチモーダル処理 #高解像度ビジョン

ダウンロード数 133

リリース時間 : 10/22/2024

モデル概要

Oryx-1.5-7Bはマルチモーダル言語モデルで、動画や画像入力を処理でき、英語と中国語をサポートし、動画コンテンツの理解と生成タスクに適しています。

モデル特徴

効率的な視覚処理

動画や画像を含む任意の空間サイズと時間長の視覚入力を効率的に処理できます。

長文脈サポート

32Kトークンのコンテキストウィンドウをサポートし、長い動画コンテンツの処理に適しています。

多言語サポート

英語と中国語の2言語の処理と生成をサポートしています。

モデル能力

動画コンテンツ理解

動画コンテンツ記述生成

マルチモーダル推論

長動画処理

使用事例

動画コンテンツ分析

動画コンテンツ記述

入力動画の詳細な内容記述

動画コンテンツを正確に記述するテキストを生成

教育

教育動画理解

教育動画の内容を理解して要約

学生が動画の要点を素早く把握できるように支援

🚀 Oryx-1.5-7B

Oryx-1.5-7Bは、Oryx-SFT-Data を使用して学習された7/32Bパラメータのモデルです。このモデルは、32Kトークンのコンテキストウィンドウを持つQwen2.5言語モデルをベースに構築されています。Oryxは、任意の空間サイズと時間長の視覚入力をシームレスかつ効率的に処理するオンデマンドなソリューションを提供します。

リポジトリ: https://github.com/Oryx-mllm/Oryx
プロジェクトページ: https://oryx-mllm.github.io
対応言語: 英語、中国語
論文: https://arxiv.org/abs/2409.12961

🚀 クイックスタート

このモデルの使用方法について、簡単な生成プロセスを提供しています。詳細については、Githubリポジトリを参照してください。

💻 使用例

基本的な使用法

from oryx.model.builder import load_pretrained_model
from oryx.mm_utils import get_model_name_from_path, process_images, tokenizer_image_token
from oryx.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN, DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN, IGNORE_INDEX
from oryx.conversation import conv_templates, SeparatorStyle
from PIL import Image
import requests
import copy
import torch
import sys
import warnings
from decord import VideoReader, cpu
import numpy as np

def load_video(self, video_path, max_frames_num,fps=1,force_sample=False):
    if max_frames_num == 0:
        return np.zeros((1, 336, 336, 3))
    vr = VideoReader(video_path, ctx=cpu(0),num_threads=1)
    total_frame_num = len(vr)
    video_time = total_frame_num / vr.get_avg_fps()
    fps = round(vr.get_avg_fps()/fps)
    frame_idx = [i for i in range(0, len(vr), fps)]
    frame_time = [i/fps for i in frame_idx]
    if len(frame_idx) > max_frames_num or force_sample:
        sample_fps = max_frames_num
        uniform_sampled_frames = np.linspace(0, total_frame_num - 1, sample_fps, dtype=int)
        frame_idx = uniform_sampled_frames.tolist()
        frame_time = [i/vr.get_avg_fps() for i in frame_idx]
    frame_time = ",".join([f"{i:.2f}s" for i in frame_time])
    spare_frames = vr.get_batch(frame_idx).asnumpy()
    # import pdb;pdb.set_trace()
    return spare_frames,frame_time,video_time
pretrained = "THUdyh/Oryx-7B"
model_name = "oryx_qwen"
device = "cuda"
device_map = "auto"
tokenizer, model, image_processor, max_length = load_pretrained_model(pretrained, None, model_name, device_map=device_map)
model.eval()
video_path = ""
max_frames_num = "64"
video,frame_time,video_time = load_video(video_path, max_frames_num, 1, force_sample=True)
video = image_processor.preprocess(video, return_tensors="pt")["pixel_values"].cuda().bfloat16()
video = [video]
video_data = (video, video)
input_data = (video_data, (384, 384), "video")
conv_template = "qwen_1_5"
question = DEFAULT_IMAGE_TOKEN + "\nPlease describe this video in detail."
conv = copy.deepcopy(conv_templates[conv_template])
conv.append_message(conv.roles[0], question)
conv.append_message(conv.roles[1], None)
prompt_question = conv.get_prompt()
input_ids = tokenizer_image_token(prompt_question, tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt").unsqueeze(0).to(device)
output_ids = model.generate(
    inputs=input_ids,
    images=input_data[0][0],
    images_highres=input_data[0][1],
    modalities=video_data[2],
    do_sample=False,
    temperature=0,
    max_new_tokens=128,
    use_cache=True,
)

text_outputs = tokenizer.batch_decode(cont, skip_special_tokens=True)
print(text_outputs)

📚 ドキュメント

結果

一般的なビデオベンチマーク

長時間ビデオ理解

一般的な画像ベンチマーク

3D空間理解

モデルアーキテクチャ

アーキテクチャ: 事前学習済みの Oryx-ViT + Qwen2.5-7B
データ: 120万件の画像/ビデオデータの混合
精度: BFloat16

ハードウェアとソフトウェア

ハードウェア: 64 * NVIDIA Tesla A100
オーケストレーション: HuggingFace Trainer
コード: Pytorch

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

🔧 引用

@article{liu2024oryx,
title={Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution},
author={Liu, Zuyan and Dong, Yuhao and Liu, Ziwei and Hu, Winston and Lu, Jiwen and Rao, Yongming},
journal={arXiv preprint arXiv:2409.12961},
year={2024}
}