VideoChatOnline - 4Bオープンソースオンラインビデオ理解モデル - 無料でビデオテキストからテキストへのタスクを実現

ホーム

Videochatonline 4B

MCG-NJUによって開発

VideoChat-OnlineはPhi-3-vision-128k-instructを基にしたオンライン動画理解モデルで、動画テキストからテキストへの変換タスクに特化しています。

ビデオ生成テキスト

Safetensors

オープンソースライセンス:MIT #オンライン動画理解 #メモリ増強 #マルチモーダルインタラクション

ダウンロード数 61

リリース時間 : 3/5/2025

モデル概要

このモデルは主に動画コンテンツの理解と分析に使用され、動画内の情報をテキスト記述に変換することができ、様々な動画理解タスクに適用可能です。

モデル特徴

オンライン動画理解

リアルタイムの動画コンテンツ理解と分析をサポートし、動的な動画シーンに適しています。

メモリ増強手法

メモリ増強技術を採用し、長尺動画コンテンツの理解能力を向上させます。

モデル能力

動画コンテンツ理解

テキスト生成

マルチモーダル処理

使用事例

動画分析

動画要約生成

長尺動画コンテンツを自動的に簡潔なテキスト要約に変換します。

動画のキー情報を効率的に抽出

動画質問応答

動画内容に関する特定の質問に回答します。

動画の詳細を正確に理解

Property	Details
Base Model	microsoft/Phi-3-vision-128k-instruct
License	MIT
Pipeline Tag	video-text-to-text

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Videochatonline 4B

モデル概要

モデル特徴

モデル能力

使用事例

🚀 VideoChat-Online

🚀 クイックスタート

📚 ドキュメント

🛠 基本的な使用法

📃 モデルのソース

✏️ 引用