Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPOはLLaVA-Video-7B-Qwen2を基に時間選好最適化を施した動画理解モデルで、複数のベンチマークテストで優れた性能を発揮します。
ビデオ生成テキスト
Transformers

L
ruili0
490
1
Auroracap 7B VID Xtuner
Apache-2.0
AuroraCapは画像と動画の字幕生成に特化したマルチモーダル大規模言語モデルで、効率的で詳細な動画字幕生成に焦点を当てています。
ビデオ生成テキスト
A
wchai
31
5
Tarsier 7b
Tarsier-7b は Tarsier シリーズのオープンソース大規模動画言語モデルで、高品質な動画説明の生成と優れた汎用動画理解能力に特化しています。
ビデオ生成テキスト
Transformers

T
omni-research
635
23
Cogvlm2 Video Llama3 Chat
その他
CogVLM2-Videoは高性能な動画理解モデルで、複数の動画質問応答タスクにおいて最先端の性能を達成し、1分以内に動画理解を完了できます。
テキスト生成ビデオ
Transformers 英語

C
THUDM
2,384
48
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより最適化され、優れた動画理解能力を備えています。
ビデオ生成テキスト
Transformers 英語

L
llava-hf
12.61k
9
Llava NeXT Video 7B Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
テキスト生成ビデオ
Transformers 英語

L
llava-hf
65.95k
88
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98