時空建模

# 時空建模

Vjepa2 Vitl Fpc64 256

V-JEPA 2是Meta旗下FAIR團隊開發的前沿視頻理解模型，擴展了VJEPA的預訓練目標，具備業界領先的視頻理解能力。

Videomaev2 Base

VideoMAEv2-Base是基於自監督學習的視頻特徵提取模型，採用雙重掩碼機制在UnlabeldHybrid-1M數據集上預訓練。

Chat-UniVi是一個統一視覺表徵的大語言模型，能夠同時理解圖像和視頻內容。

圖像生成文本

Vivit B 16x2 Kinetics400

ViViT是對視覺變換器(ViT)的擴展，適用於視頻處理，特別適合視頻分類任務。

ViViT是對視覺變換器(ViT)的擴展，適用於視頻處理，主要用於視頻分類等下游任務。

VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型，通過預測被掩碼視頻塊的像素值學習視頻內部表示。

VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型，通過預測掩碼視頻塊的像素值學習視頻表徵

Video Classification Cnn Rnn

基於CNN-RNN混合架構的視頻分類模型，用於動作識別任務

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase