Cockatiel-13B開源視頻文本生成模型 - 為視頻產出貼合人類偏好的精細描述

首頁

Cockatiel 13B

由Fr0zencr4nE開發

基於VILA-v1.5-13B開發的視頻文本生成模型，能夠為輸入視頻生成精細的描述文本，符合人類偏好。

視頻生成文本

Transformers

#視頻精細描述 #人類偏好優化 #多模態生成

下載量 26

發布時間 : 3/12/2025

模型概述

該模型通過集成合成數據和人類偏好訓練，能夠生成詳細的視頻描述文本，適用於視頻內容理解和生成任務。

模型特點

精細視頻描述生成

能夠為輸入視頻生成符合人類偏好的詳細描述文本。

集成合成與人類偏好訓練

通過結合合成數據和人類偏好訓練，提升生成文本的質量和自然度。

基於VILA-v1.5-13B

基於強大的VILA-v1.5-13B模型開發，具備高性能的視頻文本生成能力。

模型能力

視頻內容理解

視頻文本生成

多模態處理

使用案例

視頻內容分析

視頻字幕生成

為視頻生成詳細的字幕或描述文本。

生成符合人類偏好的自然語言描述。

視頻內容摘要

從視頻中提取關鍵信息並生成摘要。

生成簡潔且信息豐富的視頻摘要。

多模態應用

視頻問答系統

結合視頻和文本輸入，回答關於視頻內容的問題。

提供準確的視頻內容相關回答。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Cockatiel 13B

模型概述

模型特點

模型能力

使用案例

🚀 視頻文本詳細字幕生成模型

🚀 快速開始

📄 許可證