コカティール - 13Bオープンソースビデオテキスト生成モデル - ビデオに対して人間の嗜好に合った精緻な説明を生成

ホーム

Cockatiel 13B

Fr0zencr4nEによって開発

VILA-v1.5-13Bを基に開発された動画テキスト生成モデルで、入力動画に対して人間の嗜好に合致した詳細な記述テキストを生成できます。

ビデオ生成テキスト

Transformers

#動画詳細記述 #人間の嗜好最適化 #マルチモーダル生成

ダウンロード数 26

リリース時間 : 3/12/2025

モデル概要

このモデルは合成データと人間の嗜好トレーニングを統合することで、詳細な動画記述テキストを生成し、動画内容理解や生成タスクに適しています。

モデル特徴

詳細な動画記述生成

入力動画に対して人間の嗜好に沿った詳細な記述テキストを生成できます。

合成データと人間嗜好の統合トレーニング

合成データと人間の嗜好トレーニングを組み合わせることで、生成テキストの品質と自然さを向上させます。

VILA-v1.5-13Bベース

強力なVILA-v1.5-13Bモデルを基に開発されており、高性能な動画テキスト生成能力を備えています。

モデル能力

動画内容理解

動画テキスト生成

マルチモーダル処理

使用事例

動画内容分析

動画字幕生成

動画に対して詳細な字幕や記述テキストを生成します。

人間の嗜好に合致した自然言語記述を生成します。

動画内容要約

動画から主要な情報を抽出し要約を生成します。

簡潔で情報量の多い動画要約を生成します。

マルチモーダルアプリケーション

動画質問応答システム

動画とテキスト入力を組み合わせ、動画内容に関する質問に回答します。

動画内容に関連する正確な回答を提供します。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Cockatiel 13B

モデル概要

モデル特徴

モデル能力

使用事例

🚀 コカティールモデル

📚 ドキュメント

📄 ライセンス