カカティエル - オープンソースの8Bビデオ字幕生成モデル。人間の嗜好に合った詳細な字幕をビデオに生成します。

ホーム

Cockatiel 8B

Fr0zencr4nEによって開発

VILA-v1.5-8Bを基に構築された動画字幕生成モデルで、入力動画に対して詳細かつ人間の嗜好に合致する字幕を生成できます。

ビデオ生成テキスト

Transformers

#動画詳細字幕生成 #人間の嗜好最適化 #マルチモーダル理解

ダウンロード数 19

リリース時間 : 3/12/2025

モデル概要

このモデルは合成データと人間の嗜好トレーニングを統合することで、精密な動画字幕生成を実現し、高品質な動画記述が必要なシナリオに適しています。

モデル特徴

精密な動画字幕生成

入力動画に対して詳細かつ人間の嗜好に合致する字幕を生成できます。

合成データと人間の嗜好トレーニング

合成データと人間の嗜好トレーニングを統合することで、高品質な字幕生成を実現します。

VILA-v1.5-8Bを基に構築

強力なVILA-v1.5-8Bモデルを基に構築されており、競争力のある性能を発揮します。

モデル能力

動画字幕生成

マルチモーダル理解

詳細な記述生成

使用事例

動画コンテンツ理解

動画字幕生成

入力動画に対して詳細かつ人間の嗜好に合致する字幕を生成します。

高品質な動画記述で、動画コンテンツ理解と検索に適しています。

マルチモーダルアプリケーション

動画コンテンツ分析

動画とテキスト情報を組み合わせてコンテンツ分析を行います。

動画コンテンツ理解の精度と詳細度を向上させます。

属性	详情
パイプラインタグ	ビデオテキストからテキストへの変換
ライブラリ名	transformers
ライセンス	CC - BY - 4.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Cockatiel 8B

モデル概要

モデル特徴

モデル能力

使用事例

🚀 詳細ビデオキャプショナーモデル

📄 ライセンス