blip-base-captioning-ft-hl-actionsオープンソース画像キャプショニングモデル、画像の高レベルな動作を正確に記述

ホーム

Blip Base Captioning Ft Hl Actions

michelecafagna26によって開発

このモデルはBLIPアーキテクチャをファインチューニングした画像からテキストを生成するモデルで、画像中の高レベルな動作を記述するキャプション生成に特化しています。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #画像動作記述 #高レベル意味生成 #マルチモーダル理解

ダウンロード数 16

リリース時間 : 7/22/2023

モデル概要

このモデルはHLデータセットでファインチューニングされており、画像から動作を記述する自然言語テキストの生成に焦点を当てています。

モデル特徴

高レベル動作記述

画像中の高レベルな動作を記述するテキスト生成に特化

ファインチューニング最適化

HLデータセットで6エポックのファインチューニングを行い、動作記述能力を最適化

半精度トレーニング

fp16半精度を使用してトレーニング効率を向上

モデル能力

画像理解

動作記述生成

自然言語生成

使用事例

画像記述

動作シーン記述

人物の動作を含む画像に対して記述テキストを生成

'彼女は傘をさしている'などの自然言語記述を生成

Cider	SacreBLEU	Rouge-L
123.07	17.16	32.16

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Blip Base Captioning Ft Hl Actions

モデル概要

モデル特徴

モデル能力

使用事例

🚀 BLIP-base：高レベル行動記述による画像キャプショニング用にファインチューニングされたモデル

🚀 クイックスタート

モデルのファインチューニング 🏋️‍

テストセットの評価指標 🧾

💻 使用例

基本的な使用法

📚 ドキュメント

BibTexと引用情報

📄 ライセンス