オープンソースlibra-11b-baseモデル - マルチモーダル理解をサポートする脱結合ビジョンシステム

ホーム

Libra 11b Base

YifanXuによって開発

天秤座は大規模言語モデルを基盤に構築された分離視覚システムで、基本的なマルチモーダル理解能力を備えています。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #マルチモーダル理解 #画像からテキストへの変換 #CLIP統合

ダウンロード数 18

リリース時間 : 5/15/2024

モデル概要

このモデルは画像-テキストペアで訓練されており、画像からテキストへの変換と理解が可能で、マルチモーダルタスクに適しています。

モデル特徴

マルチモーダル理解能力

画像-テキストペアによる訓練を通じて、画像内容を理解し関連するテキスト記述を生成できます。

分離視覚システム

大規模言語モデルを基盤に構築されており、視覚システムと言語モデルが分離されているため、より柔軟なアーキテクチャを提供する可能性があります。

CLIPモデル統合

事前訓練済みのCLIPモデルと組み合わせて使用する必要があり、視覚特徴抽出能力が強化されている可能性があります。

モデル能力

画像理解

画像からテキストへの変換

マルチモーダルタスク処理

使用事例

画像理解と記述

画像キャプション

画像に対して記述的なテキストを生成

視覚的質問応答

画像内容に関する質問に回答

マルチモーダルアプリケーション

画像とテキストのマッチング

画像とテキスト記述が一致するかどうかを判断

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Libra 11b Base

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Libra-Base

🚀 クイックスタート

📄 ライセンス