F

Finedefics

StevenHH2000によって開発
Finedeficsはオープンソースのマルチモーダル大規模言語モデル(MLLM)で、オブジェクトの情報的属性記述を組み込むことで、細粒度視覚認識(FGVR)能力を強化しています。
ダウンロード数 82
リリース時間 : 2/12/2025

モデル概要

FinedeficsはTransformerアーキテクチャに基づく自己回帰型言語モデルで、主に細粒度マルチモーダル大規模言語モデルの研究に使用され、コンピュータビジョンや自然言語処理などの分野に適しています。

モデル特徴

細粒度視覚認識の強化
トレーニング段階でオブジェクトの情報的属性記述を組み込むことで、モデルの細粒度視覚認識能力を大幅に向上させました。
マルチモーダル能力
視覚とテキスト情報を組み合わせ、画像からテキストへの変換と理解をサポートします。
オープンソースモデル
オープンソースモデルIdefics2-8bを基に構築され、Apache 2.0ライセンスに準拠しており、研究や応用が容易です。

モデル能力

細粒度視覚認識
マルチモーダル理解
画像からテキストへの変換

使用事例

コンピュータビジョン研究
細粒度物体分類
異なる犬種や鳥類などの細粒度物体の識別と分類に使用されます。
自然言語処理
マルチモーダル質問応答
画像とテキスト情報を組み合わせた質問応答タスクを実行します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase