InternVL2_5-HiMTok-8Bオープンソースモデル - 高精度かつ高効率な画像セグメンテーションタスクに無料で利用可能

ホーム

Internvl2 5 HiMTok 8B

yayafengziによって開発

HiMTokはInternVL2_5-8B大規模マルチモーダルモデルをファインチューニングした階層型マスクトークン学習フレームワークで、画像セグメンテーションタスクに特化しています。

画像生成テキスト

Safetensors

オープンソースライセンス:Apache-2.0 #マルチモーダル画像セグメンテーション #階層型マスクトークン #ゼロショット学習

ダウンロード数 16

リリース時間 : 3/20/2025

モデル概要

このモデルは階層型マスクトークン学習フレームワークにより、効率的な画像セグメンテーション機能を実現し、特にrefcocoシリーズのデータセットにおけるタスクに適しています。

モデル特徴

階層型マスクトークン学習

階層構造を採用して画像セグメンテーションタスクを処理し、分割精度と効率を向上

マルチモーダル能力

視覚と言語理解能力を統合し、複雑な画像セグメンテーションタスクをサポート

大規模事前学習モデルベース

InternVL2_5-8Bをベースにファインチューニングし、強力な特徴抽出能力を備える

モデル能力

画像セグメンテーション

マスク生成

マルチモーダル理解

視覚-言語タスク処理

使用事例

コンピュータビジョン

参照画像セグメンテーション

テキスト記述に基づいて画像内の特定領域を分割

refcocoシリーズデータセットで良好な性能

インタラクティブ画像編集

自然言語指示による画像編集と修正

属性	詳情
モデルタイプ	画像セグメンテーション用のファインチューニング済みモデル
ベースモデル	OpenGVLab/InternVL2_5-8B
パイプラインタグ	マスク生成

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Internvl2 5 HiMTok 8B

モデル概要

モデル特徴

モデル能力

使用事例

🚀 HiMTok: 大規模マルチモーダルモデルによる画像セグメンテーションのための階層的マスクトークンの学習

📚 詳細ドキュメント

引用情報

📄 ライセンス

モデル情報