Llama-3.2-11B-Vision-Radiology-miniオープンソース多モーダルモデル - ビジュアルとテキスト指令のインタラクションをサポート

ホーム

Llama 3.2 11B Vision Radiology Mini

p4rzvlによって開発

これはLlamaアーキテクチャに基づくマルチモーダルモデルで、視覚とテキストの命令をサポートし、4ビット量子化で最適化されています。

画像生成テキスト

Safetensors

#マルチモーダル命令ファインチューニング #4ビット量子化による効率的な推論 #視覚言語理解

ダウンロード数 69

リリース時間 : 4/17/2025

モデル概要

このモデルは視覚と言語理解能力を組み合わせており、画像からテキストへの変換タスクを処理でき、マルチモーダルインタラクションシナリオに適しています。

モデル特徴

マルチモーダルサポート

視覚とテキスト入力を同時に処理し、画像からテキストへの変換を実現します。

4ビット量子化最適化

4ビット量子化技術によりモデルサイズと計算リソース要件を削減します。

命令追従

視覚とテキストに基づく複雑な命令を理解し実行できます。

モデル能力

画像理解

テキスト生成

マルチモーダル推論

命令追従

使用事例

マルチモーダルインタラクション

画像キャプション生成

入力画像に基づいて詳細な文章説明を生成します。

視覚的質問応答

画像内容に関する自然言語の質問に答えます。

コンテンツ作成

画像とテキストのコンテンツ生成

画像に基づいて関連するテキストコンテンツ（ソーシャルメディア投稿や記事など）を生成します。

🚀 モデルIDのモデルカード

このモデルは画像をテキストに変換するモデルです。ベースモデルや使用ライブラリなどの情報が提供されています。

属性	详情
ベースモデル	unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit
ライブラリ名	peft
パイプラインタグ	image-to-text
フレームワークバージョン	PEFT 0.14.0

📚 モデル詳細

モデル説明

開発者: [詳細情報が必要]
資金提供元 (オプション): [詳細情報が必要]
共有者 (オプション): [詳細情報が必要]
モデルタイプ: [詳細情報が必要]
言語 (NLP): [詳細情報が必要]
ライセンス: [詳細情報が必要]
ファインチューニング元のモデル (オプション): [詳細情報が必要]

モデルソース (オプション)

リポジトリ: [詳細情報が必要]
論文 (オプション): [詳細情報が必要]
デモ (オプション): [詳細情報が必要]

📝 用途

直接利用

[詳細情報が必要]

下流利用 (オプション)

[詳細情報が必要]

想定外の利用

[詳細情報が必要]

⚠️ バイアス、リスク、制限事項

[詳細情報が必要]

推奨事項

ユーザー（直接利用者と下流利用者の両方）は、このモデルのリスク、バイアス、制限事項を認識すべきです。さらなる推奨事項については詳細情報が必要です。

🚀 モデルの使い始め方

以下のコードを使用してモデルを使い始めます。 [詳細情報が必要]

🔧 トレーニング詳細

トレーニングデータ

[詳細情報が必要]

トレーニング手順

前処理 (オプション)

[詳細情報が必要]

トレーニングハイパーパラメータ

トレーニング方式: [詳細情報が必要]

速度、サイズ、時間 (オプション)

[詳細情報が必要]

📊 評価

テストデータ、要因、メトリクス

テストデータ

[詳細情報が必要]

要因

[詳細情報が必要]

メトリクス

[詳細情報が必要]

結果

[詳細情報が必要]

概要

🔍 モデル調査 (オプション)

[詳細情報が必要]

🌱 環境への影響

炭素排出量は、Lacoste et al. (2019)に示されているMachine Learning Impact calculatorを使用して推定できます。

ハードウェアタイプ: [詳細情報が必要]
使用時間: [詳細情報が必要]
クラウドプロバイダー: [詳細情報が必要]
コンピュートリージョン: [詳細情報が必要]
排出された炭素量: [詳細情報が必要]

🛠️ 技術仕様 (オプション)

モデルアーキテクチャと目的

[詳細情報が必要]

コンピュートインフラストラクチャ

ハードウェア

[詳細情報が必要]

ソフトウェア

[詳細情報が必要]

📖 引用 (オプション)

BibTeX: [詳細情報が必要]

APA: [詳細情報が必要]

📘 用語集 (オプション)

[詳細情報が必要]

ℹ️ 詳細情報 (オプション)

[詳細情報が必要]

📝 モデルカード作成者 (オプション)

[詳細情報が必要]

📞 モデルカード連絡先

[詳細情報が必要]

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご