Llama 3.2 11B Vision OCR
L
Llama 3.2 11B Vision OCR
Swapnikによって開発
Unslothで最適化されたLlama 3.2-11B視覚命令モデル、4ビット量子化バージョン、トレーニング速度2倍向上
ダウンロード数 80
リリース時間 : 3/8/2025
モデル概要
これは視覚とテキスト命令を組み合わせたマルチモーダルモデルで、視覚-言語タスクに適しており、Llamaアーキテクチャを採用し4ビット量子化で最適化されています
モデル特徴
効率的なトレーニング最適化
UnslothとHuggingface TRLライブラリを使用したトレーニングで、速度が2倍向上
4ビット量子化
4ビット量子化技術を採用し、VRAM要件を低減
マルチモーダル能力
視覚とテキスト命令の同時処理をサポート
モデル能力
視覚命令理解
マルチモーダルテキスト生成
画像内容分析
クロスモーダル推論
使用事例
視覚質問応答
画像説明生成
入力画像に基づいて詳細な説明を生成
視覚命令実行
画像とテキストに基づく複合命令を理解し実行
教育支援
マルチモーダル教育
画像とテキストを組み合わせて複雑な概念を説明
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98