Pixelreasoner RL V1
PixelReasonerはQwen2.5-VL-7B-Instructを基にした視覚言語モデルで、好奇心駆動型強化学習で訓練され、画像テキストからテキストへのタスクに特化しています。
ダウンロード数 112
リリース時間 : 5/18/2025
モデル概要
このモデルは主に画像とテキスト間のインタラクションタスクを処理し、画像内容を理解し関連するテキスト記述を生成したり、画像に基づく質問に答えたりできます。
モデル特徴
好奇心駆動型強化学習
論文で説明されている好奇心駆動型強化学習手法を用いて訓練され、モデルの学習効率と性能を向上させます。
マルチモーダル能力
視覚と言語処理能力を組み合わせ、画像に関連するテキスト内容を理解し生成できます。
効率的な推論
vllmとhf.generate()に基づく推論コードを提供し、効率的な展開と使用をサポートします。
モデル能力
画像理解
テキスト生成
マルチモーダルインタラクション
使用事例
画像記述生成
自動画像タグ付け
画像に対して詳細なテキスト記述を生成し、コンテンツ管理や検索に適用できます。
視覚質問応答
画像ベースの質問応答システム
教育、医療などの分野で、ユーザーの画像内容に関する質問に答えます。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98