Perception LM 3B
モデル概要
モデル特徴
モデル能力
使用事例
🚀 知覚言語モデル(PLM)
知覚言語モデル(PLM)は、画像と動画の理解に関する透明な研究のための最先端で、完全にオープンで再現可能な多モーダル言語モデルです。このモデルは論文「PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding」で紹介されました。
🚀 クイックスタート
知覚言語モデル(PLM)は、画像と動画の理解に関する研究を行うための最先端の多モーダル言語モデルです。このモデルは、小規模(<8Bパラメータ)のビジョンエンコーダとLLMデコーダで構成されています。
訓練と評価のコードは、perception_modelsコードベースで提供されています。詳細はGitHubリポジトリを参照してください。
✨ 主な機能
- 最先端のモデル:画像と動画の理解に関する最新技術を用いたモデルです。
- 完全にオープンで再現可能:コードとデータが完全に公開されており、再現可能な研究をサポートします。
- 大規模な合成データ:大規模な合成データを用いて訓練されており、動画理解性能を向上させます。
📚 ドキュメント
リソース | 説明 | ドキュメント |
---|---|---|
評価 | lmms-evalを用いたPLMの評価 | docs/evaluation.md |
訓練 / ファインチューニング | PLMの訓練とファインチューニングの手順 | docs/training.md |
PLM-VideoBench | lmms-evalを用いたPLM-VideoBenchの評価 | docs/plm_videobench.md |
エンドツーエンドのファインチューニング例 | 放射線画像に対するエンドツーエンドのファインチューニング例 | docs/finetune_example.md |
応答の生成 | generate.py を用いて訓練済みモデルから応答を生成 |
generate.py |
PLM画像ベンチマーク結果
モデル | DocVQA | ChartQA | TextVQA | InfoQA | AI2D | OCRBench | COCO | Nocap | Flickr | MMMU | VQAv2 | OKVQA | VizWiz | MME | SEED | BLINK | CVBench | RealWorldQA | VSR | POPE |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 90.7 | 78.6 | 82.1 | 63.0 | 84.9 | 807 | 138.6 | 124.2 | 100.5 | 34.8 | 81.7 | 61.0 | 59.7 | 1603 | 76.3 | 46.8 | 73.8 | 67.1 | 68.8 | 88.4 |
PLM3B | 93.8 | 84.3 | 84.3 | 74.6 | 90.9 | 830 | 144.9 | 126.5 | 98.0 | 41.2 | 84.3 | 66.8 | 64.0 | 1879 | 78.5 | 55.4 | 81.4 | 72.4 | 80.4 | 88.7 |
PLM8B | 94.6 | 85.5 | 86.5 | 80.9 | 92.7 | 870 | 146.7 | 129.9 | 105.6 | 46.1 | 85.6 | 69.6 | 67.0 | 1989 | 79.3 | 56.0 | 81.3 | 75.0 | 82.8 | 89.9 |
PLM動画ベンチマーク結果
モデル | VATEX | DREAM 1K | How2QA | MVBench | NExTQA | PerceptionTest (test) | STAR | TVQA | VideoMME | TVBench | ActivityNetQA | EgoSchema (test) | TemporalBench | TOMATO | MotionBench (dev) | TempCompass (MCQ) | CGBench (clue) | Charades STA | VideoHallucer | Halluc. EventHallusion |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 92.5 | 34.3 | 86.4 | 70.1 | 80.3 | 72.7 | 83.7 | 50.3 | 49.2 | 50.4 | 62.5 | 60.4 | 18.2 | 25.5 | 52.2 | 64.6 | 43.6 | 55.2 | 49.2 | 79.5 |
PLM3B | 96.1 | 37.4 | 89.4 | 74.7 | 83.4 | 79.3 | 84.8 | 55.3 | 54.9 | 58.9 | 66.2 | 66.9 | 23.4 | 30.9 | 60.4 | 69.3 | 47.2 | 57.7 | 55.5 | 76.5 |
PLM8B | 99.7 | 35.9 | 90.7 | 77.1 | 84.1 | 82.7 | 84.9 | 59.3 | 58.3 | 63.5 | 67.3 | 68.8 | 28.3 | 33.2 | 61.4 | 72.7 | 46.4 | 58.6 | 57.7 | 77.3 |
📄 ライセンス
このモデルは、FAIR非商用研究ライセンスの下で提供されています。詳細は以下を参照してください。
FAIR非商用研究ライセンス
最終更新日: 2025年4月17日
「許容使用ポリシー」とは、研究資料に適用されるFAIR許容使用ポリシーであり、本契約に組み込まれています。
「契約」とは、本書に定める研究資料の使用、複製、配布、および改変に関する条件を指します。
「ドキュメント」とは、Metaが配布する研究資料に付随する仕様、マニュアル、およびドキュメントを指します。
「ライセンシー」または「あなた」とは、あなた、あなたの雇用主、またはあなたがその者または団体の代理として本契約に入る場合の他の個人または団体を指し、適用される法律、規則、または規制に基づいて法的同意を与えることができる年齢であり、あなたが彼らの代理として本契約に入る場合、あなたの雇用主またはその他の個人または団体を拘束する法的権限を有する者を指します。
「Meta」または「私たち」とは、あなたが欧州経済地域(EEA)またはスイスに所在する場合、またはあなたが団体である場合にはその主たる事業拠点がEEAまたはスイスにある場合、Meta Platforms Ireland Limitedを指し、それ以外の場合にはMeta Platforms, Inc.を指します。
「非商用研究用途」とは、研究、開発、教育、処理、または分析に関連する非商用の研究ユースケースを指し、それぞれの場合において、あなたまたは他の者に商業的利益または金銭的報酬を主な目的としないものを指します。
「研究資料」とは、総称として、ドキュメント、およびMetaによって配布され、本契約の下で利用可能となるモデル、ソフトウェア、アルゴリズム(機械学習モデルコード、訓練済みモデルの重み、推論を可能にするコード、訓練を可能にするコード、ファインチューニングを可能にするコード、デモンストレーション資料、およびその他の要素を含む)を指します。
以下の「同意する」をクリックするか、研究資料の一部または要素を使用または配布することにより、あなたは本契約に拘束されることに同意するものとします。
-
ライセンス権限と再配布
- a. 権限の付与:あなたには、研究資料に含まれるMetaの知的財産またはMetaが所有するその他の権利の下で、非排他的、世界規模、非譲渡的、無償の限定的ライセンスが付与され、研究資料を使用、複製、配布、コピー、派生作品を作成、および改変することができます。
- b. 再配布と使用
- i. あなたは、研究資料または研究資料の出力または結果を、商用用途または非商用研究用途以外の用途に使用しないものとします。
- ii. 研究資料およびその派生作品の配布は、本契約の条件に従うものとします。あなたが研究資料またはその派生作品を第三者に提供する場合、本契約の条件の下でのみ行うことができます。また、あなたはその第三者に本契約のコピーを提供するものとします。
- iii. あなたが研究資料を使用して行った研究の結果を公開する場合、あなたの出版物において研究資料の使用を明記するものとします。
- iv. あなたの研究資料の使用は、適用される法律および規制(貿易管理法を含む)に準拠し、FAIR許容使用ポリシーに従うものとします。このポリシーは、本契約に参照により組み込まれます。
-
ユーザーサポート:あなたの研究資料の非商用研究用途は、あなた自身の裁量で行われるものとし、Metaはその使用に関連する情報の処理やサービスの提供を行いません。Metaは、研究資料に関するサポートサービスを提供する義務を負いません。提供されるサポートは、「現状有姿」で、すべての欠陥を含み、いかなる種類の保証も伴いません。
-
保証の否認:適用される法律により要求されない限り、研究資料およびその出力および結果は「現状有姿」で提供され、いかなる種類の保証も伴いません。Metaは、明示的および黙示的を問わず、すべての種類の保証を否認します。これには、所有権、非侵害、商品性、または特定の目的に適合することに関する保証が含まれます。あなたは、研究資料の使用または再配布の適切性を独自に判断する責任を負い、研究資料の使用およびその出力および結果に関連するすべてのリスクを負います。
-
責任の制限:いかなる場合も、Metaまたはその関連会社は、本契約に起因する契約、不法行為、過失、製品責任、またはその他の理論に基づく責任について、いかなる損失利益、または直接的または間接的、特別、結果的、偶発的、模範的、または懲罰的損害についても責任を負いません。たとえMetaまたはその関連会社がそれらの可能性を知っていたとしても同様です。
-
知的財産
- a. Metaによる研究資料および派生作品の所有権を前提として、あなたが作成した研究資料の派生作品および改変について、あなたとMetaの間で、あなたはそれらの派生作品および改変の所有者であり、所有者であり続けるものとします。
- b. あなたがMetaまたは他の団体に対して、研究資料、出力または結果、またはそれらの一部があなたが所有またはライセンスする知的財産または他の権利の侵害を構成すると主張する訴訟またはその他の手続きを起こす場合、本契約に基づいてあなたに付与されたすべてのライセンスは、その訴訟または請求が提起された日から終了するものとします。あなたは、研究資料の使用または配布に起因するまたは関連する第三者からのいかなる請求からもMetaを免責し、損害を賠償するものとします。
-
契約期間と終了:本契約の期間は、あなたが本契約を受諾した日または研究資料にアクセスした日から開始し、本契約の条件に従って終了するまで有効です。あなたが本契約のいずれかの条件に違反した場合、Metaは本契約を終了することができます。本契約が終了した場合、あなたは研究資料を削除し、使用を中止するものとします。第5条、第6条、および第9条は、本契約の終了後も有効です。
-
準拠法と管轄権:本契約は、カリフォルニア州の法律に基づいて管理され、解釈されます。法律選択の原則は適用されません。国際商品売買契約に関する国際連合条約は、本契約には適用されません。カリフォルニア州の裁判所は、本契約に起因するいかなる紛争についても排他的な管轄権を有します。
-
変更と修正:Metaは、随時、[https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE]に改訂版を掲載することにより、本契約を変更することができます。ただし、それらは本契約の現行バージョンと精神的に類似しているが、新しい問題または懸念事項に対応するために詳細が異なる場合があります。すべての変更は、直ちに有効となります。本契約の変更後も研究資料を引き続き使用することは、あなたがその変更に同意したことを意味します。本契約に別段の定めがない限り、本契約のいずれかの条項の変更または追加は、書面であり、あなたとMetaの双方の権限を有する代表者が署名した場合にのみ拘束力を有するものとします。
FAIR許容使用ポリシー
MetaのFundamental AI Research(FAIR)チームは、すべての人の利益のためにオープンな研究を通じて人工知能の最先端技術を進歩させる使命のもと、新しいおよび既存の研究分野の理解を深めることを目指しています。
この使命の一環として、Metaは特定の研究資料を非商用研究用途で利用可能にしています。Metaは、これらの研究資料の安全かつ責任ある使用を促進することにコミットしています。
禁止される使用
あなたは、研究資料を以下の目的に使用しないこと、または他人に使用させないことに同意するものとします。
- 法律または他人の権利を侵害すること
- 暴力またはテロリズム
- 児童の搾取または危害、児童搾取コンテンツの募集、作成、取得、または配布、または児童性虐待素材の報告の不履行
- 人身売買、搾取、および性的暴力
- 未成年者への情報または資料の違法な配布、わいせつな資料を含む、またはそのような情報または資料に関連する法的に必要な年齢制限の不遵守
- 性的な勧誘
- その他の犯罪行為
- 個人または個人のグループの嫌がらせ、虐待、脅迫、またはいじめを行う、促進する、扇動する、または容易にすること
- 雇用、雇用福利、信用、住宅、その他の経済的利益、またはその他の重要な商品またはサービスの提供における差別またはその他の違法または有害な行為を行う、促進する、扇動する、または容易にすること
- 金融、法律、医療/健康、または関連する専門職を含む、いかなる専門職の無許可または無免許の実践を行うこと
- 適用される法律により必要な権利および同意なしに、個人に関する健康、人口統計、またはその他の敏感な個人情報または私的情報を収集、処理、開示、生成、または推測すること
- FAIR研究資料を使用した技術の出力または結果を含む、いかなる第三者の権利を侵害する、盗用する、またはその他の方法で侵害する行動を行う、または容易にすること
- 悪意のあるコード、マルウェア、コンピュータウイルスを作成、生成、または容易にする、またはウェブサイトまたはコンピュータシステムの正常な動作、整合性、操作、または外観を無効化、過負荷、干渉、または損なうことができる他のことを行うこと
- 個人に死亡または身体的危害のリスクをもたらす活動の計画または開発に関与する、促進する、扇動する、容易にする、または支援すること
- 軍事、戦争、核産業または応用、諜報活動、米国国務省が維持する国際武器輸出規制(ITAR)の対象となる材料または活動に関する研究成果の使用
- 銃器および違法武器(武器開発を含む)
- 違法薬物および規制/管理物質
- 重要インフラストラクチャ、輸送技術、または重機械の操作
- 自傷行為または他人への危害、自殺、切り傷、および摂食障害を含む
- 個人に対する暴力、虐待、または身体的危害を扇動または促進することを意図したコンテンツ
- 他人を意図的に欺くまたは誤解させること
- 詐欺の生成、促進、または拡大、または虚偽情報の作成または促進
- 中傷的なコンテンツの生成、促進、または拡大、中傷的な声明、画像、またはその他のコンテンツの作成を含む
- スパムの生成、促進、または配布
- 同意、許可、または法的権利なしに他人をなりすますこと
- FAIR研究資料の出力またはFAIR研究資料を使用した技術の出力が人間によって生成されたものであると主張すること
- 偽のオンラインエンゲージメントの生成または容易化、偽のレビューおよびその他の偽のオンラインエンゲージメント手段を含む
- 研究資料の既知の危険性をエンドユーザーに適切に開示しないこと
このポリシーの違反またはこのポリシーの違反につながる可能性のある他の問題は、[https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform]に報告を提出してください。
📚 引用
あなたが私たちのコードを研究に役立てた場合、以下の文献を引用していただけると幸いです。
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}



