Perception LM 1B
モデル概要
モデル特徴
モデル能力
使用事例
language:
-
en tags:
-
facebook
-
meta
-
pytorch
-
plm
-
arxiv:2504.13180 extra_gated_prompt: >+ FAIR非営利研究ライセンス
最終更新日: 2025年4月17日
「許容使用ポリシー」とは、本契約に組み込まれる、研究資料に適用されるFAIR許容使用ポリシーを意味します。
「契約」とは、本資料に記載されている研究資料の使用、複製、配布および改変に関する利用規約を意味します。
「ドキュメンテーション」とは、Metaが配布する研究資料に付随する仕様書、マニュアルおよびドキュメントを意味します。
「ライセンシー」または「あなた」とは、適用される法律、規則または規制の下で法的同意を提供するのに必要な年齢に達しており、あなたが本契約を締結する際に雇用主またはその他の個人または団体を代表している場合、その雇用主またはその他の個人または団体を法的に拘束する権限を有する、あなた、またはあなたの雇用主またはその他の個人または団体を意味します。
「Meta」または「当社」とは、Meta Platforms Ireland Limited(あなたがEEAまたはスイスに所在している場合、または団体の場合、主たる事業所がEEAまたはスイスにある場合)およびMeta Platforms, Inc.(あなたがEEAまたはスイス以外に所在している場合)を意味します。
「非営利研究用途」とは、研究、開発、教育、処理、または分析に関連する非営利の研究用途を意味し、いずれの場合も、主として商業的優位性またはあなたまたは他者への金銭的補償を目的としていないものを指します。
「研究資料」とは、ドキュメンテーションおよびモデル、ソフトウェア、アルゴリズム(機械学習モデルコード、訓練済みモデルの重み、推論を可能にするコード、訓練を可能にするコード、ファインチューニングを可能にするコード、デモンストレーション資料、およびMetaが配布し本契約の下で利用可能にした前述の要素を含む)を総称して意味します。
下記の「同意する」をクリックするか、研究資料の一部または要素を使用または配布することにより、あなたは本契約に拘束されることに同意したものとみなされます。
- ライセンス権利および再配布
a. 権利の付与。Metaが保有する知的財産権またはその他の権利が具現化された研究資料に関して、あなたは、非独占的、世界的、非譲渡的、ロイヤリティフリーの限定ライセンスを付与されます。これにより、研究資料の使用、複製、配布、コピー、派生作品の作成、および改変を行うことができます。
b. 再配布および使用
i. あなたは、研究資料または研究資料の出力または結果を、非営利研究用途以外の商業用途またはその他の用途に使用しません。
ii. 研究資料およびその派生作品の配布は、本契約の条件に従います。あなたが研究資料またはその派生作品を第三者に配布または利用可能にする場合、本契約の条件に従ってのみ行うことができます。また、あなたは本契約の写しをその第三者に提供するものとします。
iii. あなたが研究資料を使用、または研究資料に関連して実施した研究の結果を公表する場合、その公表において研究資料の使用を明示しなければなりません。
iv. あなたの研究資料の使用は、適用される法律および規制(貿易管理法を含む)に準拠し、本契約に参照として組み込まれるFAIR許容使用ポリシーに従わなければなりません。
-
ユーザーサポート。あなたの研究資料の非営利研究用途は、あなた自身の裁量で行われます。Metaは、そのような使用に関連して情報を処理したり、サービスを提供したりしません。Metaは、研究資料に関するいかなるサポートサービスを提供する義務も負いません。提供されるサポートは「現状有姿」で、「すべての欠陥を含み」、いかなる保証もなく提供されます。
-
保証の免責。適用される法律で要求されない限り、研究資料およびその出力と結果は「現状有姿」で提供され、いかなる種類の保証もなく、Metaは、明示的または黙示的を問わず、商品性、特定目的への適合性、権利非侵害を含むすべての保証を否認します。あなたは、研究資料の使用または再配布の適切性を独自に判断し、研究資料およびその出力と結果の使用に関連するすべてのリスクを負担するものとします。
-
責任の制限。いかなる場合でも、Metaまたはその関連会社は、契約、不法行為、過失、製品責任その他の法理論に基づき、本契約から生じる逸失利益または直接的、間接的、特別、結果的、付随的、懲罰的損害について責任を負いません。Metaまたはその関連会社がそのような損害の可能性について通知されていた場合でも同様です。
-
知的財産
a. Metaが研究資料およびMetaが作成または依頼した派生作品を所有することを条件として、あなたが作成した研究資料の派生作品および改変に関しては、あなたとMetaの間で、あなたがそのような派生作品および改変の所有者となります。
b. あなたが、研究資料、出力または結果、またはその一部が、あなたが所有またはライセンス可能な知的財産権またはその他の権利の侵害を構成すると主張して、Metaまたはいかなる団体に対しても訴訟またはその他の手続き(訴訟における反訴または交叉請求を含む)を提起した場合、本契約に基づいてあなたに付与されたライセンスは、そのような訴訟または請求が提起または開始された日をもって終了します。あなたは、研究資料の使用または配布から生じるまたは関連する第三者による請求からMetaを補償し、免責するものとします。
-
期間および終了。本契約の期間は、あなたが本契約を承諾した時点または研究資料にアクセスした時点から開始され、本契約の条件に従って終了するまで完全な効力を有します。Metaは、あなたが本契約のいかなる条件に違反した場合、本契約を終了することができます。本契約の終了時、あなたは研究資料の使用を停止し、削除するものとします。第5条、第6条および第9条は、本契約の終了後も存続します。
-
準拠法および管轄。本契約は、カリフォルニア州の法律に準拠し、解釈されます。国際物品売買契約に関する国際連合条約は、本契約には適用されません。本契約から生じるいかなる紛争も、カリフォルニア州の裁判所が専属的管轄権を有します。
-
変更および修正。Metaは、[https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE]に改訂版を掲載することにより、本契約を随時変更することができます。ただし、その変更は現在の契約の精神と類似しているが、新しい問題や懸念に対処するために詳細が異なる場合があります。そのような変更はすべて直ちに有効となります。本契約の変更後も研究資料を使用し続けることは、その変更に同意したものとみなされます。本契約に定める場合を除き、本契約のいかなる条項の変更または追加も、書面によりかつあなたとMetaの双方の権限ある代表者が署名しない限り、拘束力を持ちません。
FAIR許容使用ポリシー
MetaのFundamental AI Research(FAIR)チームは、人工知能の最先端技術を進歩させるためのオープンな研究を通じて、新規および既存の研究分野の理解を深めることを使命としています。
この使命の一環として、Metaは特定の研究資料を非営利研究用途で利用可能にしています。Metaは、そのような研究資料の安全かつ責任ある使用を促進することを約束します。
禁止される使用
あなたは、研究資料を以下の目的で使用したり、他者に使用させたりしないことに同意します:
法律または他者の権利を侵害すること、以下を含む:
暴力またはテロリズム
児童の搾取または危害、児童搾取コンテンツの勧誘、作成、取得、または頒布、または児童性的虐待素材の報告の不履行
人身売買、搾取、および性的暴力
未成年者への情報または資料の違法な配布、わいせつな資料、またはそのような情報または資料に関連して法的に必要な年齢制限を実施しないこと
性的勧誘
その他の犯罪行為
個人または個人のグループに対する嫌がらせ、虐待、脅迫、またはいじめを実施、促進、扇動、または容易にすること
雇用、雇用福利厚生、信用、住宅、その他の経済的利益、またはその他の必須の財貨およびサービスの提供において、差別またはその他の違法または有害な行為を実施、促進、扇動、または容易にすること
金融、法律、医療/健康、または関連する専門職を含むがこれに限らない、いかなる職業の無許可または無免許の実践を実施すること
適用される法律で要求される権利および同意なしに、個人の健康、人口統計、またはその他の機密個人情報を収集、処理、開示、生成、または推測すること
第三者権利(FAIR研究資料を使用した技術の出力または結果を含む)を侵害、不当流用、またはその他の方法で侵害する行為またはコンテンツを実施または容易にすること
マルウェア、コンピュータウイルスを含む悪意のあるコードを作成、生成、または容易にすること、またはウェブサイトまたはコンピュータシステムの適切な動作、完全性、操作、または外観を無効化、過負荷、干渉、または損なう行為を行うこと
- 個人の死亡または身体的危害のリスクを伴う活動を実施、促進、扇動、容易に、または計画または開発を支援すること、以下に関連する研究成果物の使用を含む:
軍事、戦争、核産業または用途、スパイ活動、国際武器取引規則(ITAR)の対象となる資料または活動
銃器および違法な武器(武器開発を含む)
違法な薬物および規制/管理物質
重要インフラ、輸送技術、または重機械の操作
自傷行為または他者への危害、自殺、自傷、摂食障害を含む
個人に対する暴力、虐待、または身体的危害を扇動または促進することを意図したコンテンツ
- 他者を故意に欺くまたは誤解させること、以下に関連するFAIR研究資料の使用を含む:
詐欺または虚偽情報の作成または促進を生成、促進、または助長すること
中傷的コンテンツ、中傷的声明、画像、またはその他のコンテンツの作成を生成、促進、または助長すること
スパムを生成、促進、または配布すること
同意、許可、または法的権利なしに他者を偽装すること
FAIR研究資料またはFAIR研究資料を使用した技術の出力が人間によって生成されたものであると表示すること
偽のオンラインエンゲージメント、偽のレビューおよびその他の偽のオンラインエンゲージメントの手段を生成または容易にすること
- あなたの研究資料の既知の危険性をエンドユーザーに適切に開示しないこと
本ポリシーの違反または本ポリシーの違反につながる可能性のある問題を報告する場合は、[https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform]から報告を提出してください。
extra_gated_fields: 名: text 姓: text 生年月日: date_picker 国: country 所属: text 職種: type: select options: - 学生 - 大学院研究者 - AI研究者 - AI開発者/エンジニア - 記者 - その他 geo: ip_location 下記の「送信」をクリックすることで、ライセンス条件に同意し、提供する情報がMetaプライバシーポリシーに従って収集、保存、処理、共有されることを承諾します: checkbox extra_gated_description: >- 提供いただいた情報は、Metaプライバシーポリシーに従って収集、保存、処理、共有されます。 extra_gated_button_content: 送信 extra_gated_heading: >- 必ず正式な法的氏名、生年月日、およびすべての企業識別子を含む完全な組織名を提供してください。略語や特殊文字の使用は避けてください。これらの指示に従わない場合、本モデルおよびHugging Face上の他のモデルにアクセスできなくなる可能性があります。送信後はこのフォームを編集できないため、すべての情報が正確であることを確認してください。 license: other license_name: fair-noncommercial-research pipeline_tag: image-text-to-text library_name: perception-encoder
モデル詳細
Perception Language Model (PLM) は、画像および動画理解の透明な研究のための最先端の完全オープンで再現可能なMLLMです。このモデルは「PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding」で紹介されました。
モデル概要: PLMは、小規模(<8Bパラメータ)のLLMデコーダーを備えたビジョンエンコーダーで構成されています。私たちは、独自モデルの蒸留なしで利用可能なデータを用いた標準的なトレーニングパイプラインの分析から始め、大規模な合成データを調査し、動画理解の性能、特に時空間推論と細粒度理解タスクを制限する重要なデータギャップを特定するためのスケーリング則を確立しました。これらのギャップを埋めるために、280万の高品質な人間によるラベル付きデータを作成しました。このリリースは、既存の最大の動画データセットよりもほぼ1桁大きい規模です。

トレーニングおよび評価コードはperception_modelsコードベースで提供しています。詳細はGitHubリポジトリをご覧ください。
リソース | 説明 | ドキュメント |
---|---|---|
評価 | lmms-evalを使用したPLMの評価 | docs/evaluation.md |
トレーニング/ファインチューニング | PLMのトレーニングおよびファインチューニング手順 | docs/training.md |
PLM-VideoBench | lmms-evalを使用したPLM-VideoBenchの評価 | docs/plm_videobench.md |
エンドツーエンドファインチューニング例 | 放射線画像でのエンドツーエンドファインチューニング例 | docs/finetune_example.md |
応答生成 | トレーニング済みモデルを使用してgenerate.py で応答を生成 |
generate.py |
PLM画像ベンチマーク結果
モデル | DocVQA | ChartQA | TextVQA | InfoQA | AI2D | OCRBench | COCO | Nocap | Flickr | MMMU | VQAv2 | OKVQA | VizWiz | MME | SEED | BLINK | CVBench | RealWorldQA | VSR | POPE |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 90.7 | 78.6 | 82.1 | 63.0 | 84.9 | 807 | 138.6 | 124.2 | 100.5 | 34.8 | 81.7 | 61.0 | 59.7 | 1603 | 76.3 | 46.8 | 73.8 | 67.1 | 68.8 | 88.4 |
PLM3B | 93.8 | 84.3 | 84.3 | 74.6 | 90.9 | 830 | 144.9 | 126.5 | 98.0 | 41.2 | 84.3 | 66.8 | 64.0 | 1879 | 78.5 | 55.4 | 81.4 | 72.4 | 80.4 | 88.7 |
PLM8B | 94.6 | 85.5 | 86.5 | 80.9 | 92.7 | 870 | 146.7 | 129.9 | 105.6 | 46.1 | 85.6 | 69.6 | 67.0 | 1989 | 79.3 | 56.0 | 81.3 | 75.0 | 82.8 | 89.9 |
PLM動画ベンチマーク結果
モデル | VATEX | DREAM 1K | How2QA | MVBench | NExTQA | PerceptionTest (test) | STAR | TVQA | VideoMME | TVBench | ActivityNetQA | EgoSchema (test) | TemporalBench | TOMATO | MotionBench (dev) | TempCompass (MCQ) | CGBench (clue) | Charades STA | VideoHallucer | Halluc. EventHallusion |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 92.5 | 34.3 | 86.4 | 70.1 | 80.3 | 72.7 | 83.7 | 50.3 | 49.2 | 50.4 | 62.5 | 60.4 | 18.2 | 25.5 | 52.2 | 64.6 | 43.6 | 55.2 | 49.2 | 79.5 |
PLM3B | 96.1 | 37.4 | 89.4 | 74.7 | 83.4 | 79.3 | 84.8 | 55.3 | 54.9 | 58.9 | 66.2 | 66.9 | 23.4 | 30.9 | 60.4 | 69.3 | 47.2 | 57.7 | 55.5 | 76.5 |
PLM8B | 99.7 | 35.9 | 90.7 | 77.1 | 84.1 | 82.7 | 84.9 | 59.3 | 58.3 | 63.5 | 67.3 | 68.8 | 28.3 | 33.2 | 61.4 | 72.7 | 46.4 | 58.6 | 57.7 | 77.3 |
引用
私たちのコードが研究に役立った場合は、以下の文献を引用してください:
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}



