Perception LM 8B
モデル概要
モデル特徴
モデル能力
使用事例
language:
-
en tags:
-
facebook
-
meta
-
pytorch
-
plm extra_gated_prompt: >+ FAIR非営利研究ライセンス
最終更新日:2025年4月17日
「許容使用ポリシー」とは、本契約に組み込まれた、研究資料に適用されるFAIR許容使用ポリシーを意味します。
「契約」とは、本資料の使用、複製、配布および改変に関する本契約に定める条件を意味します。
「ドキュメンテーション」とは、Metaが配布する研究資料に付随する仕様書、マニュアルおよびドキュメンテーションを意味します。
「ライセンシー」または「あなた」とは、適用される法律、規則または規制の下で法的同意を提供するのに必要な年齢に達しており、本契約を締結する際に雇用主またはその他の個人または団体を法的に拘束する権限を有する、あなた、またはあなたの雇用主またはその他の個人または団体(本契約をそのような個人または団体に代わって締結する場合)を意味します。
「Meta」または「当社」とは、Meta Platforms Ireland Limited(EEAまたはスイスに所在する場合、または団体の場合、主たる事業所がEEAまたはスイスにある場合)およびMeta Platforms, Inc.(EEAまたはスイス以外に所在する場合)を意味します。
「非営利研究用途」とは、研究、開発、教育、処理、または分析に関連する非営利の研究用途を意味し、いずれの場合も、主として商業的優位性または金銭的補償を目的としないものを指します。
「研究資料」とは、ドキュメンテーションおよびモデル、ソフトウェア、アルゴリズム(機械学習モデルコード、訓練済みモデルウェイト、推論を可能にするコード、訓練を可能にするコード、ファインチューニングを可能にするコード、デモンストレーション資料、および本契約の下でMetaが配布し提供する前述の要素を含む)を総称して意味します。
下記の「同意する」をクリックするか、研究資料の一部または要素を使用または配布することにより、あなたは本契約に拘束されることに同意したものとみなされます。
- ライセンス権利および再配布
a. 権利の付与。Metaが保有する研究資料に具現化された知的財産権またはその他の権利に基づき、Metaはあなたに対し、研究資料の使用、複製、配布、コピー、派生著作物の作成、および改変を行うための非独占的、世界的、非譲渡的、ロイヤリティフリーの限定ライセンスを付与します。
b. 再配布および使用
i. あなたは、研究資料または研究資料の出力または結果を、非営利研究用途以外の商業用途またはその他の用途に使用しないものとします。
ii. 研究資料およびその派生著作物の配布は、本契約の条件に従うものとします。研究資料またはその派生著作物を第三者に配布または提供する場合、あなたは本契約の条件に従ってのみこれを行うことができます。また、あなたは本契約の写しをその第三者に提供するものとします。
iii. 研究資料を使用、または研究資料に関連して実施した研究の結果を公表する場合、あなたは公表物において研究資料の使用を明示する必要があります。
iv. 研究資料の使用は、適用される法律および規制(貿易管理法を含む)に準拠し、本契約に参照により組み込まれたFAIR許容使用ポリシーに従うものとします。
-
ユーザーサポート。研究資料の非営利研究用途による使用は、あなた自身の裁量で行われるものとします。Metaは、そのような使用に関連していかなる情報も処理せず、いかなるサービスも提供しません。Metaは、研究資料に関するいかなるサポートサービスも提供する義務を負いません。提供されるサポートは「現状有姿」で、「すべての欠陥を含み」、いかなる保証もなく提供されます。
-
保証の免責。適用される法律で要求されない限り、研究資料およびその出力と結果は「現状有姿」で提供され、いかなる保証もなく、Metaは、明示的または黙示的を問わず、商品性、特定目的への適合性、権利侵害の不在を含むすべての保証を否認します。あなたは、研究資料の使用または再配布の適切性を独自に判断し、研究資料およびその出力と結果の使用に関連するすべてのリスクを負担するものとします。
-
責任の制限。いかなる場合でも、Metaまたはその関連会社は、契約、不法行為、過失、製品責任その他の法理論に基づき、本契約に起因する逸失利益、直接的、間接的、特別、結果的、付随的、懲罰的または模範的損害について、その可能性について通知を受けていた場合でも、責任を負わないものとします。
-
知的財産
a. Metaが研究資料およびMetaが作成またはMetaのために作成された派生著作物を所有することを条件として、あなたが作成した研究資料の派生著作物および改変に関しては、あなたとMetaの間で、あなたがそのような派生著作物および改変の所有者となるものとします。
b. あなたが、研究資料、出力または結果、またはそのいずれかの一部が、あなたが所有またはライセンス可能な知的財産権またはその他の権利を侵害していると主張して、Metaまたはいかなる団体に対しても(訴訟における反訴または交叉請求を含む)訴訟またはその他の手続きを提起した場合、本契約の下であなたに付与されたすべてのライセンスは、そのような訴訟または請求が提起または開始された日をもって終了するものとします。あなたは、研究資料の使用または配布に起因または関連して第三者から提起されたいかなる請求からもMetaを補償し、免責するものとします。
-
期間および終了。本契約の期間は、あなたが本契約を承諾した時点または研究資料にアクセスした時点から開始され、本契約に定める条件に従って終了するまで完全な効力を有します。Metaは、あなたが本契約のいずれかの条件に違反した場合、本契約を終了することができます。本契約の終了時、あなたは研究資料の使用を停止し削除するものとします。第5条、第6条および第9条は、本契約の終了後も存続します。
-
準拠法および管轄。本契約は、カリフォルニア州の法律に準拠し、国際物品売買契約に関する国連条約は適用されません。本契約に起因するいかなる紛争も、カリフォルニア州の裁判所が専属的管轄権を有します。
-
変更および修正。Metaは、[https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE]で改訂版を掲載することにより、本契約を随時変更することができます。ただし、その変更は現在の契約の精神と類似しているが、新しい問題や懸念に対処するために詳細が異なる場合があります。そのような変更はすべて直ちに効力を生じます。本契約の変更後も研究資料を使用し続けることは、その変更に同意したものとみなされます。本契約に定める場合を除き、本契約のいずれかの条項に対する変更または追加は、書面によりかつあなたとMetaの双方の権限ある代表者が署名した場合にのみ拘束力を有します。
FAIR許容使用ポリシー
MetaのFundamental AI Research(FAIR)チームは、人工知能の最先端技術を進歩させるためのオープンな研究を通じて、新規および既存の研究領域の理解を深めることを使命としています。
この使命の一環として、Metaは非営利研究用途向けに特定の研究資料を提供しています。Metaは、そのような研究資料の安全かつ責任ある使用を促進することを約束します。
禁止される使用
あなたは、研究資料を以下の目的で使用または他者に使用させないことに同意するものとします:
法律または他者の権利を侵害する行為、以下を含む:
違法または不法な活動またはコンテンツに関与、促進、生成、貢献、奨励、計画、扇動、または助長すること、以下を含む:
暴力またはテロリズム
子供の搾取または危害、児童性的虐待コンテンツの勧誘、作成、取得、または頒布、または児童性的虐待資料の報告の不履行
人身売買、搾取、および性的暴力
未成年者への情報または資料の違法な配布、わいせつ資料を含む、またはそのような情報または資料に関連して法的に必要な年齢制限を実施しないこと
性的勧誘
その他の犯罪行為
個人または個人のグループに対する嫌がらせ、虐待、脅迫、またはいじめに関与、促進、扇動、または助長すること
雇用、雇用福利厚生、信用、住宅、その他の経済的利益、またはその他の必須の財およびサービスの提供において、差別またはその他の違法または有害な行為に関与、促進、扇動、または助長すること
金融、法律、医療/健康、または関連する専門職を含むがこれに限られない、いかなる専門職の無許可または無免許の実践に関与すること
適用される法律で要求される権利および同意なしに、個人の健康、人口統計、またはその他の機密個人情報を収集、処理、開示、生成、または推測すること
第三者の権利を侵害、盗用、またはその他の方法で侵害する行為またはコンテンツの生成に関与または助長すること、FAIR研究資料を使用した技術の出力または結果を含む
悪意のあるコード、マルウェア、コンピュータウイルスの作成、生成、または助長、またはウェブサイトまたはコンピュータシステムの適切な動作、完全性、操作、または外観を無効化、過負荷、干渉、または損なう行為
- 個人の死亡または身体的危害のリスクを伴う活動の計画または開発に関与、促進、扇動、または支援すること、以下に関連する研究成果の使用を含む:
軍事、戦争、核産業または用途、スパイ活動、米国国務省が管理する国際武器取引規則(ITAR)の対象となる資料または活動
銃器および違法な武器(武器開発を含む)
違法薬物および規制/管理物質
重要インフラ、輸送技術、または重機の操作
自傷行為または他者への危害、自殺、自傷、摂食障害を含む
個人に対する暴力、虐待、または身体的危害を扇動または促進することを意図したコンテンツ
- 他者を故意に欺くまたは誤解させる行為、以下に関連するFAIR研究資料の使用を含む:
詐欺または虚偽情報の作成または促進を生成、促進、または助長すること
誹謗中傷コンテンツを生成、促進、または助長すること、誹謗中傷の声明、画像、またはその他のコンテンツの作成を含む
スパムを生成、促進、または配布すること
同意、許可、または法的権利なしに他者を偽装すること
FAIR研究資料の出力またはFAIR研究資料を使用した技術の出力が人間によって生成されたものであると表示すること
偽のオンライン関与を生成または助長すること、偽のレビューおよびその他の偽のオンライン関与の手段を含む
- 研究資料の既知の危険性をエンドユーザーに適切に開示しないこと。
本ポリシーの違反または本ポリシーの違反につながる可能性のある問題を報告する場合は、[https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform]から報告を提出してください。
extra_gated_fields: 名: text 姓: text 生年月日: date_picker 国: country 所属: text 職位: type: select options: - 学生 - 研究大学院生 - AI研究者 - AI開発者/エンジニア - レポーター - その他 geo: ip_location 下記の「送信」をクリックすることで、ライセンス条件に同意し、提供した情報がMetaプライバシーポリシーに従って収集、保存、処理、共有されることを承諾します: checkbox extra_gated_description: >- 提供いただいた情報は、Metaプライバシーポリシーに従って収集、保存、処理、共有されます。 extra_gated_button_content: 送信 extra_gated_heading: >- 完全な法定名、生年月日、およびすべての企業識別子を含む完全な組織名を必ずご提供ください。頭字語や特殊文字の使用は避けてください。これらの指示に従わない場合、Hugging Faceでこのモデルや他のモデルにアクセスできなくなる可能性があります。送信後はこのフォームを編集できませんので、すべての情報が正確であることを確認してください。 license: other license_name: fair-noncommercial-research pipeline_tag: image-text-to-text library_name: perception-encoder
モデル詳細
Perception Language Model(PLM)は、画像および動画理解の透明な研究のための最先端の完全オープンで再現可能なMLLMです。"PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding"で紹介されました。
モデル概要: PLMは、小規模(<80億パラメータ)のLLMデコーダーを備えたビジョンエンコーダーで構成されています。私たちは、独自のモデル蒸留なしで利用可能なデータを用いた標準的なトレーニングパイプラインの分析から始め、大規模な合成データを調査し、特に時空間推論と細粒度理解タスクにおける動画理解性能を制限する重要なデータギャップを特定するためのスケーリング則を確立しました。これらのギャップを埋めるために、280万の高品質な人間によるラベル付きデータを作成しました。このリリースは、既存の最大の動画データセットよりもほぼ1桁大きい規模です。

トレーニングおよび評価コードはperception_modelsコードベースで提供しています。詳細はGitHubリポジトリをご覧ください。
リソース | 説明 | ドキュメント |
---|---|---|
評価 | lmms-evalを使用したPLMの評価 | docs/evaluation.md |
トレーニング/ファインチューニング | PLMのトレーニングおよびファインチューニング手順 | docs/training.md |
PLM-VideoBench | lmms-evalを使用したPLM-VideoBenchの評価 | docs/plm_videobench.md |
エンドツーエンドファインチューニング例 | 放射線画像でのエンドツーエンドファインチューニング例 | docs/finetune_example.md |
応答生成 | 訓練済みモデルを使用したgenerate.py による応答生成 |
generate.py |
PLM画像ベンチマーク結果
モデル | DocVQA | ChartQA | TextVQA | InfoQA | AI2D | OCRBench | COCO | Nocap | Flickr | MMMU | VQAv2 | OKVQA | VizWiz | MME | SEED | BLINK | CVBench | RealWorldQA | VSR | POPE |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 90.7 | 78.6 | 82.1 | 63.0 | 84.9 | 807 | 138.6 | 124.2 | 100.5 | 34.8 | 81.7 | 61.0 | 59.7 | 1603 | 76.3 | 46.8 | 73.8 | 67.1 | 68.8 | 88.4 |
PLM3B | 93.8 | 84.3 | 84.3 | 74.6 | 90.9 | 830 | 144.9 | 126.5 | 98.0 | 41.2 | 84.3 | 66.8 | 64.0 | 1879 | 78.5 | 55.4 | 81.4 | 72.4 | 80.4 | 88.7 |
PLM8B | 94.6 | 85.5 | 86.5 | 80.9 | 92.7 | 870 | 146.7 | 129.9 | 105.6 | 46.1 | 85.6 | 69.6 | 67.0 | 1989 | 79.3 | 56.0 | 81.3 | 75.0 | 82.8 | 89.9 |
PLM動画ベンチマーク結果
モデル | VATEX | DREAM 1K | How2QA | MVBench | NExTQA | PerceptionTest (test) | STAR | TVQA | VideoMME | TVBench | ActivityNetQA | EgoSchema (test) | TemporalBench | TOMATO | MotionBench (dev) | TempCompass (MCQ) | CGBench (clue) | Charades STA | VideoHallucer | Halluc. EventHallusion |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 92.5 | 34.3 | 86.4 | 70.1 | 80.3 | 72.7 | 83.7 | 50.3 | 49.2 | 50.4 | 62.5 | 60.4 | 18.2 | 25.5 | 52.2 | 64.6 | 43.6 | 55.2 | 49.2 | 79.5 |
PLM3B | 96.1 | 37.4 | 89.4 | 74.7 | 83.4 | 79.3 | 84.8 | 55.3 | 54.9 | 58.9 | 66.2 | 66.9 | 23.4 | 30.9 | 60.4 | 69.3 | 47.2 | 57.7 | 55.5 | 76.5 |
PLM8B | 99.7 | 35.9 | 90.7 | 77.1 | 84.1 | 82.7 | 84.9 | 59.3 | 58.3 | 63.5 | 67.3 | 68.8 | 28.3 | 33.2 | 61.4 | 72.7 | 46.4 | 58.6 | 57.7 | 77.3 |
引用
私たちのコードが研究に役立った場合は、以下の引用を検討してください:
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}



