モデル概要
モデル特徴
モデル能力
使用事例
language:
-
en
-
de
-
fr
-
it
-
pt
-
hi
-
es
-
th library_name: transformers pipeline_tag: text-generation tags:
-
facebook
-
meta
-
pytorch
-
llama
-
llama-3 license: llama3.2 extra_gated_prompt: >-
LLAMA 3.2 コミュニティライセンス契約
Llama 3.2 バージョンリリース日: 2024年9月25日
「本契約」とは、Llama素材の使用、複製、頒布および改変に関する本契約に定める条件を意味します。
「ドキュメンテーション」とは、Metaがhttps://llama.meta.com/doc/overviewで配布するLlama 3.2に付随する仕様書、マニュアルおよびドキュメンテーションを意味します。
「ライセンシー」または「あなた」とは、適用される法律、規則または規制の下で法的同意を提供するために必要な年齢に達しており、あなたの雇用主またはその他の個人または団体(あなたがそのような個人または団体に代わって本契約を締結する場合)を法的に拘束する権限を有する、あなた、またはあなたの雇用主またはその他の個人または団体を意味します。
「Llama 3.2」とは、Metaがhttps://www.llama.com/llama-downloadsで配布する、機械学習モデルコード、学習済みモデル重み、推論を可能にするコード、学習を可能にするコード、ファインチューニングを可能にするコード、およびその他の要素を含む、基盤となる大規模言語モデルおよびソフトウェアとアルゴリズムを意味します。
「Llama素材」とは、本契約の下で利用可能となるMetaの専有物であるLlama 3.2およびドキュメンテーション(およびその一部)を総称して意味します。
「Meta」または「当社」とは、Meta Platforms Ireland Limited(あなたがEEAまたはスイスに所在している場合、または団体の場合、主たる事業所がEEAまたはスイスにある場合)およびMeta Platforms, Inc.(あなたがEEAまたはスイスの外に所在している場合)を意味します。
下記の「同意する」をクリックするか、Llama素材のいかなる部分または要素を使用または頒布することにより、あなたは本契約に拘束されることに同意するものとします。
- ライセンス権利および再頒布
a. 権利の付与。あなたは、Llama素材に具現化されたMetaの知的財産権またはその他の権利に基づき、Llama素材を使用、複製、頒布、コピー、派生著作物の作成、および改変を行うための、非独占的、世界的、譲渡不能かつロイヤリティフリーの限定ライセンスを付与されます。
b. 再頒布および使用
i. あなたがLlama素材(またはその派生著作物)、またはそれらを含む製品またはサービス(他のAIモデルを含む)を頒布または利用可能にする場合、あなたは(A)そのようなLlama素材に本契約のコピーを添付すること、および(B)関連するウェブサイト、ユーザーインターフェース、ブログ記事、アバウトページ、または製品ドキュメンテーションで「Built with Llama」を目立つように表示するものとします。あなたがLlama素材またはLlama素材の出力または結果を使用して、頒布または利用可能となるAIモデルを作成、学習、ファインチューニング、またはその他の方法で改善する場合、そのようなAIモデル名の冒頭に「Llama」を含めるものとします。
ii. あなたが統合されたエンドユーザー製品の一部としてライセンシーからLlama素材またはその派生著作物を受け取る場合、本契約の第2条はあなたには適用されません。
iii. あなたが頒布するLlama素材のすべてのコピーに、そのようなコピーの一部として頒布される「Notice」テキストファイル内に次の帰属表示を保持する必要があります:「Llama 3.2はLlama 3.2 Community Licenseの下でライセンスされており、著作権© Meta Platforms, Inc. 全著作権所有。」
iv. あなたのLlama素材の使用は、適用される法律および規制(貿易コンプライアンス法および規制を含む)に準拠し、Llama素材の許容可能な使用ポリシー(https://www.llama.com/llama3_2/use-policyで利用可能)を遵守する必要があります。このポリシーは本契約に引用により組み込まれます。
-
追加の商業的条件。Llama 3.2バージョンリリース日において、ライセンシーまたはライセンシーの関連会社によって提供される製品またはサービスの月間アクティブユーザーが前月の暦月において7億人を超える場合、あなたはMetaからライセンスを請求する必要があり、Metaはその単独の裁量であなたにライセンスを付与する場合があります。Metaが明示的にそのような権利を付与しない限り、あなたは本契約の下でのいかなる権利も行使する権限を有しません。
-
保証の免責。適用される法律で要求されない限り、Llama素材およびその出力または結果は「現状有姿」で提供され、いかなる種類の保証もなく、Metaは明示的または黙示的を問わず、所有権、非侵害、商品性、または特定の目的への適合性を含むいかなる種類の保証も否認します。あなたは、Llama素材の使用または再頒布の適切性を独自に判断し、Llama素材およびその出力または結果の使用に関連するいかなるリスクも負担するものとします。
-
責任の制限。いかなる場合でも、Metaまたはその関連会社は、契約、不法行為、過失、製品責任、またはその他のいかなる責任理論に基づいても、本契約から生じる逸失利益または間接的、特別、結果的、付随的、懲罰的または模範的損害について責任を負わず、Metaまたはその関連会社がそのような損害の可能性について通知を受けていた場合でも同様です。
-
知的財産
a. 本契約の下では商標ライセンスは付与されず、Llama素材に関連して、Metaもライセンシーも、Llama素材の説明および再頒布における合理的かつ慣習的な使用に必要な場合、または本第5条(a)に定める場合を除き、相手またはその関連会社が所有または関連するいかなる名称または商標も使用できません。Metaはここに、第1条b.iの最後の文を遵守するために必要な範囲でのみ「Llama」(「商標」)を使用するライセンスをあなたに付与します。あなたはMetaのブランドガイドライン(現在https://about.meta.com/brand/resources/meta/company-brand/でアクセス可能)に準拠するものとします。商標の使用から生じるすべての信用はMetaに帰属します。
b. MetaがLlama素材およびMetaまたはMetaのために作成された派生著作物を所有することに従い、あなたが作成したLlama素材の派生著作物および改変に関して、あなたとMetaの間では、あなたがそのような派生著作物および改変の所有者であり続けるものとします。
c. あなたが、Llama素材またはLlama 3.2の出力または結果、またはそのいずれかの一部が、あなたが所有またはライセンス可能な知的財産権またはその他の権利の侵害を構成すると主張して、Metaまたはいかなる団体(訴訟における交叉請求または反訴を含む)に対して訴訟またはその他の手続きを提起した場合、本契約の下であなたに付与されたすべてのライセンスは、そのような訴訟または請求が提起または開始された日をもって終了します。あなたは、Llama素材の使用または頒布から生じるまたは関連するいかなる第三者による請求からMetaを免責し、保護するものとします。
-
期間および終了。本契約の期間は、あなたが本契約を受け入れるかLlama素材にアクセスした時に開始され、本契約の条件に従って終了するまで完全な効力を有して継続します。Metaは、あなたが本契約のいかなる条件に違反した場合、本契約を終了することができます。本契約の終了時に、あなたはLlama素材の使用を停止し削除するものとします。第3条、第4条および第7条は、本契約の終了後も存続します。
-
準拠法および管轄。本契約は、カリフォルニア州の法律に準拠し、その解釈は法の選択の原則を考慮せずに行われ、国際物品売買契約に関する国連条約は本契約には適用されません。本契約から生じるいかなる紛争についても、カリフォルニア州の裁判所が専属的管轄権を有します。
Llama 3.2 許容可能な使用ポリシー
Metaは、Llama 3.2を含むそのツールおよび機能の安全かつ公正な使用を促進することを約束します。 Llama 3.2にアクセスまたは使用する場合、あなたはこの許容可能な使用ポリシー(「本ポリシー」)に同意するものとします。 本ポリシーの最新版はhttps://www.llama.com/llama3_2/use-policyで確認できます。
禁止される使用
私たちは、誰もがLlama 3.2を安全かつ責任を持って使用することを望んでいます。あなたは、Llama 3.2を以下の目的で使用したり、他の人に使用させたりしないことに同意するものとします:
- 法律または他人の権利を侵害するため、以下を含む:
- 以下のような違法または不法な活動またはコンテンツに関与、促進、生成、貢献、奨励、計画、扇動、または助長すること:
- 暴力またはテロリズム
- 子供の搾取または危害、児童性的虐待コンテンツの勧誘、作成、取得、または頒布、または児童性的虐待資料の報告の不履行
- 人身売買、搾取、および性的暴力
- 未成年者への情報または資料の違法な頒布、わいせつな資料を含む、またはそのような情報または資料に関連して法律で要求される年齢制限を実施しないこと
- 性的勧誘
- その他の犯罪行為
- 個人または個人のグループに対する嫌がらせ、虐待、脅迫、またはいじめに関与、促進、扇動、または助長すること
- 雇用、雇用福利厚生、信用、住宅、その他の経済的利益、またはその他の必須の商品およびサービスの提供において、差別またはその他の違法または有害な行為に関与、促進、扇動、または助長すること
- 金融、法律、医療/健康、または関連する専門職を含むがこれに限らない、いかなる専門職の無許可または無免許の実践に関与すること
- 個人の身元、健康、または人口統計情報を含む、個人に関する私的または機密情報を、適用される法律に従ってその権利を取得していない限り、収集、処理、開示、生成、または推論すること
- 第三者の権利を侵害、盗用、またはその他の方法で侵害するいかなる行為に関与または助長、またはLlama素材を使用した製品またはサービスの出力または結果を含むいかなるコンテンツを生成すること
- 悪意のあるコード、マルウェア、コンピュータウイルスを作成、生成、または助長、またはウェブサイトまたはコンピュータシステムの適切な動作、完全性、操作、または外観を無効化、過負荷、干渉、または損なういかなる行為を行うこと
- 使用制限またはその他の安全対策を意図的に回避または削除する、またはMetaによって無効化された機能を有効にするいかなる行為に関与または助長すること
- 以下のような違法または不法な活動またはコンテンツに関与、促進、生成、貢献、奨励、計画、扇動、または助長すること:
- 個人に死亡または身体的危害のリスクをもたらす活動の計画または開発に関与、促進、扇動、助長、または支援すること、Llama 3.2に関連して以下を含む: 8. 軍事、戦争、核産業または用途、スパイ活動、米国国務省が維持する国際武器取引規則(ITAR)または1989年の米国生物兵器テロ防止法または1997年の化学兵器禁止条約実施法の対象となる資料または活動 9. 銃および違法な武器(武器開発を含む) 10. 違法な薬物および規制/管理された物質 11. 重要インフラ、輸送技術、または重機の操作 12. 自傷行為または他人への危害、自殺、自傷、摂食障害を含む 13. 個人に対する暴力、虐待、またはいかなる身体的危害を扇動または促進することを意図したコンテンツ
- 他人を故意に欺くまたは誤解させること、Llama 3.2に関連して以下を含む: 14. 詐欺または虚偽情報の作成または促進を生成、促進、または助長すること 15. 中傷的なコンテンツ、中傷的な声明、画像、またはその他のコンテンツの作成を生成、促進、または助長すること 16. スパムを生成、促進、または頒布すること 17. 同意、許可、または法的権利なしに他人を偽装すること 18. Llama 3.2またはその出力が人間によって生成されたものであると表示すること 19. 偽のオンライン関与、偽のレビューおよびその他の偽のオンライン関与の手段を含む、偽のオンライン関与を生成または助長すること
- あなたのAIシステムの既知の危険性をエンドユーザーに適切に開示しないこと
- 違法なコンテンツを生成する、または違法または有害な行為に関与するように設計された第三者ツール、モデル、またはソフトウェアと相互作用し、そのようなツール、モデル、またはソフトウェアの出力がMetaまたはLlama 3.2に関連していると表示すること
Llama 3.2に含まれるマルチモーダルモデルに関しては、欧州連合に居住する個人、または主たる事業所が欧州連合にある会社の場合、Llama 3.2 Community License Agreementの第1条(a)に基づく権利は付与されません。この制限は、そのようなマルチモーダルモデルを組み込んだ製品またはサービスのエンドユーザーには適用されません。
本ポリシーの違反、ソフトウェアの「バグ」、または本ポリシーの違反につながる可能性のあるその他の問題を以下のいずれかの方法で報告してください:
-
モデルに関する問題の報告: https://github.com/meta-llama/llama-models/issues
-
モデルによって生成されたリスクのあるコンテンツの報告: developers.facebook.com/llama_output_feedback
-
バグおよびセキュリティ上の懸念の報告: facebook.com/whitehat/info
-
許容可能な使用ポリシーの違反またはLlama 3.2の無許可使用の報告: LlamaUseReport@meta.com extra_gated_fields: 名: text 姓: text 生年月日: date_picker 国: country 所属: text 職種: type: select options:
- 学生
- 大学院研究者
- AI研究者
- AI開発者/エンジニア
- 記者
- その他 geo: ip_location 下記の「送信」をクリックすることで、ライセンスの条件に同意し、提供する情報がMetaプライバシーポリシーに従って収集、保存、処理、共有されることを承認します: checkbox extra_gated_description: >- 提供いただく情報は、Metaプライバシーポリシーに従って収集、保存、処理、共有されます。 extra_gated_button_content: 送信
モデル情報
Llama 3.2の多言語大規模言語モデル(LLM)コレクションは、1Bおよび3Bサイズ(テキスト入力/テキスト出力)の事前学習済みおよび命令調整済み生成モデルのコレクションです。Llama 3.2の命令調整済みテキストのみのモデルは、エージェント的な検索や要約タスクを含む多言語対話ユースケースに最適化されています。これらは、一般的な業界ベンチマークで利用可能な多くのオープンソースおよびクローズドチャットモデルを凌駕しています。
モデル開発者: Meta
モデルアーキテクチャ: Llama 3.2は、最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。調整済みバージョンは、教師ありファインチューニング(SFT)および人間のフィードバックによる強化学習(RLHF)を使用して、人間の嗜好に合わせて有用性と安全性を調整しています。
学習データ | パラメータ | 入力モダリティ | 出力モダリティ | コンテキスト長 | GQA | 共有埋め込み | トークン数 | 知識カットオフ | |
---|---|---|---|---|---|---|---|---|---|
Llama 3.2 (テキストのみ) | 新たに混合された公開利用可能なオンラインデータ | 1B (1.23B) | 多言語テキスト | 多言語テキストおよびコード | 128k | はい | はい | 最大9Tトークン | 2023年12月 |
3B (3.21B) | 多言語テキスト | 多言語テキストおよびコード | |||||||
Llama 3.2 量子化 (テキストのみ) | 新たに混合された公開利用可能なオンラインデータ | 1B (1.23B) | 多言語テキスト | 多言語テキストおよびコード | 8k | はい | はい | 最大9Tトークン | 2023年12月 |
3B (3.21B) | 多言語テキスト | 多言語テキストおよびコード |
サポート言語: 英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語が正式にサポートされています。Llama 3.2は、これら8つのサポート言語よりも広範な言語で学習されています。開発者は、Llama 3.2 Community Licenseおよび許容可能な使用ポリシーに準拠する限り、これらのサポート言語を超える言語に対してLlama 3.2モデルをファインチューニングすることができます。開発者は常に、追加の言語を含む展開が安全かつ責任を持って行われることを確保することが期待されます。
Llama 3.2モデルファミリー: トークン数は事前学習データのみを指します。すべてのモデルバージョンは、推論スケーラビリティを改善するためにグループ化クエリ注意(GQA)を使用しています。
モデルリリース日: 2024年9月25日
ステータス: これはオフラインデータセットで学習された静的モデルです。モデル能力と安全性を改善する将来のバージョンがリリースされる可能性があります。
ライセンス: Llama 3.2の使用は、Llama 3.2 Community License(カスタムの商用ライセンス契約)によって管理されます。
フィードバック: モデルに関するフィードバックまたはコメントを提供する方法の指示は、Llama Models READMEに記載されています。Llama 3.2をアプリケーションで使用するための生成パラメータやレシピに関するより技術的な情報については、こちらを参照してください。
意図された使用
意図された使用例: Llama 3.2は、複数の言語での商業および研究用途を意図しています。命令調整済みテキストのみのモデルは、アシスタントのようなチャットや知識検索や要約などのエージェント的なアプリケーション、モバイルAI搭載のライティングアシスタント、クエリおよびプロンプトの書き換えに適しています。事前学習済みモデルは、さまざまな自然言語生成タスクに適応させることができます。同様に、量子化モデルは、限られた計算リソースを持つオンデバイスユースケースに適応させることができます。
範囲外: 適用される法律または規制(貿易コンプライアンス法を含む)に違反するいかなる方法での使用。許容可能な使用ポリシーおよびLlama 3.2 Community Licenseで禁止されているいかなる他の方法での使用。このモデルカードで明示的に参照されているサポート言語を超える言語での使用。
使用方法
このリポジトリには、transformersおよび元のllama
コードベースで使用するためのLlama-3.2-1Bの2つのバージョンが含まれています。
transformersでの使用
transformers >= 4.43.0以降では、Transformersパイプライン抽象化を使用するか、Autoクラスをgenerate()関数と共に使用して会話型推論を実行できます。
pip install --upgrade transformersでtransformersのインストールを更新してください。
import torch
from transformers import pipeline
model_id = "meta-llama/Llama-3.2-1B"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("The key to life is")
llama
での使用
リポジトリの指示に従ってください。
オリジナルのチェックポイントをダウンロードするには、huggingface-cli
を使用した以下の例のコマンドを参照してください:
huggingface-cli download meta-llama/Llama-3.2-1B --include "original/*" --local-dir Llama-3.2-1B
ハードウェアとソフトウェア
学習要因: 事前学習には、カスタム学習ライブラリ、Metaの独自構築GPUクラスター、および本番インフラを使用しました。ファインチューニング、量子化、アノテーション、および評価も本番インフラで実行されました。
学習エネルギー使用量: 学習には、以下の表に示すように、H100-80GB(TDP 700W)タイプのハードウェアで累計916k GPU時間の計算が使用されました。学習時間は各モデルの学習に必要な総GPU時間であり、電力消費は使用されたGPUデバイスごとのピーク電力容量で、電力使用効率に調整されています。
学習温室効果ガス排出量: 学習における場所ベースの温室効果ガス排出量の推定総量は240トンCO2eqでした。2020年以降、Metaはグローバル事業においてネットゼロの温室効果ガス排出を維持し、電力使用の100%を再生可能エネルギーで賄っているため、学習における市場ベースの温室効果ガス排出量は0トンCO2eqでした。
学習時間(GPU時間) | ロジット生成時間(GPU時間) | 学習電力消費(W) | 学習場所ベース温室効果ガス排出量(トンCO2eq) | 学習市場ベース温室効果ガス排出量(トンCO2eq) | |
---|---|---|---|---|---|
Llama 3.2 1B | 370k | - | 700 | 107 | 0 |
Llama 3.2 3B | 460k | - | 700 | 133 | 0 |
Llama 3.2 1B SpinQuant | 1.7 | 0 | 700 | 無視可能** | 0 |
Llama 3.2 3B SpinQuant | 2.4 | 0 | 700 | 無視可能** | 0 |
Llama 3.2 1B QLora | 1.3k | 0 | 700 | 0.381 | 0 |
Llama 3.2 3B QLora | 1.6k | 0 | 700 | 0.461 | 0 |
合計 | 833k | 86k | 240 | 0 |
** Llama 3.2 1B SpinQuantおよびLlama 3.2 3B SpinQuantの場所ベースCO2e排出量は、それぞれ0.001メートルトン未満です。これは、必要な学習GPU時間が最小限であるためです。
学習エネルギー使用量および温室効果ガス排出量を決定するために使用された方法論はこちらで確認できます。Metaがこれらのモデルを公開しているため、学習エネルギー使用量および温室効果ガス排出量は他の人々によって発生しません。
学習データ
概要: Llama 3.2は、公開利用可能なソースから最大9兆トークンのデータで事前学習されました。1Bおよび3B Llama 3.2モデルでは、Llama 3.1 8Bおよび70Bモデルからのロジットをモデル開発の事前学習段階に組み込み、これらの大規模モデルからの出力(ロジット)がトークンレベルのターゲットとして使用されました。知識蒸留は、プルーニング後の性能回復に使用されました。学習後には、Llama 3.1と同様のレシピを使用し、事前学習済みモデルの上にいくつかのラウンドのアライメントを行うことで最終的なチャットモデルを生成しました。各ラウンドには、教師ありファインチューニング(SFT)、拒否サンプリング(RS)、および直接選好最適化(DPO)が含まれました。
データの新鮮さ: 事前学習データのカットオフは2023年12月です。
量子化
量子化スキーム
現在の量子化スキームは、PyTorchのExecuTorch推論フレームワークおよびArm CPUバックエンドを念頭に設計され、モデル品質、プレフィル/デコード速度、メモリフットプリントなどのメトリクスを考慮しています。私たちの量子化スキームは、以下の3つの部分で構成されます:
- すべてのトランスフォーマーブロックのすべての線形層は、重みに対して4ビットのグループワイズスキーム(グループサイズ32)およびアクティベーションに対して8ビットのパートークン動的量子化に量子化されます。
- 分類層は、重みに対して8ビットのパーチャネル量子化およびアクティベーションに対して8ビットのパートークン動的量子化に量子化されます。
- 分類層と同様に、埋め込み層には8ビットのパーチャネル量子化が使用されます。
量子化対応学習とLoRA
量子化対応学習(QAT)と低ランク適応(LoRA)モデルは、完全精度モデルと同じデータを使用して学習後段階のみを経ました。QATを初期化するために、教師ありファインチューニング(SFT)後に取得したBF16 Llama 3.2モデルチェックポイントを使用し、QATを使用して追加の完全なSFT学習ラウンドを実行します。次に、QATモデルのバックボーンを凍結し、トランスフォーマーブロック内のすべての層にLoRAアダプターを適用して別のSFTラウンドを実行します。一方、LoRAアダプターの重みとアクティベーションはBF16で維持されます。私たちのアプローチはDettmersら(2023)のQLoRA(量子化後にLoRAアダプターを適用)と類似しているため、この方法をQLoRAと呼びます。最後に、結果のモデル(バックボーンとLoRAアダプターの両方)を直接選好最適化(DPO)を使用してファインチューニングします。
SpinQuant
SpinQuantが、生成的事後学習量子化(GPTQ)と共に適用されました。SpinQuant回転行列ファインチューニングでは、WikiText 2データセットからシーケンス長2048の800サンプルを使用して100回の反復を最適化しました。GPTQには、同じデータセットから同じシーケンス長の128サンプルを使用しました。
ベンチマーク - 英語テキスト
このセクションでは、標準的な自動ベンチマークにおけるLlama 3.2モデルの結果を報告します。これらの評価すべてに、私たちの内部評価ライブラリを使用しました。
ベース事前学習モデル
カテゴリ | ベンチマーク | # ショット | メトリック | Llama 3.2 1B | Llama 3.2 3B | Llama 3.1 8B |
---|---|---|---|---|---|---|
一般 | MMLU | 5 | macro_avg/acc_char | 32.2 | 58 | 66.7 |
AGIEval 英語 | 3-5 | average/acc_char | 23.3 | 39.2 | 47.8 | |
ARC-Challenge | 25 | acc_char | 32.8 | 69.1 | 79.7 | |
読解 | SQuAD | 1 | em | 49.2 | 67.7 | 77 |
QuAC (F1) | 1 | f1 | 37.9 | 42.9 | 44.9 | |
DROP (F1) | 3 | f1 | 28.0 | 45.2 | 59.5 | |
長文コンテキスト | Needle in Haystack | 0 | em | 96.8 | 1 | 1 |
命令調整モデル
能力 | ベンチマーク | # ショット | メトリック | Llama 3.2 1B bf16 | Llama 3.2 1B Vanilla PTQ** | Llama 3.2 1B Spin Quant | Llama 3.2 1B QLoRA | Llama 3.2 3B bf16 | Llama 3.2 3B Vanilla PTQ** | Llama 3.2 3B Spin Quant | Llama 3.2 3B QLoRA | Llama 3.1 8B | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
一般 | MMLU | 5 | macro_avg/acc | 49.3 | 43.3 | 47.3 | 49.0 | 63.4 | 60.5 | 62 | 62.4 | 69.4 | |
書き換え | Open-rewrite eval | 0 | micro_avg/rougeL | 41.6 | 39.2 | 40.9 | 41.2 | 40.1 | 40.3 | 40.8 | 40.7 | 40.9 | |
要約 | TLDR9+ (テスト) | 1 | rougeL | 16.8 | 14.9 | 16.7 | 16.8 | 19.0 | 19.1 | 19.2 | 19.1 | 17.2 | |
命令追従 | IFEval | 0 | Avg(Prompt/Instruction acc Loose/Strict) | 59.5 | 51.5 | 58.4 | 55.6 | 77.4 | 73.9 | 73.5 | 75.9 | 80.4 | |
数学 | GSM8K (CoT) | 8 | em_maj1@1 | 44.4 | 33.1 | 40.6 | 46.5 | 77.7 | 72.9 | 75.7 | 77.9 | 84.5 | |



