🚀 GLM-4-9B
GLM-4-9Bは、智譜AIが発表した最新世代の事前学習モデルGLM-4シリーズのオープンソース版です。このモデルは、意味論、数学、推論、コード、知識などの多様なデータセット評価において、GLM-4-9B とその人間嗜好に沿ったバージョンである GLM-4-9B-Chat が、Llama-3-8Bを上回る卓越した性能を発揮します。GLM-4-9B-Chatは、多輪対話に加え、ウェブブラウジング、コード実行、カスタムツール呼び出し(Function Call)、長文推論(最大128Kのコンテキストをサポート)などの高度な機能も備えています。この世代のモデルは多言語サポートを強化し、日本語、韓国語、ドイツ語を含む26の言語をサポートしています。また、1Mのコンテキスト長(約200万字の中国語文字)をサポートする GLM-4-9B-Chat-1M モデルと、GLM-4-9BをベースとしたマルチモーダルモデルGLM-4V-9Bも発表しています。GLM-4V-9B は、1120 * 1120の高解像度での中英バイリンガルの多輪対話能力を備え、中英の総合能力、知覚推論、文字認識、グラフ理解などの多様なマルチモーダル評価において、GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max、Claude 3 Opusを上回る卓越した性能を発揮します。
このREADMEは英語版もあります。
⚠️ 重要提示
2024年8月12日現在、このリポジトリのコードは更新され、transformers>=4.44.0
を使用するようになっています。依存関係を更新してください。
💡 使用建议
このリポジトリはGLM-4-9Bのベースバージョンで、8K
のコンテキスト長をサポートしています。
🚀 クイックスタート
GLM-4-9Bのベースモデルをいくつかの典型的なタスクで評価した結果は以下の通りです。
モデル |
MMLU |
C-Eval |
GPQA |
GSM8K |
MATH |
HumanEval |
Llama-3-8B |
66.6 |
51.2 |
- |
45.8 |
- |
- |
Llama-3-8B-Instruct |
68.4 |
51.3 |
34.2 |
79.6 |
30.0 |
62.2 |
ChatGLM3-6B-Base |
61.4 |
69.0 |
- |
72.3 |
25.7 |
- |
GLM-4-9B |
74.7 |
77.1 |
34.3 |
84.0 |
30.4 |
70.1 |
より多くの推論コードと依存関係の情報については、github をご覧ください。
📄 ライセンス
GLM-4モデルの重みの使用は、LICENSE に従う必要があります。
📚 ドキュメント
引用
このモデルが役に立った場合は、以下の論文を引用していただけると幸いです。
@misc{glm2024chatglm,
title={ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools},
author={Team GLM and Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang and Jiale Cheng and Jiayi Gui and Jie Tang and Jing Zhang and Juanzi Li and Lei Zhao and Lindong Wu and Lucen Zhong and Mingdao Liu and Minlie Huang and Peng Zhang and Qinkai Zheng and Rui Lu and Shuaiqi Duan and Shudan Zhang and Shulin Cao and Shuxun Yang and Weng Lam Tam and Wenyi Zhao and Xiao Liu and Xiao Xia and Xiaohan Zhang and Xiaotao Gu and Xin Lv and Xinghan Liu and Xinyi Liu and Xinyue Yang and Xixuan Song and Xunkai Zhang and Yifan An and Yifan Xu and Yilin Niu and Yuantao Yang and Yueyan Li and Yushi Bai and Yuxiao Dong and Zehan Qi and Zhaoyu Wang and Zhen Yang and Zhengxiao Du and Zhenyu Hou and Zihan Wang},
year={2024},
eprint={2406.12793},
archivePrefix={arXiv},
primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'}
}