🚀 GLM-4-9B
GLM-4-9B 是智譜 AI 推出的最新一代預訓練模型,在語義、數學、推理、代碼和知識等多方面表現卓越,還具備多語言支持和高級功能。
🚀 快速開始
2024/08/12,本倉庫代碼已更新並使用 transformers>=4.44.0
,請及時更新依賴。
GLM-4-9B 是智譜 AI 推出的最新一代預訓練模型 GLM-4 系列中的開源版本。在語義、數學、推理、代碼和知識等多方面的數據集測評中,GLM-4-9B 及其人類偏好對齊的版本 GLM-4-9B-Chat 均表現出超越 Llama-3-8B 的卓越性能。除了能進行多輪對話,GLM-4-9B-Chat 還具備網頁瀏覽、代碼執行、自定義工具調用(Function Call)和長文本推理(支持最大 128K 上下文)等高級功能。本代模型增加了多語言支持,支持包括日語、韓語、德語在內的 26 種語言。我們還推出了支持 1M 上下文長度(約 200 萬中文字符)的 GLM-4-9B-Chat-1M 模型和基於 GLM-4-9B 的多模態模型 GLM-4V-9B。GLM-4V-9B 具備 1120 * 1120 高分辨率下的中英雙語多輪對話能力,在中英文綜合能力、感知推理、文字識別、圖表理解等多方面多模態評測中,GLM-4V-9B 表現出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
我們在一些典型任務上對 GLM-4-9B 基座模型進行了評測,結果如下:
Model |
MMLU |
C-Eval |
GPQA |
GSM8K |
MATH |
HumanEval |
Llama-3-8B |
66.6 |
51.2 |
- |
45.8 |
- |
- |
Llama-3-8B-Instruct |
68.4 |
51.3 |
34.2 |
79.6 |
30.0 |
62.2 |
ChatGLM3-6B-Base |
61.4 |
69.0 |
- |
72.3 |
25.7 |
- |
GLM-4-9B |
74.7 |
77.1 |
34.3 |
84.0 |
30.4 |
70.1 |
更多推理代碼和依賴信息,請訪問我們的 github 。
⚠️ 重要提示
本倉庫是 GLM-4-9B 的基座版本,支持8K
上下文長度。
📄 許可證
GLM-4 模型的權重的使用則需要遵循 LICENSE。
📚 詳細文檔
如果你覺得我們的工作有幫助的話,請考慮引用下列論文。
@misc{glm2024chatglm,
title={ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools},
author={Team GLM and Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang and Jiale Cheng and Jiayi Gui and Jie Tang and Jing Zhang and Juanzi Li and Lei Zhao and Lindong Wu and Lucen Zhong and Mingdao Liu and Minlie Huang and Peng Zhang and Qinkai Zheng and Rui Lu and Shuaiqi Duan and Shudan Zhang and Shulin Cao and Shuxun Yang and Weng Lam Tam and Wenyi Zhao and Xiao Liu and Xiao Xia and Xiaohan Zhang and Xiaotao Gu and Xin Lv and Xinghan Liu and Xinyi Liu and Xinyue Yang and Xixuan Song and Xunkai Zhang and Yifan An and Yifan Xu and Yilin Niu and Yuantao Yang and Yueyan Li and Yushi Bai and Yuxiao Dong and Zehan Qi and Zhaoyu Wang and Zhen Yang and Zhengxiao Du and Zhenyu Hou and Zihan Wang},
year={2024},
eprint={2406.12793},
archivePrefix={arXiv},
primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'}
}