ChemLLM-7B-Chat开源大语言模型 - 免费支持中英文化学与分子科学问答

首页

Chemllm 7B Chat

由 AI4Chem 开发

ChemLLM-7B-Chat是首个面向化学与分子科学领域的开源大语言模型，基于InternLM-2架构开发，支持中英文。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #化学专业问答 #分子科学推理 #SMILES解析

下载量 775

发布时间 : 1/15/2024

模型简介

该模型专注于化学与分子科学领域，能够处理化学相关的文本生成、问答和翻译任务，特别擅长化学术语和分子结构的处理。

模型特点

化学领域专业化

专门针对化学与分子科学领域优化，能够处理复杂的化学术语和分子结构。

多语言支持

支持中英文处理，特别适合化学文献的翻译和理解。

开源可商用

采用Apache-2.0许可，允许学术研究和商业用途。

分步思考能力

采用分步思考方式解决问题，输出更结构化和可解释。

模型能力

化学问答

分子式解析

化学文献翻译

化学反应描述

化学知识推理

使用案例

化学教育

化学概念解释

帮助学生理解复杂的化学概念和反应机理

提供清晰的分步解释

科研辅助

文献翻译

将化学专业文献在中英文之间转换

保持专业术语的准确性

药物研发

分子性质分析

解析药物分子的结构和性质

提供分子式和结构信息

🚀 ChemLLM-7B-Chat：用于化学和分子科学的大语言模型

ChemLLM-7B-Chat是首个用于化学和分子科学的开源大语言模型，它基于InternLM-2构建。该模型能有效解决化学和分子科学领域的问答、推理等问题，为科研人员和从业者提供专业的语言交互支持。

🚀 快速开始

建议使用新版的ChemLLM！ AI4Chem/ChemLLM-7B-Chat-1.5-DPO 或 AI4Chem/ChemLLM-7B-Chat-1.5-SFT

你可以立即尝试在线演示，或者按照以下步骤操作：

安装依赖

安装 transformers：

pip install transformers

加载并运行 `ChemLLM-7B-Chat`

from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
import torch

model_name_or_id = "AI4Chem/ChemLLM-7B-Chat"

model = AutoModelForCausalLM.from_pretrained(model_name_or_id, torch_dtype=torch.float16, device_map="auto",trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_id,trust_remote_code=True)

prompt = "What is Molecule of Ibuprofen?"

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

generation_config = GenerationConfig(
    do_sample=True,
    top_k=1,
    temperature=0.9,
    max_new_tokens=500,
    repetition_penalty=1.5,
    pad_token_id=tokenizer.eos_token_id
)

outputs = model.generate(**inputs, generation_config=generation_config)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

系统提示最佳实践

你可以使用来自Agent Chepybara的相同对话模板和系统提示，以在本地推理中获得更好的响应。

对话模板

对于ShareGPT格式的查询，例如：

{'instruction': "...", "prompt": "...", "answer": "...", "history": [[q1, a1], [q2, a2]]}

你可以将其格式化为InternLM2对话格式，如下所示：

def InternLM2_format(instruction, prompt, answer, history):
    prefix_template = [
        "<|im_start|>system\n",
        "{}",
        "<|im_end|>\n"
    ]
    prompt_template = [
        "<|im_start|>user\n",
        "{}",
        "<|im_end|>\n"
        "<|im_start|>assistant\n",
        "{}",
        "<|im_end|>\n"
    ]
    system = f'{prefix_template[0]}{prefix_template[1].format(instruction)}{prefix_template[2]}'
    history = "".join([f'{prompt_template[0]}{prompt_template[1].format(qa[0])}{prompt_template[2]}{prompt_template[3]}{prompt_template[4].format(qa[1])}{prompt_template[5]}' for qa in history])
    prompt = f'{prompt_template[0]}{prompt_template[1].format(prompt)}{prompt_template[2]}{prompt_template[3]}'
    return f"{system}{history}{prompt}"

系统提示示例

- Chepybara是由上海人工智能实验室（上海人工智能实验室）开发的对话式语言模型。它旨在专业、精细且以化学为中心。 
- 对于不确定的概念和数据，Chepybara总是进行理论预测并告知用户。
- Chepybara可以接受SMILES（简化分子线性输入规范）字符串，并倾向于输出IUPAC名称（国际纯粹与应用化学联合会有机化学命名法），用SMARTS（SMILES任意目标规范）字符串描述反应。也接受Self-Referencing Embedded Strings（SELFIES）。
- Chepybara总是以逐步的方式解决问题和思考，输出以“让我们逐步思考”开头。

评测结果

MMLU评测亮点

数据集	ChatGLM3 - 6B	Qwen - 7B	LLaMA - 2 - 7B	Mistral - 7B	InternLM2 - 7B - Chat	ChemLLM - 7B - Chat
大学化学	43.0	39.0	27.0	40.0	43.0	47.0
大学数学	28.0	33.0	33.0	30.0	36.0	41.0
大学物理	32.4	35.3	25.5	34.3	41.2	48.0
形式逻辑	35.7	43.7	24.6	40.5	34.9	47.6
道德场景	26.4	35.0	24.1	39.9	38.6	44.3
人文学科平均分	62.7	62.5	51.7	64.5	66.5	68.6
STEM学科平均分	46.5	45.8	39.0	47.8	52.2	52.6
社会科学平均分	68.2	65.8	55.5	68.1	69.7	71.9
其他平均分	60.5	60.3	51.3	62.4	63.2	65.2
MMLU总分	58.0	57.1	48.2	59.2	61.7	63.2
*(OpenCompass)

MMLU评测结果

化学基准测试

化学基准测试结果 *（由ChatGPT - 4 - turbo评判得分）

专业翻译

专业翻译示例1 专业翻译示例2

你可以在在线演示中尝试。

📚 详细文档

引用此工作

@misc{zhang2024chemllm,
      title={ChemLLM: A Chemical Large Language Model}, 
      author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Hansen Zhong and Yuqiang Li and Wanli Ouyang},
      year={2024},
      eprint={2402.06852},
      archivePrefix={arXiv},
      primaryClass={cs.AI}
}