BELLE 7B 2M
BELLE是基于Bloomz-7b1-mt模型微调的中英文指令理解与生成模型,具备优秀的中文处理能力
下载量 55
发布时间 : 3/20/2023
模型简介
结合200万条中文数据和5万条英文指令数据微调的大型语言模型,擅长中文指令理解与文本生成
模型特点
中文优化
专门针对中文场景优化,处理中文任务效果显著
多任务支持
可执行代码生成、情感分析、翻译等多种文本任务
数据规模可选
提供20万至200万不同数据量训练的多个版本
模型能力
中文文本生成
英文文本生成
代码生成
情感分析
文本翻译
创意写作
问答系统
建议提供
使用案例
编程辅助
代码生成
根据自然语言描述生成Python代码
可生成二分查找等基础算法实现
情感分析
情感分类
判断文本情感倾向(积极/中性/消极)
能准确识别兴奋等强烈情感
内容创作
诗歌创作
根据主题生成中文诗歌
可创作符合主题的押韵诗歌
🚀 BELLE模型介绍
BELLE是基于Bloomz - 7b1 - mt微调得到的大语言模型,结合了大量中文数据与部分英文数据进行训练,在中文指令理解和响应生成方面表现出色。它能处理多种任务,如文本生成、情感分类、翻译等。
🚀 快速开始
如果您觉得此模型对您有帮助,请 点赞 此模型并在 GitHub项目 上给我们加星!
✨ 主要特性
- 多语言支持:支持中文和英文,在中文任务上表现尤为突出。
- 多任务处理:可以完成文本生成、情感分类、代码编写、翻译等多种任务。
- 多版本选择:提供不同数据集大小训练的模型版本,可按需选择。
📦 安装指南
文档未提及具体安装步骤,暂不提供相关内容。
💻 使用示例
基础用法
请注意,在训练和推理时,模型的输入应该处理成如下形式:
Human: {input} \n\nAssistant:
通过AutoModelForCausalLM
即可直接载入模型并使用。
from transformers import AutoTokenizer, AutoModelForCausalLM
import sys
model_path = "./" # You can modify the path for storing the local model
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
print("Human:")
line = input()
while line:
inputs = 'Human: ' + line.strip() + '\n\nAssistant:'
input_ids = tokenizer(inputs, return_tensors="pt").input_ids
outputs = model.generate(input_ids, max_new_tokens=200, do_sample = True, top_k = 30, top_p = 0.85, temperature = 0.35, repetition_penalty=1.2)
rets = tokenizer.batch_decode(outputs, skip_special_tokens=True)
print("Assistant:\n" + rets[0].strip().replace(inputs, ""))
print("\n------------------------------------------------\nHuman:")
line = input()
高级用法
上面样例没有利用对话上文,如果你想做多轮对话理解,可以将对话上文按照Human:{input}\n\nAssistant:{output}
方式拼接起来输入给generate
函数
📚 详细文档
模型描述
BELLE以Bloomz - 7b1 - mt为基础,在200万条中文数据上,结合Stanford - Alpaca开源的5万条英文数据进行微调,具备良好的中文指令理解和响应生成能力。
中文数据生成代码及其他详细信息,位于我们的 Github项目仓库。
我们使用不同大小规模(20万、60万、100万和200万样本)的指令学习数据集训练模型,得到不同的模型版本如下:
数据集大小 | 200,000 | 600,000 | 1,000,000 | 2,000,000 |
---|---|---|---|---|
微调模型 | [BELLE - 7B - 0.2M](https://huggingface.co/BelleGroup/BELLE - 7B - 0.2M) | [BELLE - 7B - 0.6M](https://huggingface.co/BelleGroup/BELLE - 7B - 0.6M) | [BELLE - 7B - 1M](https://huggingface.co/BelleGroup/BELLE - 7B - 1M) | [BELLE - 7B - 2M](https://huggingface.co/BelleGroup/BELLE - 7B - 2M) |
训练超参数
参数 | 值 |
---|---|
批量大小 | 64 |
学习率 | 3e - 6 |
训练轮数 | 3 |
权重衰减 | 0.001 |
热身率 | 0.1 |
学习率调度器 | linear |
一些使用案例
提问 | 回答 |
---|---|
帮忙写一篇散文诗,主题为扎根,终有一天,我们会变成参天大树 | 在人生路途中,我们每个人都会经历各种各样的挑战和困难。但是,这些困难并不是让我们停滞不前的原因,而是让我们成长、进步的机会。只有通过不断地努力扎根,才能最终成为参天大树。 首先,扎根需要我们拥有坚定的信念和目标。没有目标和信仰的人,很难有前进的动力。因此,我们需要明确自己的理想和追求,并为之付出行动的努力。只有在不断努力的过程中,我们才能够逐渐扎下根基,形成强大的内心力量。 其次,扎根需要我们具备勤奋的精神。成功不是靠天赋,而是要靠勤奋和毅力。只有持之以恒地学习、实践和积累经验,我们才能逐步提高自己的能力和水平。而这种精神也是我们在面对各种困难时所需要的,因为只有坚持不懈地努力,才能克服一切困难,走向成功的道路。 最后,扎根需要我们有勇气去接受失败。生活中难免会遇到挫折和失败,但我们不能因此而气馁或放弃。相反,我们应该从失败中吸取教训,总结经验教训,并不断调整自己的方向和方法。只有勇于尝试和创新,我们才能真正扎下深厚的根基,实现自己的人生价值。 总之,扎根是一个漫长而又充满挑战的过程,它需要我们不断地努力和探索。只有通过不断的扎实根基,我们才能在未来的路上越走越稳健,越来越接近我们的梦想。 |
请生成一个房产经纪人和客户的对话 | 经纪人:你好!我是XX房地产中介公司的经纪人。您想了解哪些信息? 客户:我正在寻找一栋公寓,可以让我住得舒适又安全。 经纪人:在我们公司里有很多这样的房源。我可以给您介绍几个适合您的选择。 客户:好的,请告诉我一些细节。 经纪人:这栋公寓位于市中心,步行距离内有许多商店和餐馆,交通也十分便利。此外,它配备有现代化的设施和安全系统,以确保您的居住体验更加安全和舒适。 客户:听起来很不错。我想看看照片和视频。 经纪人:当然,这是该地区的几个房源,您可以从中选择最合适的一栋公寓。 客户:好的,我会考虑一下。 经纪人:非常感谢您的咨询,如果您有任何其他问题或需要帮助,随时联系我。 |
Classify the sentiment of the following sentence into Positive, Neutral, or Negative: Super excited about teaching Stanford’s first course on Large Language Models! Check the syllabus out here |
Positive |
列出3个不同的机器学习算法,并说明它们的适用范围。 | 1. 支持向量机(SVM) - 适用于分类和回归问题,特别适用于处理非线性数据集。 2. 决策树(Decision Tree) - 适用于分类、回归和聚类等问题,可以很好地理解和可视化。 3. 随机森林(Random Forest) - 适用于分类和回归问题,能够有效地处理高维数据和特征选择困难的问题。 |
周杰伦哪年出生的 | 周杰伦出生于1979年1月18日。 |
女性应该什么时候结婚? | 这取决于个人的意愿和情况。一些女性可能希望早些结婚,而另一些则可能更喜欢晚些结婚。此外,女性的教育水平、职业发展等因素也会影响她们的决定。 |
帮我写一个周报,主题包含:chatgpt,客服 | 尊敬的领导和同事们: 本周我们团队的主要工作是使用Chatgpt(聊天机器人平台)来提升客户服务质量。以下是我对这个主题的简要报告: 1. 使用ChatgPT进行在线聊天 在过去的一周里,我们的团队使用了Chatgpt来进行在线聊天。 chatgpt能够提供更加智能化的回答,使得客户可以更快地得到他们需要的帮助。此外,它还可以根据客户的需求自动推荐相关的产品和服务。这大大提高了我们服务的效率和质量。 2. 优化客服流程 在上一周中,我们的团队对客服流程进行了一些改进。我们发现,如果客户遇到的问题比较复杂或者需要更多的支持,那么他们的满意度会降低。因此,我们在客服平台上添加了一些新的功能,例如自助问答、知识库等,这些功能可以帮助客户更好地解决问题和获取更多信息。 3. 加强培训和支持 为了进一步提高我们的客服水平,我们的团队正在加强员工的培训和支持。我们会定期组织内部培训和外部学习机会,以便员工不断更新自己的技能和知识。同时,我们也加强了与客户之间的沟通,了解他们的需求和反馈,以更好地满足客户的要求。 总的来说,本周的重点工作是使用Chatgpt来改善客户服务体验,并且优化了客服流程。我们还将继续加强员工的培训和支持,以提高整个团队的服务能力和水平。感谢大家的关注和支持! |
“下好一盘围棋需要强大的计算能力。”把这句话翻译成英文 | To play well in a game of Go requires strong computing ability. |
🔧 技术细节
基于当前数据和基础模型训练得到的SFT模型,在效果上仍存在以下问题:
- 在涉及事实性的指令上可能会产生违背事实的错误回答。
- 对于具备危害性的指令无法很好的鉴别,由此会产生危害性言论。
- 在一些涉及推理、代码等场景下模型的能力仍有待提高。
基于以上模型局限性,我们要求开发者仅将我们开源的代码、数据、模型及后续用此项目生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。
📄 许可证
本模型使用Apache - 2.0许可证。
📚 引用
如果使用本项目的代码、数据或模型,请引用本项目。
@misc{BELLE,
author = {Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Baochang Ma, Xiangang Li},
title = {BELLE: Bloom-Enhanced Large Language model Engine },
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/LianjiaTech/BELLE}},
}
也请同时引用原始的BLOOM论文、Stanford Alpaca和Self - Instruct论文。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98