Norwai Mixtral 8x7B Instruct
模型简介
模型特点
模型能力
使用案例
🚀 NorwAI-Mixtral-8x7B-instruct模型
NorwAI-Mixtral-8x7B-instruct是NorwAI-Mixtral-8x7B的指令调优变体,使用了约9000条自收集的高质量挪威语指令进行调优。该模型属于NowAI大语言模型家族,由挪威科技大学(NTNU)的NowAI研究中心与Schibsted、NRK、VG和挪威国家图书馆合作开发。NowAI大语言模型家族致力于推动挪威语语言模型的研究和应用发展。
📄 许可证
NorLLM许可证
使用、复制和分发的条款与条件
- 定义
- “许可证”指本文件第1至9节所定义的使用、复制和分发的条款与条件。
- “许可方”指挪威科技大学(NTNU)。
- “法律实体”指行为实体以及所有控制该实体、受该实体控制或与该实体受共同控制的其他实体的联合体。就本定义而言,“控制”指(i)直接或间接导致该实体的经营方向或管理的权力,无论是通过合同还是其他方式;(ii)拥有已发行股份的百分之五十(50%)或更多;或(iii)对该实体的实益所有权。
- “您”指行使本许可证授予权限的个人或法律实体。
- “源代码形式”指便于进行修改的首选形式,包括但不限于软件源代码、文档源文件和配置文件。
- “目标代码形式”指由源代码形式经过机械转换或翻译而产生的任何形式,包括但不限于编译后的目标代码、生成的文档以及转换为其他媒体类型的内容。
- “作品”指根据本许可证提供的、以源代码或目标代码形式存在的版权作品,由包含在作品中或附于作品的版权声明所指明(附录中提供了一个示例)。
- “衍生作品”指基于(或源自)本作品的任何作品,无论是源代码形式还是目标代码形式,且其编辑修订、注释、阐述或其他修改整体上构成原创版权作品。就本许可证而言,衍生作品不包括与本作品及其衍生作品保持可分离状态,或仅与本作品及其衍生作品的接口进行链接(或按名称绑定)的作品。
- “贡献”指任何版权作品,包括作品的原始版本以及对该作品或其衍生作品的任何修改或补充,由版权所有者或经版权所有者授权代表其提交的个人或法律实体有意提交给许可方以纳入作品。就本定义而言,“提交”指发送给许可方或其代表的任何形式的电子、口头或书面通信,包括但不限于在电子邮件列表、源代码控制系统和问题跟踪系统上进行的通信,这些系统由许可方或代表许可方管理,用于讨论和改进作品,但不包括版权所有者明确标记或以书面形式指定为“非贡献”的通信。
- “贡献者”指许可方以及代表其提交的贡献已被许可方接收并随后纳入作品的任何个人或法律实体。
- 版权许可授予 在遵守本许可证的条款和条件的前提下,每个贡献者在此授予您永久、全球、非独占、免费、免版税、不可撤销的版权许可,允许您复制、创作衍生作品、公开展示、公开表演、再许可和分发本作品及其衍生作品,无论是源代码形式还是目标代码形式。
- 专利许可授予 在遵守本许可证的条款和条件的前提下,每个贡献者在此授予您永久、全球、非独占、免费、免版税、不可撤销(除非本节另有规定)的专利许可,允许您制造、委托制造、使用、提供销售、销售、进口以及以其他方式转让本作品,该许可仅适用于该贡献者可许可的那些专利主张,这些主张必然因他们的贡献本身或因他们的贡献与提交该贡献的作品相结合而被侵犯。如果您对任何实体提起专利诉讼(包括在诉讼中的交叉索赔或反诉),声称本作品或纳入本作品的贡献构成直接或间接专利侵权,则本许可证授予您的关于该作品的任何专利许可将自提起该诉讼之日起终止。
- 再分发
您可以在任何介质上复制和分发本作品或其衍生作品,无论是否进行修改,无论是源代码形式还是目标代码形式,但需满足以下条件:
- 使用限制:本作品或其衍生作品可在第4.2条定义的地理范围内免费使用。使用仅限于您自己的目的,不得用于转售,也不得用于可能侵犯或对健康、安全、环境保护和/或基本权利(如人的尊严权、尊重私人和家庭生活权、个人数据保护权、言论和信息自由权、集会和结社自由权以及非歧视权、消费者保护权和保护儿童的特定权利)产生负面影响的目的。
- 地理限制:只有在北欧国家(丹麦、挪威、瑞典、芬兰和冰岛)设有住所或注册总部的组织,在遵守本许可证的其他条款的前提下,才允许在无需额外同意的情况下使用本作品或其衍生作品。
- 归属要求:
- 您必须向本作品或其衍生作品的任何其他接收者提供本许可证的副本。
- 您必须使任何修改过的文件带有显著的通知,说明您对这些文件进行了更改。
- 您必须在分发的任何衍生作品的源代码形式中保留本作品源代码形式中的所有版权、专利、商标和归属声明,但不包括与衍生作品的任何部分无关的声明。
- 如果本作品在分发时包含一个“NOTICE”文本文件,则您分发的任何衍生作品必须在以下至少一个位置包含该NOTICE文件中所含归属声明的可读副本,但不包括与衍生作品的任何部分无关的声明:作为衍生作品一部分分发的NOTICE文本文件中;如果随衍生作品提供了源代码形式或文档,则在其中包含;或者,如果第三方声明通常会在衍生作品生成的显示中出现,则在该显示中包含。NOTICE文件的内容仅用于提供信息,不修改本许可证。您可以在分发的衍生作品中添加自己的归属声明,与本作品的NOTICE文本并列或作为其附录,但前提是这些额外的归属声明不能被解释为修改本许可证。
- 您可以在您的修改中添加自己的版权声明,并可以为您的修改或任何此类衍生作品整体的使用、复制或分发提供额外或不同的许可条款和条件,前提是您对本作品的使用、复制和分发符合本许可证中规定的条件。
- 贡献提交 除非您明确另有说明,否则您有意提交给许可方以纳入作品的任何贡献应受本许可证的条款和条件约束,无需任何额外的条款和条件。尽管有上述规定,本文件中的任何内容均不得取代或修改您可能与许可方就此类贡献签订的任何单独许可协议的条款。
- 商标 本许可证不授予使用许可方的商号、商标、服务标记或产品名称的许可,但描述作品的来源和复制NOTICE文件的内容所需的情况除外。
- 保修免责声明 除非适用法律要求或书面同意,许可方按“现状”提供本作品(每个贡献者也按“现状”提供其贡献),不提供任何形式的明示或暗示的保证或条件,包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证或条件。您独自负责确定使用或再分发本作品的适当性,并承担因行使本许可证授予的权限而产生的任何风险。
- 责任限制 在任何情况下,无论根据何种法律理论,无论是侵权(包括疏忽)、合同还是其他情况,除非适用法律要求(如故意和重大过失行为)或书面同意,任何贡献者均不对您承担损害赔偿责任,包括因本许可证或因使用或无法使用本作品而产生的任何直接、间接、特殊、偶然或后果性损害(包括但不限于商誉损失、工作停顿、计算机故障或故障以及任何和所有其他商业损害或损失),即使该贡献者已被告知可能发生此类损害的可能性。
- 接受保修或额外责任 在再分发本作品或其衍生作品时,您可以选择提供并收取费用,以接受支持、保修、赔偿或其他与本许可证一致的责任义务和/或权利。但是,在接受此类义务时,您只能代表自己并独自承担责任,而不能代表任何其他贡献者,并且只有在您同意赔偿、辩护并使每个贡献者免受因您接受任何此类保修或额外责任而产生的任何责任或针对该贡献者提出的任何索赔的情况下才能这样做。
联系方式
- 技术问题联系人:Lemei Zhang (lemei.zhang@ntnu.no),Peng Liu (peng.liu@ntnu.no)
- 许可证问题联系人:Jon Atle Gulla (jon.atle.gulla@ntnu.no)
许可证确认相关信息
- 额外必填字段:姓名、组织、国家、工作邮箱
- 使用目的选择:研究、教育、商业、其他
- 确认勾选:我已阅读并接受NorLLM许可证的条件
- 确认许可证标题:确认许可证以接受该仓库
- 确认许可证描述:我们的团队可能需要1 - 2天来处理您的请求
- 确认许可证按钮内容:确认许可证
请注意,访问仅限于北欧国家的学生、公司和组织。请提供您的工作邮箱或学生邮箱以访问模型。感谢您的理解。
📚 模型详情
模型概述
NorwAI-Mixtral-8x7B-instruct是基于NorwAI-Mixtral-8x7B进行指令调优的变体模型,使用了约9000条自收集的高质量挪威语指令。它属于NowAI大语言模型家族,该家族由挪威科技大学(NTNU)的NowAI研究中心与Schibsted、NRK、VG和挪威国家图书馆合作开发。NowAI大语言模型家族包含一系列7B和45B规模的预训练、继续预训练和指令调优的生成式文本模型,所有预训练和继续预训练模型都在相同的数据集上使用相同的分词器进行训练,指令调优模型则使用从挪威母语者收集的高质量挪威语指令进行优化。
模型基本信息
属性 | 详情 |
---|---|
模型类型 | 生成式文本模型 |
开发团队 | 挪威科技大学(NTNU)的NowAI研究中心、Schibsted和VG |
语言(NLP) | 挪威语 |
微调基础模型 | NorwAI-Mixtral-8x7B |
分词器 | 通过将Llama 2分词器与我们自己训练的挪威语分词器的词汇表合并,扩展了挪威语词汇表。扩展后的词汇表大小为64000。 |
模型发布日期 | 2024年5月15日,且持续更新 |
NowAI LLM家族模型列表
模型名称 | 参数数量 | 训练方案 | 上下文长度 | 基础模型 |
---|---|---|---|---|
NorwAI-Mistral-7B | 7B | 继续预训练 | 32k | Mistral-7B-v0.1 |
NorwAI-Mistral-7B-pretrain | 7B | 从头开始预训练 | 32k | Mistral-7B-v0.1 |
NorwAI-Llama2-7B | 7B | 继续预训练 | 4096 | Llama2 |
NorwAI-Mixtral-8x7B | 45B | 继续预训练 | 32k | Mixtral-8x7B-v0.1 |
NorwAI-Mistral-7B-instruct | 7B | 指令调优 | 32k | NorwAI-Mistral-7B |
NorwAI-Mixtral-8x7B-instruct | 45B | 指令调优 | 32k | NorwAI-Mixtral-8x7B |
💻 使用场景
NowAI大语言模型旨在供北欧国家的商业和研究使用。若要访问该模型,请仔细阅读相关信息并填写所需内容。
⚠️ 偏差、风险和局限性
该模型可能存在大语言模型常见的潜在风险,如幻觉、事实不一致、毒性和偏差等。
💻 使用示例
基础用法
我们有两种指令调优的提示模板:
If we have input data, we use Prompt 1: {instruction}\n\n{inst_input}\nAnswer:
If we do not have iniput data, we use Prompt 2: {instruction}\n\nAnswer:
以下是加载模型的示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_and_tokenizer_path = "NorwAI/NorwAI-Mixtral-8x7B-instruct"
access_token = "<your access token>"
# import tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_and_tokenizer_path, token=access_token)
model = AutoModelForCausalLM.from_pretrained(model_and_tokenizer_path, token=access_token, device_map='balanced')
# define your own prompt
prompt = """Hvilket av de følgende alternativene er Norges nordligste punkt?\n\na) Nordkapp b) Alta c) Vardø d) Hammerfest\n
Svar:"""
# generate response
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs,
min_new_tokens=50,
max_new_tokens=100,
do_sample=True,
temperature=0.3)
outputs = tokenizer.decode(outputs[0], skip_special_tokens=True)
根据我们的测试,将Answer
替换为Svar
也能达到相同的效果。
🔧 技术细节
训练数据
所有NorwAI大语言模型都在511.5亿个标记(相当于303.3亿个单词)上进行了(继续)预训练,这些数据来自公共数据集以及Schibsted、NRK和VG合作伙伴根据协议共享的数据。对公开可用的数据集进行了预处理,以过滤掉存在版权问题的文本,并对所有数据集进行了预处理,以去除敏感信息。
训练基础设施
所有模型都使用llm-foundary框架在挪威科技大学的IDUN集群上进行了预训练和微调。
📞 模型卡片联系信息
如果您对模型有任何疑问,请联系以下人员:
- Lemei Zhang,lemei.zhang@ntnu.no
- Peng Liu,peng.liu@ntnu.no



