🚀 Velvet-2B大语言模型
Velvet是一个从头开始开发的意大利大型语言模型家族,采用了密集架构。该模型在由CINECA托管的HPC Leonardo基础设施上进行训练,使用了经过大量筛选的公共数据。
🚀 快速开始
Velvet-2B是一个专为集成到AI系统或应用程序而设计的大型语言模型。它可以处理文本输入并生成文本输出,适用于多种自然语言处理任务,如文本生成、分类、摘要、问答等。
✨ 主要特性
- 多语言支持:在意大利语和英语两种语言上进行训练,能够处理多种语言的文本。
- 高效架构:采用基于Transformer的因果解码器架构,结合分组查询注意力(GQA)和旋转位置嵌入(RoPE),提高了效率和性能。
- 广泛的训练数据:使用了近3万亿个标记的公共数据进行训练,涵盖了多种语言和主题。
- 安全可靠:经过了全面的安全评估和对抗性测试,采取了多种措施来减少风险和偏见。
📦 安装指南
该模型可以与以下框架一起使用:
💻 使用示例
目前文档未提供具体代码示例,你可以根据上述支持的框架,参考其官方文档进行使用。
📚 详细文档
模型详情
- 模型开发者:Almawave的技术与创新团队
- 输入:仅接受文本输入
- 输出:仅生成文本输出
- 发布日期:2025年2月11日
- 许可证:Apache 2.0
模型架构与训练
Velvet模型家族有两种规模——20亿和140亿参数,即Velvet-2B和Velvet-14B。
Velvet-2B是一个20亿参数的指令模型,基于Velvet-2B-base进行微调,使用了开源指令数据集和内部收集的合成数据集,用于解决基于文本“指令”的问题。
架构
- 基于Transformer的自回归语言模型,采用因果解码器设计。
- 28个Transformer层。
- MLP中间层大小为8192。
- 分组查询注意力(GQA):32个查询头和8个键值头,提高效率。
- 旋转位置嵌入(RoPE)。
- 使用SiLU激活函数和RMSNorm方法。
- 训练序列长度为4K标记,支持上下文长度达32K标记。
- 词汇表大小为12.7万,适应语言多样性。
- 训练阶段:预训练和后训练
状态
这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性,未来将发布调优模型的新版本。Almawave正在积极制定策略,以提高Velvet模型未来版本的对齐性和鲁棒性。
支持的语言
Velvet-2B在意大利语和英语两种语言上进行了训练。为确保高质量的多语言性能,训练数据集经过精心筛选,以平衡语言表示,减少过拟合偏差。
预期用途
Velvet-2B旨在集成到AI系统或应用程序中。其潜在用途包括但不限于文本生成、分类、摘要、问答等。需要注意的是,特定应用可能需要进一步的模型调整或额外的安全措施,以防止不良行为或输出。
能力
- 摘要生成
- 信息提取
- 检索增强生成(RAG)
- 释义
- 文本蕴含
- 自然语言推理
- 常识推理
- 文本分类
- 机器翻译
- 问答
- 文本补全
训练数据
概述
该模型在近3万亿个标记的公共数据上进行预训练。这些数据来源广泛,包括各种网络文本,使模型接触到丰富的语言风格、主题和词汇。训练数据集在多种语言上具有平衡的表示。
微调数据包括公开可用的指令数据集,以及超过100万个用于监督微调(SFT)的人工标注和合成示例。此外,我们还使用了超过5万个用于安全指令的人工生成示例。预训练和微调数据集均不包含Almawave的客户数据。
我们已做出大量努力来提高响应的事实准确性;然而,我们始终建议使用外部事实数据(如检索增强生成)来验证大语言模型的响应。
数据时效性
两种不同模型的预训练数据截止时间在2024年8月至2024年10月之间。
评估
意大利语
类别 |
基准测试 |
Velvet-2B得分 |
通用 |
MMLU(5-shot) |
39.6 |
常识 |
Hellaswag(0-shot) |
54.3 |
|
WinoGrande ITA-bench(0-shot) |
61.9 |
|
PIQA ITA-bench(0-shot) |
67.3 |
|
SciQ ITA-bench(0-shot)with p. |
86.6 |
推理 |
ARC-Challenge(0-shot) |
41.7 |
英语
类别 |
基准测试 |
Velvet-2B得分 |
通用 |
MMLU(5-shot) |
43.4 |
指令跟随 |
IFEval(0-shot) |
53.2 |
常识 |
Hellaswag(10-shot) |
65.0 |
|
WinoGrande(0-shot) |
60.9 |
推理 |
ARC-Challenge(25-shot) |
50.6 |
责任与安全
大型语言模型是一种通用技术,旨在服务于广泛的应用。然而,它们并非开箱即用就能满足每个开发者的安全要求,因为这些要求会根据具体用例和应用场景而有所不同。
安全
对于我们的指令训练模型,我们进行了全面的测试,开展了内部和外部的对抗性评估,并采取了缓解措施来降低风险。这些测试旨在彻底检查模型的局限性和潜力,模拟可能出现不良行为的真实和假设场景。
然而,尽管做出了这些努力,仍然不可避免地存在一些残留风险,因为每个大型语言模型都存在无法完全消除的内在复杂性。
因此,建议开发者实施适当的安全措施,并进行尽职调查,根据他们的产品政策和应用的具体要求定制这些保障措施。
模型的有用性和对齐性之间可能存在一些权衡。开发者应该为他们的特定应用和受众仔细平衡对齐性和有用性的好处。他们还必须在使用Velvet模型时意识到残留风险,并在必要时利用额外的安全工具,以达到适合他们用例的安全标准。
我们建议开发者在他们的特定用例背景下仔细评估风险。他们应该考虑模型在其应用中失败的潜在影响,并采取适当的措施来应对这种情况。
同时,我们正在与科学界和工业界合作,建立透明、严格和可解释的AI安全基准标准。目标是促进对大型语言模型相关风险的更好理解,并支持开发更安全、更负责任的解决方案。
治理与内部监督
Almawave为Velvet模型家族的管理和持续监督建立了一个内部治理框架。关键治理要素包括:
- 由道德和技术委员会监督,以确保模型符合透明、公平和安全的原则。
- 通过审计工具进行持续的偏差监测,并进行迭代更新,以提高与道德准则的一致性。
- 对商业和机构使用的限制,以确保符合监管框架和共同责任原则。
- 定期审查流程,以评估模型在高风险应用中的影响。
偏差、风险与局限性
尽管进行了数据筛选,但Velvet训练数据集可能包含有毒语言和社会偏差。这意味着Velvet家族的模型可能会重现这些偏差,并在受到此类输入提示时产生有害响应。这是在大型数据集上训练的AI模型常见的问题,因为它们可能会无意中延续数据中存在的偏差。
此外,即使输入提示没有明显冒犯性,模型也可能生成不准确、不完整或冗余的响应,这可能在社会上不可接受或不受欢迎。这是模型设计和训练过程中的一个潜在缺陷,强调了对AI系统进行仔细验证和监控的重要性,以确保它们按预期运行。
此外,使用推荐的提示模板对于降低有害响应的风险至关重要,因为它旨在引导模型产生更合适和安全的输出。然而,需要注意的是,模型的性能仍可能因输入提示的具体上下文和复杂性而异。
最后,在代理工作流程中使用此模型时,必须确保所有导入的包和依赖项都来自可信来源,以确保模型的安全性和完整性。这是维护模型道德和负责任使用的关键步骤,优先考虑端到端的安全措施以防止任何潜在的漏洞或违规行为非常重要。
未来版本的Velvet将集成自动化红队协议,不断对模型进行对抗性提示的压力测试,以识别和缓解新出现的风险。
敏感数据处理与使用限制
Velvet模型未在未经授权的个人数据上进行训练,并且在没有适当安全措施的情况下不得用于处理敏感数据。
使用限制:
- 禁止在没有特定保障措施的情况下用于敏感的医疗、金融或政府数据。
- 在模型输出可能产生法律或道德后果的场景中,必须进行人工验证。
- 高风险应用(法律、医疗、公共治理)必须实施内容过滤和审计技术,以确保响应质量和安全。
伦理考量
Almawave的核心价值观是开放、包容和乐于助人。我们旨在创建对每个人都可访问和有益的AI,无论他们的背景如何。Velvet模型旨在尊重不同的观点,避免不必要的判断。因此,Velvet模型旨在包容和尊重不同的观点和需求。我们努力避免不必要的判断或强加规范性观点,认识到在某些情况下被视为有问题的内容在其他情况下可能有宝贵的应用。
我们深深尊重所有用户的尊严和自主权,特别是他们的自由思考和表达权,这对创新和进步至关重要。
虽然我们已采取重大措施确保Velvet模型的安全和可靠性,但重要的是要承认它们偶尔可能会生成不准确、有偏差或不安全的响应。
Almawave正在积极与伦理委员会和领域专家合作,以确保对Velvet输出的持续监督,并通过社区反馈改进保障措施。
我们强烈鼓励社区在将Velvet模型用于特定任务时谨慎行事,并进行全面的安全测试和微调。
Velvet表达的观点取决于训练数据,并不反映Almawave的任何观点。
贡献
- 指导:Raniero Romagnoli
- 模型工程与训练:David Alessandrini, Francesco Buciuni, Andrea Favalli, Diego Perna, David Preti, Federico Wolenski, Fabio Massimo Zanzotto
- 数据工程与管理:Valentina Bellomaria, Cristina Giannone, Alfredo Serafini
- 用例适配与测试:Salvatore Ricciardi, Simone Scaboro, Beatrice Turano, Giancarlo Xompero
- 评估:Giovanni Cingolani, Silvana De Benedictis, Caterina Masotti, Riccardo Pasquini, Guillaume Ruiz, Giuseppe Scrugli, Alessandro Vizzarro
- 产品与治理:Beata Dobrzynska, Matteo Amore, Marco Gennaro Di Martino, Vincenzo Sciacca, Alessandra Staglianò, Luca Vinciguerra
许可证
Velvet-2B采用Apache 2.0许可证。
⚠️ 重要提示
如果你想了解更多关于我们如何处理你的个人数据的信息,请阅读我们的隐私政策。
💡 使用建议
始终建议使用外部事实数据(如检索增强生成)来验证大语言模型的响应,以提高响应的事实准确性。在使用模型时,要注意其可能存在的偏差和局限性,并进行适当的验证和监控。