模型简介
模型特点
模型能力
使用案例
🚀 FastwebMIIA - 意大利人工智能模型
FastwebMIIA是由Fastweb开发的意大利人工智能模型,具备70亿参数,基于自回归Transformer架构构建。该模型专为意大利语和英语设计,支持长文档处理,在多种任务中表现出色,适用于非商业研究、教育及内部使用,也可通过定制商业许可用于商业用途。
🚀 快速开始
环境要求
该模型使用transformers==4.45.2
进行训练和测试。
代码示例
import transformers
import torch
model_id = "Fastweb/FastwebMIIA-7B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="cuda",
)
messages = [
{"role": "system", "content": "Sei FastwebMIIA, il chatbot italiano sviluppato da Fastweb."},
{"role": "user", "content": "Ciao!"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
repetition_penalty=1.1,
top_p=0.9,
temperature=0.1
)
print(outputs[0]["generated_text"][-1])
# output: {'role': 'assistant', 'content': 'Ciao! Come posso aiutarti oggi?'}
✨ 主要特性
- 多语言支持:支持意大利语和英语,适用于不同语言环境。
- 长上下文处理:支持16k的上下文窗口,能够处理长文档、多轮对话和复杂查询。
- 高效编码:采用RoPE(旋转位置嵌入)在注意力机制中高效编码位置信息。
- 定制分词器:由Fastweb训练的分词器,针对意大利语、英语和主要编程语言进行了优化,总词汇量达50,000个标记。
📦 安装指南
暂未提供具体安装步骤,可参考上述代码示例在合适的环境中使用。
💻 使用示例
基础用法
import transformers
import torch
model_id = "Fastweb/FastwebMIIA-7B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="cuda",
)
messages = [
{"role": "system", "content": "Sei FastwebMIIA, il chatbot italiano sviluppato da Fastweb."},
{"role": "user", "content": "Ciao!"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
repetition_penalty=1.1,
top_p=0.9,
temperature=0.1
)
print(outputs[0]["generated_text"][-1])
# output: {'role': 'assistant', 'content': 'Ciao! Come posso aiutarti oggi?'}
高级用法
暂未提供高级用法示例。
📚 详细文档
模型概述
FastwebMIIA是一个基于自回归Transformer架构的大语言模型,具有70亿参数。它专为意大利语和英语设计,在意大利文化背景下表现出色。模型在精心策划的主要为意大利语的语料库上进行训练,完全符合欧盟人工智能法案和国家法规。
模型访问
- 本地部署(低代码工具):可通过低代码平台在企业环境中进行商业部署,适合有严格数据治理或合规需求的组织。如需商业演示或了解企业部署详情,请联系
Attivazione.FastwebMIIA@fastweb.it
。 - Hugging Face:模型权重和配置文件在Hugging Face上公开提供,仅用于个人非专业研究活动(科学或学术,理论或应用,仅用于信息目的)和公司内部非商业用途。用户可在非商业许可下使用Hugging Face的工具和托管基础设施下载、微调或部署模型。
硬件和软件
FastwebMIIA在专有的NVIDIA H100 GPU集群上进行训练,该集群针对大规模分布式训练进行了优化。训练工作流由MLDE(机器学习开发环境)和LLMFoundry管理,处理数据处理、实验跟踪和可扩展模型训练。此设置使得能够在包含数万亿标记的语料库上对70亿参数的模型进行预训练和微调。但不保证与被许可人使用的特定环境、操作系统、硬件或软件兼容。
训练详情
架构细节
超参数 | 值 |
---|---|
层数 | 32 |
注意力头数量 | 32 |
头大小 | 128 |
键值头数量 | 8 |
隐藏维度大小 | 4096 |
中间(MLP)大小 | 14,336 |
MLP激活函数 | SiLU |
MLP类型 | 标准 |
注意力丢弃率 | 0.0 |
MLP/注意力偏置 | 无 |
归一化类型 | RMSNorm |
RMSNorm epsilon | 1e-5 |
词汇量大小 | 50,270 |
序列长度(上下文窗口) | 16,384 |
旋转位置嵌入类型 | LLaMA v3风格 |
旋转基数(rope theta) | 500,000 |
旋转缩放因子 | 8.0 |
高低频rope因子 | 4.0 / 1.0 |
权重初始化范围 | ±0.02 |
绑定词嵌入 | 无 |
数据类型 | bfloat16 |
总参数数量 | 73.9亿 |
分词器
分词器词汇量为50260,通过字节对编码(BPE)算法训练,使用Transformers库提供的实现。包括50,000个通过BPE获得的标记、256个代表所有字节值的标记和4个特殊标记(BOS、EOS、PAD、UNK)。分词器训练集是最高质量数据的子集,经过彻底清理和人工检查,涵盖意大利语、英语和编程语言。
分词器生育率
分词器生育率是评估分词器性能的指标,通过计算生成的标记数量与原始文本中单词数量的比率来量化分词器表示文本的效率。以下是在2022年3月意大利维基百科数据集的子集(1%)上计算的生育率值:
模型 | 标记数量 | 生育率 |
---|---|---|
Almawave/Velvet-14B | 126976 | 1.537129 |
Fastweb/FastwebMIIA-7B | 50270 | 1.569404 |
iGeniusAI/Italia-9B-Instruct-v0.1 | 50003 | 1.589896 |
sapienzanlp/Minerva-7B-instruct-v1.0 | 51203 | 1.620168 |
google/gemma-2-9b-it | 256000 | 1.708481 |
utter-project/EuroLLM-9B-Instruct | 128000 | 1.723624 |
mistralai/Ministral-8B-Instruct-2410 | 131072 | 1.771119 |
meta-llama/Llama-3.1-8B-Instruct | 128256 | 1.970075 |
microsoft/Phi-3-small-8k-instruct | 100352 | 1.974537 |
Qwen/Qwen2.5-7B-Instruct | 151665 | 2.020880 |
ibm-granite/granite-3.1-8b-instruct | 49155 | 2.386821 |
训练数据
FastwebMIIA在约1.5 * 2 * 10^12个文本标记上进行预训练,结合了公开可用和专有来源。语料库主要由意大利语和英语内容组成,还有少量其他欧洲和非欧洲语言的内容。语言组成优先考虑意大利语,以支持该语言的强大性能。数据涵盖广泛的领域,包括文学、科学、编程、历史、法律和常识,以及对话和编辑写作的示例。仅使用基于文本的数据,不包括多模态输入(如图像、音频或视频)。微调涉及开放指令微调数据集和Phi系列模型生成的合成示例的混合。使用FastwebMIIA时,不存储提示数据,不记录用户输入到模型的数据,确保不收集任何个人身份信息(PII),也不将用户数据用于训练目的。
局限性和偏差
FastwebMIIA是为协助各种对话和生成任务而开发的大语言模型。尽管在训练过程中已尽力负责地进行数据过滤和整理,但仍需注意一些重要局限性。模型可能生成事实不准确、误导性或不完整的响应,不具备对世界的真正理解,可能产生看似合理但错误的输出。在某些情况下,可能反映训练数据中存在的社会、文化或历史偏差,包括可能产生敏感、刻板或令人反感的响应。因此,不能将FastwebMIIA视为权威信息来源或专业判断的替代品。此外,模型的行为可能因提示的措辞而异,不能可靠地预测或考虑所有上下文或价值观。其输出应进行批判性评估,特别是在公平性、安全性或准确性至关重要的领域。
预期用途
FastwebMIIA是一个纯文本语言模型,适用于聊天辅助、内容生成、摘要和信息提取等任务。旨在用于研究、开发和集成到具有适当保障措施的人工智能应用中。
超出范围或禁止使用
FastwebMIIA仅用于合法用途,不得用于非法或欺诈活动,违反其可接受使用政策,生成有害或欺骗性内容,或在没有人工监督的高风险领域运行。具体而言,不得用于违反法律法规、进行未经授权的数据收集、从事非法活动(如虚假信息、操纵、歧视或侵犯隐私)、未经同意对个人进行画像、利用年龄或社会经济地位的漏洞、基于社会行为不公正地对个人进行分类、进行预测性警务或不加区别地抓取面部图像以扩展识别数据库等。此列表仅为示例,并非详尽无遗。被许可人对模型的使用方式及其使用结果负全部责任,包括与被许可人特定环境、工具或内容的任何配置或交互。
报告问题
为确保FastwebMIIA模型的负责任使用,欢迎报告模型的不当使用、意外行为或对模型输出的担忧。如果遇到任何问题或对模型的使用有反馈,请联系assistenza.FastwebMIIA@fastweb.it
。您的输入有助于持续改进,并帮助我们维护安全和道德标准。
评估
模型使用Hugging Face的lm-eval框架进行评估,这是一个标准化和可重复的语言模型基准测试套件。该工具允许在任务和语言之间进行一致的模型性能比较,为多语言和特定领域的评估提供可靠依据。本次评估重点关注专门为意大利语设计或改编的基准测试,涵盖测试推理、理解和常识的任务:
- HellaSwag IT:意大利语中用于完成推理和文本完成的多项选择任务。
- ARC IT(AI2推理挑战):翻译成意大利语的科学问题多项选择基准测试。
- ARC Challenge MT IT:ARC挑战的多语言改编版本,专注于意大利语。
- MMLU IT:翻译成意大利语的大规模多任务语言理解数据集,测试广泛的学术和文化知识。
- Global MMLU IT:MMLU的扩展版本,涵盖意大利语中的其他主题和领域。
- XCOPA IT:用于因果推理的多语言基准测试,评估意大利语中的“为什么”问题。
这个全面的基准测试套件为模型在意大利语中的性能提供了有力评估,评估其在各种主题和场景下的理解、推理和准确回答能力。
常识基准测试得分
任务 | 指标 | 5次射击得分 | 0次射击得分 |
---|---|---|---|
arc_challenge_mt_it | acc_norm | 0.5 | 0.4317 |
arc_it | acc_norm | 0.5158 | 0.4559 |
global_mmlu_it | acc | 0.615 | 0.5525 |
hellaswag_it | acc_norm | 0.6453 | 0.6453 |
m_mmlu_it | acc | 0.5707 | 0.5293 |
xcopa_it | acc | 0.784 | 0.774 |
模型更新
模型的新版本将在此页面发布,用户需要查看最新版本。提供者不对使用过时版本的模型负责。被许可人有责任确保使用最新版本,以避免与过时模型相关的潜在问题或限制。
🔧 技术细节
FastwebMIIA基于自回归(因果,仅解码器)Transformer架构,结合旋转位置嵌入,使用下一个标记预测目标进行训练。模型使用定制的分词器,针对意大利语、英语和主要编程语言进行了优化,总词汇量为50,000个标记。采用RoPE(旋转位置嵌入)在注意力机制中高效编码位置信息,支持16k的上下文窗口。
📄 许可证
FastwebMIIA可在非商业许可下使用,明确允许用于非商业研究、教育和内部使用;也可通过定制商业许可用于任何商业用途。使用模型前,需接受FastwebMIIA的非商业许可、可接受使用政策(AUP)和其他相关文档。
⚠️ 重要提示
本仓库公开可访问,但需接受相关条件才能访问其文件和内容。通过下载、访问和使用模型,即表示完全接受FastwebMIIA的非商业许可、可接受使用政策(AUP)和其他相关文档。如不同意许可和相关文档中的条款和条件,不得下载或使用模型,并应删除可能已有的任何副本。
💡 使用建议
模型输出应进行批判性评估,特别是在公平性、安全性或准确性至关重要的领域。遇到任何问题或有反馈,请联系
assistenza.FastwebMIIA@fastweb.it
。



