🚀 LLaMAntino-2-7b-ITA模型介绍
LLaMAntino-2-7b-ITA是一款意大利语适配的大语言模型,基于LLaMA 2开发。它为意大利的自然语言处理研究者提供了用于自然语言生成任务的基础模型。
🚀 快速开始
以下是使用该模型的示例代码:
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "swap-uniba/LLaMAntino-2-7b-hf-ITA"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
prompt = "Scrivi qui un possibile prompt"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
outputs = model.generate(input_ids=input_ids)
print(tokenizer.batch_decode(outputs.detach().cpu().numpy()[:, input_ids.shape[1]:], skip_special_tokens=True)[0])
高级用法
如果你在加载模型时遇到问题,可以尝试以量化方式加载:
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_8bit=True)
⚠️ 重要提示
上述模型加载策略需要安装 bitsandbytes 和 accelerate 库。
✨ 主要特性
- 意大利语适配:专为意大利语自然语言处理任务设计,为意大利的研究者提供了更贴合需求的基础模型。
- 基于QLora训练:使用QLora方法进行训练,提高了模型的性能和效率。
📦 安装指南
文档中未提及具体安装步骤,暂不提供。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
LLaMA 2 |
训练数据 |
clean_mc4_it medium |
开发者 |
Pierpaolo Basile、Elio Musacchio、Marco Polignano、Lucia Siciliani、Giuseppe Fiameni、Giovanni Semeraro |
资助项目 |
PNRR项目FAIR - Future AI Research |
计算基础设施 |
Leonardo超级计算机 |
语言 |
意大利语 |
许可证 |
Llama 2 Community License |
微调基础模型 |
meta-llama/Llama-2-7b-hf |
训练代码
如果你对训练过程的更多细节感兴趣,可以在以下链接找到我们使用的代码:
- 仓库地址:https://github.com/swapUniba/LLaMAntino
⚠️ 重要提示
代码尚未发布,我们对延迟表示歉意,代码将尽快上线!
🔧 技术细节
文档中未提供具体技术细节,暂不展示。
📄 许可证
本模型使用Llama 2 Community License。Llama 2由Meta Platforms, Inc.版权所有,保留所有权利。许可证详情
📄 引用信息
如果你在研究中使用了该模型,请引用以下内容:
@misc{basile2023llamantino,
title={LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language},
author={Pierpaolo Basile and Elio Musacchio and Marco Polignano and Lucia Siciliani and Giuseppe Fiameni and Giovanni Semeraro},
year={2023},
eprint={2312.09993},
archivePrefix={arXiv},
primaryClass={cs.CL}
}