🚀 LLaMAntino-2-7b-ITA模型介紹
LLaMAntino-2-7b-ITA是一款意大利語適配的大語言模型,基於LLaMA 2開發。它為意大利的自然語言處理研究者提供了用於自然語言生成任務的基礎模型。
🚀 快速開始
以下是使用該模型的示例代碼:
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "swap-uniba/LLaMAntino-2-7b-hf-ITA"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
prompt = "Scrivi qui un possibile prompt"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
outputs = model.generate(input_ids=input_ids)
print(tokenizer.batch_decode(outputs.detach().cpu().numpy()[:, input_ids.shape[1]:], skip_special_tokens=True)[0])
高級用法
如果你在加載模型時遇到問題,可以嘗試以量化方式加載:
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_8bit=True)
⚠️ 重要提示
上述模型加載策略需要安裝 bitsandbytes 和 accelerate 庫。
✨ 主要特性
- 意大利語適配:專為意大利語自然語言處理任務設計,為意大利的研究者提供了更貼合需求的基礎模型。
- 基於QLora訓練:使用QLora方法進行訓練,提高了模型的性能和效率。
📦 安裝指南
文檔中未提及具體安裝步驟,暫不提供。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
LLaMA 2 |
訓練數據 |
clean_mc4_it medium |
開發者 |
Pierpaolo Basile、Elio Musacchio、Marco Polignano、Lucia Siciliani、Giuseppe Fiameni、Giovanni Semeraro |
資助項目 |
PNRR項目FAIR - Future AI Research |
計算基礎設施 |
Leonardo超級計算機 |
語言 |
意大利語 |
許可證 |
Llama 2 Community License |
微調基礎模型 |
meta-llama/Llama-2-7b-hf |
訓練代碼
如果你對訓練過程的更多細節感興趣,可以在以下鏈接找到我們使用的代碼:
- 倉庫地址:https://github.com/swapUniba/LLaMAntino
⚠️ 重要提示
代碼尚未發佈,我們對延遲表示歉意,代碼將盡快上線!
🔧 技術細節
文檔中未提供具體技術細節,暫不展示。
📄 許可證
本模型使用Llama 2 Community License。Llama 2由Meta Platforms, Inc.版權所有,保留所有權利。許可證詳情
📄 引用信息
如果你在研究中使用了該模型,請引用以下內容:
@misc{basile2023llamantino,
title={LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language},
author={Pierpaolo Basile and Elio Musacchio and Marco Polignano and Lucia Siciliani and Giuseppe Fiameni and Giovanni Semeraro},
year={2023},
eprint={2312.09993},
archivePrefix={arXiv},
primaryClass={cs.CL}
}