🚀 LLaMAntino-2-7b-ITA
LLaMA 2をイタリア語に適応させた大規模言語モデルで、イタリア語の自然言語生成タスクに最適。
🚀 クイックスタート
以下にモデルの使用例を示します。
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "swap-uniba/LLaMAntino-2-7b-hf-ITA"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
prompt = "Scrivi qui un possibile prompt"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
outputs = model.generate(input_ids=input_ids)
print(tokenizer.batch_decode(outputs.detach().cpu().numpy()[:, input_ids.shape[1]:], skip_special_tokens=True)[0])
高度な使用法
モデルの読み込み時に問題が発生した場合は、量子化して読み込むことができます。
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_8bit=True)
⚠️ 重要提示
上記のモデル読み込み戦略には、bitsandbytes と accelerate ライブラリが必要です。
✨ 主な機能
LLaMAntino-2-7b は、イタリア語に適応させた Large Language Model (LLM) である LLaMA 2 です。このモデルは、イタリア語の自然言語処理研究者に自然言語生成タスクのベースモデルを提供することを目的としています。
📦 インストール
ドキュメントに具体的なインストール手順が記載されていないため、このセクションは省略されます。
📚 ドキュメント
- 開発者: Pierpaolo Basile, Elio Musacchio, Marco Polignano, Lucia Siciliani, Giuseppe Fiameni, Giovanni Semeraro
- 資金提供: PNRRプロジェクト FAIR - Future AI Research
- コンピューティングインフラストラクチャ: Leonardo スーパーコンピュータ
- モデルタイプ: LLaMA 2
- 言語 (NLP): イタリア語
- ライセンス: Llama 2 Community License
- ファインチューニング元のモデル: meta-llama/Llama-2-7b-hf
モデルは QLora を使用して、トレーニングデータとして clean_mc4_it medium を使用してトレーニングされました。トレーニング手順の詳細に興味がある場合は、以下のリンクから使用したコードを見つけることができます。
- リポジトリ: https://github.com/swapUniba/LLaMAntino
⚠️ 重要提示
コードはまだ公開されておらず、遅れについて申し訳ありません。できるだけ早く利用可能になります!
🔧 技術詳細
ドキュメントに具体的な技術詳細が記載されていないため、このセクションは省略されます。
📄 ライセンス
- このモデルのライセンス: Llama 2 Community License
- 注意: Llama 2は、LLAMA 2 Community Licenseの下でライセンスされており、Copyright © Meta Platforms, Inc. All Rights Reserved. ライセンス
引用
このモデルを研究で使用する場合は、以下を引用してください。
@misc{basile2023llamantino,
title={LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language},
author={Pierpaolo Basile and Elio Musacchio and Marco Polignano and Lucia Siciliani and Giuseppe Fiameni and Giovanni Semeraro},
year={2023},
eprint={2312.09993},
archivePrefix={arXiv},
primaryClass={cs.CL}
}