🚀 UCCIX-Llama2-13B-Instruct モデルカード
UCCIX-Llama2-13B-Instruct 大規模言語モデル(LLM)は、アイルランド語と英語のバイリンガルモデルです。このモデルは両言語を理解でき、アイルランド語のタスクでははるかに大きなモデルを上回る性能を発揮します。
このモデルは Llama 2-13B をベースに構築されており、アイルランド語のネイティブトークンを含むように語彙を拡張し、約 5 億 2000 万のアイルランド語トークンのコレクション(https://huggingface.co/datasets/ReliableAI/Irish-Text-Collection で入手可能)で追加の事前学習を行っています。
その後、モデルが人間の指示に効果的に従う能力を強化するために、教師付き指示微調整を行っています。
UCCIX は、初のオープンソースのアイルランド語ベースの LLM の開発における先駆的な取り組みです。詳細は https://arxiv.org/abs/2405.13010 で確認できます。
モデルとのライブインタラクションはこちらで: https://aine.chat
🚀 クイックスタート
✨ 主な機能
- アイルランド語と英語のバイリンガル対応。
- アイルランド語のタスクで高い性能を発揮。
- Llama 2-13B をベースに語彙拡張と追加の事前学習を行っている。
- 教師付き指示微調整により、人間の指示に従う能力が強化されている。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers torch
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "ReliableAI/UCCIX-Llama2-13B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id,
device_map="auto",
dtype=torch.float16
)
model.eval()
def make_prompt(system_prompt, instruction):
return f"""### Instruction:
{system_prompt}
### Input:
{instruction}
### Response:
"""
user_input = "Do you know about CloudCIX?"
SYSTEM_PROMPT = "You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe."
input_prompt = make_prompt(SYSTEM_PROMPT, user_input)
input_ids = tokenizer(input_prompt, return_tensors="pt")["input_ids"]
generated_token_ids = model.generate(
inputs=input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.6,
top_p=1,
)[0]
generated_text = tokenizer.decode(generated_token_ids)
📚 ドキュメント
指示フォーマット
このフォーマットを厳密に守る必要があります。そうしないと、モデルは最適ではない出力を生成します。
この指示モデルのプロンプトを構築するために使用されるテンプレートは、以下のように定義されています。
### Instruction:
{system_prompt}
### Input:
{instruction1}
### Response:
{respone1}
### Input:
{instruction2}
### Response:
{respone2}
📄 ライセンス
このモデルは apache-2.0
ライセンスの下で提供されています。
🔧 技術詳細
UCCIX は、初のオープンソースのアイルランド語ベースの LLM の開発における先駆的な取り組みです。モデルは Llama 2-13B をベースに構築されており、アイルランド語のネイティブトークンを含むように語彙を拡張し、約 5 億 2000 万のアイルランド語トークンのコレクションで追加の事前学習を行っています。その後、教師付き指示微調整を行って、モデルが人間の指示に効果的に従う能力を強化しています。
注意事項
⚠️ 重要提示
先駆的な取り組みとして、UCCIX モデルは現時点ではモデレーションメカニズムを持っていません。モデルが制限事項を遵守するように改良し、モデレーションされた結果が要求される設定で実装できるように、コミュニティとの協力を予定しています。
引用
@misc{tran2024uccix,
title={UCCIX: Irish-eXcellence Large Language Model},
author={Khanh-Tung Tran and Barry O'Sullivan and Hoang D. Nguyen},
year={2024},
eprint={2405.13010},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
情報テーブル
| 属性 | 详情 |
|------|------|
| ベースモデル | ReliableAI/UCCIX-Llama2-13B |
| データセット | ReliableAI/Irish-Text-Collection |
| 言語 | 英語、アイルランド語 |
| ライセンス | apache-2.0 |
| パイプラインタグ | テキスト生成 |