模型概述
模型特點
模型能力
使用案例
🚀 RakutenAI-7B-instruct
RakutenAI-7B-instruct是一個系統性的項目,它將最新技術引入了日語大語言模型領域。該模型在日語理解基準測試中取得了最佳成績,同時在英語測試集上,與OpenCalm、Elyza、Youri、Nekomata和Swallow等類似模型相比,也保持著有競爭力的表現。
🚀 快速開始
你可以使用以下Python代碼來調用RakutenAI-7B-instruct模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "Rakuten/RakutenAI-7B-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype="auto", device_map="auto")
model.eval()
requests = [
"「馬が合う」はどう言う意味ですか",
"How to make an authentic Spanish Omelette?",
]
system_message = "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {user_input} ASSISTANT:"
for req in requests:
input_req = system_message.format(user_input=req)
input_ids = tokenizer.encode(input_req, return_tensors="pt").to(device=model.device)
tokens = model.generate(
input_ids,
max_new_tokens=1024,
do_sample=True,
pad_token_id=tokenizer.eos_token_id,
)
out = tokenizer.decode(tokens[0][len(input_ids[0]):], skip_special_tokens=True)
print("USER:\n" + req)
print("ASSISTANT:\n" + out)
print()
print()
✨ 主要特性
- 卓越性能:RakutenAI-7B在日語語言理解基準測試中取得了最佳成績,在英語測試集上也有競爭力。
- 架構優勢:利用Mistral模型架構,基於Mistral-7B-v0.1預訓練檢查點,成功改造了預訓練模型權重。
- 詞彙擴展:將Mistral的詞彙量從32k擴展到48k,為日語提供了更好的字符/標記率。
📚 詳細文檔
模型描述
RakutenAI-7B是一個系統性的項目,它將最新技術引入了日語大語言模型領域。RakutenAI-7B在日語語言理解基準測試中取得了最佳成績,同時在英語測試集上,與OpenCalm、Elyza、Youri、Nekomata和Swallow等類似模型相比,也保持著有競爭力的表現。RakutenAI-7B利用Mistral模型架構,基於Mistral-7B-v0.1預訓練檢查點,成功改造了預訓練模型權重。此外,我們將Mistral的詞彙量從32k擴展到48k,為日語提供了更好的字符/標記率。
技術報告可在arXiv上獲取。
如果你正在尋找基礎模型,請查看RakutenAI-7B。
如果你正在尋找聊天調優模型,請查看RakutenAI-7B-chat。
模型評估結果
日語評估結果
模型名稱 | 7-Avg. excl. XLSum-ja | Avg. | JCS | JNLI | MARC-ja | JSQuAD | Jaqket v2 | XLSum-ja | xWino | MGSM |
---|---|---|---|---|---|---|---|---|---|---|
準確率 | 準確率 | 準確率 | 精確匹配率 | 精確匹配率 | rouge-2 | 準確率 | 準確率 | |||
3次樣本 | 3次樣本 | 3次樣本 | 2次樣本 | 1次樣本 | 1次樣本 | 0次樣本 | 5次樣本 | |||
rakuten-ai-7b-instruct | 77.32 | 68.74 | 93.03 | 90.39 | 96.00 | 80.44 | 81.79 | 8.67 | 75.18 | 24.40 |
youri-7b-instruction | 73.35 | 66.84 | 86.06 | 70.13 | 97.03 | 82.53 | 79.47 | 21.29 | 79.04 | 19.20 |
japanese-stablelm-instruct-gamma-7b | 65.46 | 59.98 | 83.82 | 16.97 | 95.68 | 76.20 | 81.87 | 21.58 | 82.06 | 21.60 |
swallow-7b-instruct | 64.29 | 58.25 | 83.38 | 26.50 | 94.46 | 75.62 | 81.01 | 16.01 | 76.23 | 12.80 |
elyza-japanese-Llama-2-7b-instruct | 60.04 | 53.19 | 65.15 | 57.44 | 91.51 | 67.29 | 58.51 | 5.20 | 70.80 | 9.60 |
elyza-japanese-Llama-2-7b-fast-instruct | 57.22 | 50.48 | 70.69 | 36.48 | 92.75 | 68.87 | 62.29 | 3.36 | 59.44 | 10.00 |
nekomata-7b-instruction | 49.04 | 44.14 | 85.08 | 42.48 | 96.99 | 8.51 | 10.91 | 9.81 | 76.12 | 23.20 |
我們的模型取得了最高的平均分數,比次佳模型高出3分以上。模型按7-Avg.排序。我們使用以下提交的代碼進行日語LM-Harness測試:https://github.com/Stability-AI/lm-evaluation-harness/tree/0fa86429679f521161d5b81a94c0c385e0a0976d ,提示版本為v0.3。
英語評估結果
模型名稱 | Avg. | ARC | HellaSwag | MMLU | TruthfulQA |
---|---|---|---|---|---|
準確率 | 準確率 | 準確率 | 準確率 | ||
25次樣本 | 10次樣本 | 5次樣本 | 6次樣本 | ||
rakuten-ai-7b-instruct | 61.32 | 58.62 | 82.70 | 60.32 | 43.63 |
japanese-stablelm-instruct-gamma-7b | 55.91 | 50.43 | 77.10 | 54.61 | 41.50 |
elyza-japanese-Llama-2-7b-fast-instruct | 54.21 | 53.58 | 77.69 | 46.91 | 38.67 |
elyza-japanese-Llama-2-7b-instruct | 54.07 | 52.05 | 78.33 | 47.09 | 38.83 |
nekomata-7b-instruction | 52.84 | 50.34 | 73.67 | 48.53 | 38.81 |
youri-7b-instruction | 52.11 | 48.98 | 75.66 | 45.41 | 38.38 |
swallow-7b-instruct | 50.32 | 47.61 | 72.27 | 40.77 | 40.62 |
我們的模型取得了最高的平均分數,比次佳模型高出5分以上。我們使用以下提交的代碼進行英語LM-Harness測試:https://github.com/EleutherAI/lm-evaluation-harness/tree/b281b0921b636bc36ad05c0b0b0763bd6dd43463。
Kamata等人對Nejumi LLMリーダーボード Neo進行的獨立評估,使用了llm-jp-eval和Japanese MT-bench的加權平均值,也證實了截至2024年3月22日,RakutenAI-7B的聊天/指令版本在類似規模的開源大語言模型中表現最佳,分數分別為0.393/0.331。
模型詳情
屬性 | 詳情 |
---|---|
開發者 | 樂天集團(Rakuten Group, Inc.) |
支持語言 | 日語、英語 |
許可證 | 本模型遵循Apache許可證2.0版。 |
指令調優數據集 | 我們使用開源數據集和內部手工製作的數據集對基礎模型進行微調,以創建RakutenAI-7B-instruct和RakutenAI-7B-chat。我們使用以下數據集的train 部分(CC by-SA許可證)進行指令調優和聊天調優模型:- JSNLI - RTE - KUCI - BELEBELE - JCS - JNLI - Dolly-15K - OpenAssistant1 |
侷限性和偏差
RakutenAI-7B系列模型能夠在廣泛的主題上生成類似人類的文本。然而,像所有大語言模型一樣,它們也有侷限性,可能會產生有偏差、不準確或不安全的輸出。在與它們交互時,請謹慎並運用判斷力。
🔧 技術細節
RakutenAI-7B利用Mistral模型架構,基於Mistral-7B-v0.1預訓練檢查點,成功改造了預訓練模型權重。此外,我們將Mistral的詞彙量從32k擴展到48k,為日語提供了更好的字符/標記率。
📄 許可證
本模型遵循Apache許可證2.0版。
📚 引用
如需引用我們在RakutenAI-7B系列模型上的工作,請使用以下格式:
@misc{rakutengroup2024rakutenai7b,
title={RakutenAI-7B: Extending Large Language Models for Japanese},
author={{Rakuten Group, Inc.} and Aaron Levine and Connie Huang and Chenguang Wang and Eduardo Batista and Ewa Szymanska and Hongyi Ding and Hou Wei Chou and Jean-François Pessiot and Johanes Effendi and Justin Chiu and Kai Torben Ohlhus and Karan Chopra and Keiji Shinzato and Koji Murakami and Lee Xiong and Lei Chen and Maki Kubota and Maksim Tkachenko and Miroku Lee and Naoki Takahashi and Prathyusha Jwalapuram and Ryutaro Tatsushima and Saurabh Jain and Sunil Kumar Yadav and Ting Cai and Wei-Te Chen and Yandi Xia and Yuki Nakayama and Yutaka Higashiyama},
year={2024},
eprint={2403.15484},
archivePrefix={arXiv},
primaryClass={cs.CL}
}



