calm2-7b（CyberAgentLM2）開源語言模型 - 基於日英數據集實現語言處理應用

首頁

Calm2 7b

由cyberagent開發

CyberAgentLM2 是一個僅解碼器的語言模型，基於公開可用的日語和英語數據集，預訓練了1.3萬億個token。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語優化 #萬億級預訓練 #長文本生成

下載量 748

發布時間 : 11/1/2023

模型概述

CyberAgentLM2 是一個基於Transformer的語言模型，主要用於日語和英語的文本生成任務。

模型特點

大規模預訓練

基於1.3萬億個token進行預訓練，具有強大的語言理解能力。

雙語支持

支持日語和英語兩種語言的文本生成。

長上下文處理

支持4096 tokens的上下文長度，適合處理長文本任務。

模型能力

日語文本生成

英語文本生成

因果語言建模

使用案例

文本生成

日語文章續寫

根據給定的日語提示，生成連貫的文章內容。

英語內容創作

根據英語提示生成各種類型的文本內容。

🚀 CyberAgentLM2-7B (CALM2-7B)

CyberAgentLM2是一個僅解碼器的語言模型，在1.3T公開可用的日語和英語數據集上進行了預訓練。它能為日語和英語相關的自然語言處理任務提供強大支持。

🚀 快速開始

環境準備

確保你已經安裝了以下依賴：

transformers >= 4.34.1
accelerate

代碼示例

import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

assert transformers.__version__ >= "4.34.1"

model = AutoModelForCausalLM.from_pretrained("cyberagent/calm2-7b", device_map="auto", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("cyberagent/calm2-7b")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

prompt = "AIによって私達の暮らしは、"

token_ids = tokenizer.encode(prompt, return_tensors="pt")
output_ids = model.generate(
    input_ids=token_ids.to(model.device),
    max_new_tokens=100,
    do_sample=True,
    temperature=0.9,
    streamer=streamer,
)

✨ 主要特性

基於Transformer架構的語言模型，在日語和英語數據集上預訓練。
有對應的聊天版本CyberAgentLM2-Chat。

📦 安裝指南

安裝所需的依賴庫：

pip install transformers>=4.34.1 accelerate

💻 使用示例

基礎用法

import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

assert transformers.__version__ >= "4.34.1"

model = AutoModelForCausalLM.from_pretrained("cyberagent/calm2-7b", device_map="auto", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("cyberagent/calm2-7b")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

prompt = "AIによって私達の暮らしは、"

token_ids = tokenizer.encode(prompt, return_tensors="pt")
output_ids = model.generate(
    input_ids=token_ids.to(model.device),
    max_new_tokens=100,
    do_sample=True,
    temperature=0.9,
    streamer=streamer,
)

📚 詳細文檔

模型詳情

屬性	詳情
模型大小	7B
訓練token數	1.3T tokens
上下文長度	4096
模型類型	基於Transformer的語言模型
支持語言	日語、英語
開發者	CyberAgent, Inc.
許可證	Apache-2.0

📄 許可證

本項目使用Apache-2.0許可證。

👨‍💻 作者

Ryosuke Ishigami

📚 引用

@article{touvron2023llama,
  title={LLaMA: Open and Efficient Foundation Language Models},
  author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{\'e}e and Rozi{\`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and Rodriguez, Aurelien and Joulin, Armand and Grave, Edouard and Lample, Guillaume},
  journal={arXiv preprint arXiv:2302.13971},
  year={2023}
}