OpenCALM-3B开源语言模型 - 基于日语数据集训练，免费畅用文本处理

首页

Open Calm 3b

由 cyberagent 开发

OpenCALM是由CyberAgent公司开发的基于日语数据集预训练的仅解码器语言模型系列中的3B参数版本。

大型语言模型

Transformers

日语#日语生成 #因果语言模型 #大规模预训练

下载量 850

发布时间 : 5/15/2023

模型简介

OpenCALM-3B是一个27亿参数的日语语言模型，基于Transformer架构，专注于日语文本生成任务。

模型特点

日语优化

专门针对日语文本进行训练和优化

多规模选择

提供从1.6亿到68亿参数的不同规模模型选择

开源许可

采用CC BY-SA 4.0开源许可协议

模型能力

日语文本生成

文本补全

对话生成

使用案例

内容创作

文章续写

根据给定的开头续写完整的文章

生成连贯的日语文本

对话系统

日语聊天机器人

构建日语对话系统

生成自然的日语对话回复

🚀 OpenCALM-3B

OpenCALM是由CyberAgent公司开发的一系列仅含解码器的语言模型，在日语数据集上进行了预训练，能够为日语相关的自然语言处理任务提供强大的支持。

🚀 快速开始

OpenCALM是一套仅含解码器的语言模型，由CyberAgent公司开发，在日语数据集上进行了预训练。以下是使用该模型的示例代码：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("cyberagent/open-calm-3b", device_map="auto", torch_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained("cyberagent/open-calm-3b")

inputs = tokenizer("AIによって私達の暮らしは、", return_tensors="pt").to(model.device)
with torch.no_grad():
    tokens = model.generate(
        **inputs,
        max_new_tokens=64,
        do_sample=True,
        temperature=0.7,
        top_p=0.9,
        repetition_penalty=1.05,
        pad_token_id=tokenizer.pad_token_id,
    )
    
output = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(output)

📚 详细文档

模型详情

模型	参数数量	层数	维度	头数	开发集困惑度
cyberagent/open-calm-small	1.6亿	12	768	12	19.7
cyberagent/open-calm-medium	4亿	24	1024	16	13.8
cyberagent/open-calm-large	8.3亿	24	1536	16	11.3
cyberagent/open-calm-1b	14亿	24	2048	16	10.3
cyberagent/open-calm-3b	27亿	32	2560	32	9.7
cyberagent/open-calm-7b	68亿	32	4096	32	8.2

开发者：CyberAgent公司
模型类型：基于Transformer的语言模型
支持语言：日语
使用库：GPT-NeoX
许可证：OpenCALM采用知识共享署名 - 相同方式共享4.0国际许可协议（CC BY - SA 4.0）。使用此模型时，请向CyberAgent公司提供适当的引用。
- 英文示例：This model is a fine - tuned version of OpenCALM - XX developed by CyberAgent, Inc. The original model is released under the CC BY - SA 4.0 license, and this model is also released under the same CC BY - SA 4.0 license. For more information, please visit: https://creativecommons.org/licenses/by - sa/4.0/
- 日文示例：本モデルは、株式会社サイバーエージェントによるOpenCALM - XXをファインチューニングしたものです。元のモデルはCC BY - SA 4.0ライセンスのもとで公開されており、本モデルも同じくCC BY - SA 4.0ライセンスで公開します。詳しくはこちらをご覧ください: https://creativecommons.org/licenses/by - sa/4.0/

训练数据集

日语维基百科
日语Common Crawl数据集

作者

石上亮介

引用信息

@software{gpt-neox-library,
  title = {{GPT-NeoX: Large Scale Autoregressive Language Modeling in PyTorch}},
  author = {Andonian, Alex and Anthony, Quentin and Biderman, Stella and Black, Sid and Gali, Preetham and Gao, Leo and Hallahan, Eric and Levy-Kramer, Josh and Leahy, Connor and Nestler, Lucas and Parker, Kip and Pieler, Michael and Purohit, Shivanshu and Songz, Tri and Phil, Wang and Weinbach, Samuel},
  url = {https://www.github.com/eleutherai/gpt-neox},
  doi = {10.5281/zenodo.5879544},
  month = {8},
  year = {2021},
  version = {0.0.1},
}