Ao Karasu 72B开源大模型 - 免费实现日语和英语文本生成应用

首页

Ao Karasu 72B

由 lightblue 开发

Ao Karasu 72B 是一个72B参数规模的大型语言模型，主要用于日语和英语的文本生成任务。

大型语言模型

Transformers

#72B大模型 #日语问答优化 #维基百科增强

下载量 19

发布时间 : 3/11/2024

模型简介

Ao Karasu 72B 是一个基于大规模数据集训练的大型语言模型，支持日语和英语的文本生成，适用于问答、内容创作等任务。

模型特点

大规模参数

拥有72B参数规模，具备强大的文本生成能力。

多语言支持

支持日语和英语的文本生成任务。

高效训练

在A100（80GB）GPU上仅需约1天训练时间。

模型能力

文本生成

问答系统

内容创作

使用案例

问答系统

知识问答

回答用户提出的各类知识性问题，如'英国的首相是谁？'

内容创作

技术博客生成

生成技术相关的博客内容

🚀 轻蓝苍鸦模型（ao-karasu-72B）

轻蓝苍鸦模型（ao-karasu-72B）是一款强大的语言模型，本项目提供了该模型的使用方法、训练细节等相关信息，帮助你快速上手和了解模型背后的技术。

🚀 快速开始

我们建议至少使用 4 张 A100 显卡来运行该模型。

💻 使用示例

基础用法

Huggingface 使用示例

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

tokenizer = AutoTokenizer.from_pretrained("lightblue/ao-karasu-72B")
model = AutoModelForCausalLM.from_pretrained("lightblue/ao-karasu-72B", device_map="auto")

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

messages = [{"role": "system", "content": "あなたはAIアシスタントです。"}]
messages.append({"role": "user", "content": "イギリスの首相は誰ですか？"})

prompt = tokenizer.apply_chat_template(conversation=messages, add_generation_prompt=True, tokenize=False)

pipe(prompt, max_new_tokens=100, do_sample=False, temperature=0.0, return_full_text=False)

vLLM 使用示例

from vllm import LLM, SamplingParams

sampling_params = SamplingParams(temperature=0.0, max_tokens=100)
llm = LLM(model="lightblue/aokarasu-72B", tensor_parallel_size=4)

messages = [{"role": "system", "content": "あなたはAIアシスタントです。"}]
messages.append({"role": "user", "content": "イギリスの首相は誰ですか？"})
prompt = llm.llm_engine.tokenizer.tokenizer.apply_chat_template(conversation=messages, add_generation_prompt=True, tokenize=False)
prompts = [prompt]

outputs = llm.generate(prompts, sampling_params)
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

📚 详细文档

训练细节

训练数据

该模型的训练数据约 2000 万个字符样本，来自一个超过 11 亿字符的数据集，具体构成如下：

属性	详情
维基百科问答数据	约 4.5 亿字符（与 Qarasu 相同）
技术博客数据	约 2 亿字符（新增）
日本问答网站答案数据	约 2 亿字符（新增）
大语言模型生成的提示和响应数据	约 1 亿字符（与 Qarasu 相同）
新闻文章数据	约 7000 万字符（新增）