papuGaPT2开源文本生成模型 - 免费可用，助力波兰语文本创作

首页

Papugapt2

由 flax-community 开发

基于GPT2架构的波兰语文本生成模型，填补了波兰语NLP领域空白，采用多语言Oscar语料库训练

大型语言模型其他#波兰语文本生成 #零样本推理 #少样本学习

下载量 804

发布时间 : 3/2/2022

模型简介

遵循标准GPT2架构的波兰语因果语言模型，主要用于文本生成和下游任务微调，支持研究用途

模型特点

波兰语优化

首个专门针对波兰语优化的GPT2模型，填补了该语言的技术空白

多阶段训练

采用三阶段渐进式训练策略，逐步降低学习率优化模型性能

偏见分析

提供基础偏见分析工具，揭示模型在性别、民族等维度的潜在偏见

模型能力

波兰语文本生成

零样本学习

少样本学习

历史知识问答

情感分析

使用案例

学术研究

语言模型偏见研究

利用内置偏见分析工具研究模型的社会偏见

已识别性别职业偏见（如男性多关联程序员，女性多关联服务员）

内容生成

波兰文学创作

生成波兰语文学作品片段

能准确生成关于波兰诗人密茨凯维奇的描述

🚀 papuGaPT2 - 波兰语GPT2语言模型

papuGaPT2是一个基于GPT2架构的波兰语语言模型，旨在解决波兰语缺乏强大文本生成模型的问题，为波兰自然语言处理研究提供支持。

🚀 快速开始

GPT2于2019年发布，其文本生成能力令人瞩目。但直至近期，波兰语领域仍缺乏强大的文本生成模型，限制了波兰自然语言处理从业者的研究。本模型的发布有望推动相关研究。

✨ 主要特性

遵循标准GPT2架构和训练方法，采用因果语言建模（CLM）目标，训练模型预测单词序列中的下一个单词（标记）。
可直接用于文本生成，也能针对下游任务进行微调。

📦 安装指南

使用以下代码加载训练数据集：

from datasets import load_dataset
dataset = load_dataset('oscar', 'unshuffled_deduplicated_pl')

💻 使用示例

基础用法

from transformers import pipeline, set_seed
generator = pipeline('text-generation', model='flax-community/papuGaPT2')
set_seed(42)
generator('Największym polskim poetą był')

高级用法

from transformers import AutoTokenizer, AutoModelWithLMHead
model = AutoModelWithLMHead.from_pretrained('flax-community/papuGaPT2')
tokenizer = AutoTokenizer.from_pretrained('flax-community/papuGaPT2')
set_seed(42)  # reproducibility
input_ids = tokenizer.encode('Największym polskim poetą był', return_tensors='pt')

sample_outputs = model.generate(
    input_ids,
    do_sample=True, 
    max_length=50, 
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=3
)

print("Output:\n" + 100 * '-')
for i, sample_output in enumerate(sample_outputs):
  print("{}: {}".format(i, tokenizer.decode(sample_output, skip_special_tokens=True)))

避免生成不良词汇

input_ids = tokenizer.encode('Mój ulubiony gatunek muzyki to', return_tensors='pt')

bad_words = [' disco', ' rock', ' pop', ' soul', ' reggae', ' hip-hop']
bad_word_ids = []
for bad_word in bad_words: 
  ids = tokenizer(bad_word).input_ids
  bad_word_ids.append(ids)
  
sample_outputs = model.generate(
    input_ids,
    do_sample=True, 
    max_length=20, 
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=5,
    bad_words_ids=bad_word_ids
)

print("Output:\n" + 100 * '-')
for i, sample_output in enumerate(sample_outputs):
  print("{}: {}".format(i, tokenizer.decode(sample_output, skip_special_tokens=True)))

少样本学习

prompt = """Tekst: "Nienawidzę smerfów!"
Sentyment: Negatywny
###
Tekst: "Jaki piękny dzień 👍"
Sentyment: Pozytywny
###
Tekst: "Jutro idę do kina"
Sentyment: Neutralny
###
Tekst: "Ten przepis jest świetny!"
Sentyment:"""

res = generator(prompt, max_length=85, temperature=0.5, end_sequence='###', return_full_text=False, num_return_sequences=5,)
for x in res: 
  print(res[i]['generated_text'].split(' ')[1])

零样本推理

prompt = "Bitwa pod Grunwaldem miała miejsce w roku"
input_ids = tokenizer.encode(prompt, return_tensors='pt')
# activate beam search and early_stopping
beam_outputs = model.generate(
    input_ids, 
    max_length=20, 
    num_beams=5, 
    early_stopping=True,
    num_return_sequences=3
)

print("Output:\n" + 100 * '-')
for i, sample_output in enumerate(beam_outputs):
  print("{}: {}".format(i, tokenizer.decode(sample_output, skip_special_tokens=True)))

📚 详细文档

预期用途与局限性

原始模型可用于文本生成或针对下游任务进行微调。但该模型基于网络抓取的数据进行训练，可能生成包含暴力、性暗示、粗俗语言和毒品使用的文本，也会反映数据集中的偏差。这些局限性可能也会出现在微调后的模型中。现阶段，不建议在研究之外使用该模型。

偏差分析

模型中存在多种偏差来源，在探索模型能力时需谨慎对待。可在此笔记本中查看基本的偏差分析。

性别偏差

以 “She/He works as” 为提示生成50篇文本，生成的男女职业词云图显示，男性职业中最突出的词汇有教师、销售代表、程序员；女性职业中最突出的词汇有模特、护理人员、接待员、服务员。 gender bias

种族/国籍/性别偏差

生成1000篇文本评估种族、国籍和性别维度的偏差。使用波兰仇恨言论语料库训练的模型评估每篇生成文本包含仇恨言论的概率。结果显示，各种族/国籍的仇恨得分均高于中性基线，男性的仇恨得分高于女性。 hate score by ethnicity hate score by gender

训练过程

训练脚本

使用 Flax的因果语言建模脚本完成训练。

预处理和训练细节

使用字节级的字节对编码（BPE）对文本进行分词，词汇表大小为50,257。输入为连续512个标记的序列。模型在单个TPUv3 VM上进行训练，训练过程分为3部分：

学习率1e-3，批次大小64，线性调度，热身1000步，10个周期，70,000步后停止，评估损失3.206，困惑度24.68。
学习率3e-4，批次大小64，线性调度，热身5000步，7个周期，77,000步后停止，评估损失3.116，困惑度22.55。
学习率2e-4，批次大小64，线性调度，热身5000步，3个周期，91,000步后停止，评估损失3.082，困惑度21.79。

评估结果

使用95%的数据集进行训练，5%的数据集进行评估。最终检查点评估结果如下：

属性	详情
评估损失	3.082
困惑度	21.79

🔧 技术细节

模型遵循标准GPT2架构，采用因果语言建模（CLM）目标进行训练，使用字节级的字节对编码（BPE）进行分词，在单个TPUv3 VM上完成训练。

📄 许可证

@misc{papuGaPT2,
  title={papuGaPT2 - Polish GPT2 language model},
  url={https://huggingface.co/flax-community/papuGaPT2},
  author={Wojczulis, Michał and Kłeczek, Dariusz},
  year={2021}
}