模型简介
模型特点
模型能力
使用案例
🚀 GPT-fr:法语生成式GPT模型
GPT-fr 是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发的法语GPT模型。该模型在一个非常庞大且多样化的法语语料库上进行训练,可用于语言生成任务,如自动摘要或问答等,有望在学术和工业领域得到应用。
🚀 快速开始
该模型可以通过强大的 Transformers
库来使用。以下是使用示例:
from transformers import GPT2Tokenizer, GPT2LMHeadModel
# 加载预训练模型和分词器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")
# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
✨ 主要特性
- 多配置发布:发布了
gpt-fr-cased-small
和gpt-fr-cased-base
两种配置的模型权重。 - 多任务表现:在文本生成、文本分类、摘要等多种任务上进行了评估,取得了不错的成绩。
- 单GPU适配:通过校准模型,使其在预训练或微调时可以在单个NVIDIA V100 32GB GPU上运行。
📦 安装指南
文档未提及具体安装步骤,可参考 Transformers
库的官方安装说明。
💻 使用示例
基础用法
from transformers import GPT2Tokenizer, GPT2LMHeadModel
# 加载预训练模型和分词器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")
# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
📚 详细文档
模型描述
GPT-fr 是一个用于法语的GPT模型,由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发。该模型在一个非常庞大且多样化的法语语料库上进行训练,发布了以下配置的权重:
模型名称 | 层数 | 注意力头数 | 嵌入维度 | 总参数 |
---|---|---|---|---|
gpt-fr-cased-small |
12 | 12 | 768 | 124 M |
gpt-fr-cased-base |
24 | 14 | 1,792 | 1,017 B |
预期用途和限制
该模型可用于语言生成任务,许多任务可以被格式化为直接以自然语言生成输出的形式,例如自动摘要或问答。但大语言模型往往会复制预训练数据集中的偏差,如性别歧视或生成冒犯性内容。为了减少暴露于过多的明确内容,在选择数据源时进行了仔细筛选,但模型仍可能反映数据中包含的一些社会偏差。
训练数据
为了训练生成模型,创建了一个专用语料库。模型使用固定长度为1,024的上下文大小,需要长文档进行训练。聚合了现有的语料库,包括 Wikipedia、OpenSubtitle (Tiedemann, 2012)、Gutenberg 和 Common Crawl (Li et al., 2019)。对语料库进行了过滤并分割成句子,然后在每个文档不超过1,024个标记的限制内将连续的句子连接起来。
训练过程
在新的CNRS(法国国家科学研究中心)Jean Zay 超级计算机上对模型进行了预训练。在Tesla V-100硬件(TDP为300W)上进行了总共140小时的计算训练,训练分布在4个包含8个GPU的计算节点上。使用数据并行化将每个微批次分配到计算单元上。使用 Lacoste et al., (2019) 中提出的 机器学习影响计算器 估计总排放量为580.61 kgCO2eq。
评估结果
使用一个专门的法语语言模型评估基准对 GPT-fr 进行了评估。与英文的 WikiText 基准类似,从维基百科上经过验证的 优质 和 特色 文章集合中收集了超过7000万个标记。模型在测试集上的零样本困惑度达到了 12.9。
BibTeX引用和引用信息
除了在HuggingFace transformers库中托管的模型外,还维护了一个 git仓库。如果在科学出版物或工业应用中使用 GPT-fr,请引用以下论文:
@inproceedings{simoulin:hal-03265900,
TITLE = {{Un modèle Transformer Génératif Pré-entraîné pour le français}},
AUTHOR = {Simoulin, Antoine and Crabbé, Benoit},
URL = {https://hal.archives-ouvertes.fr/hal-03265900},
BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
ADDRESS = {Lille, France},
EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, Rémi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
PUBLISHER = {{ATALA}},
PAGES = {246-255},
YEAR = {2021},
KEYWORDS = {français. ; GPT ; Génératif ; Transformer ; Pré-entraîné},
PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
HAL_ID = {hal-03265900},
HAL_VERSION = {v1},
}
参考文献
Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218Xian Li, Paul Michel, Antonios Anastasopoulos, Yonatan Belinkov, Nadir Durrani, Orhan Firat, Philipp Koehn, Graham Neubig, Juan Pino, Hassan Sajjad: Findings of the First Shared Task on Machine Translation Robustness. WMT (2) 2019: 91-102Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. CoRR abs/1909.08053 (2019)Alexandre Lacoste, Alexandra Luccioni, Victor Schmidt, Thomas Dandres: Quantifying the Carbon Emissions of Machine Learning. CoRR abs/1910.09700 (2019)
🔧 技术细节
模型使用了 Shoeybi et al., (2019) 的工作,并对模型进行了校准,使得在预训练或微调时,模型可以在单个NVIDIA V100 32GB GPU上运行。
📄 许可证
本项目采用 apache-2.0
许可证。



