🚀 法国GPT模型(GPT - fr)
GPT - fr 是由 Quantmetry 和 形式语言学实验室(LLF) 开发的一款针对法语的GPT模型。该模型在一个非常庞大且多样化的法语语料库上进行训练,能够有效处理多种自然语言处理任务,为法语相关的学术研究和工业应用提供了有力支持。
🚀 快速开始
模型调用示例
你可以通过强大的 Transformers
库来使用这个模型:
from transformers import GPT2Tokenizer, GPT2LMHeadModel
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-small")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-small")
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
✨ 主要特性
- 多任务处理:可用于语言生成任务,还能处理自动摘要、问答等多种自然语言处理任务。
- 多配置选择:提供了不同配置的模型权重,如
gpt - fr - cased - small
和 gpt - fr - cased - base
,以满足不同场景的需求。
📚 详细文档
模型描述
我们在一个大规模且多样化的法语语料库上训练该模型,并发布了以下配置的权重:
模型名称 |
层数 |
注意力头数 |
嵌入维度 |
总参数 |
gpt - fr - cased - small |
12 |
12 |
768 |
124 M |
gpt - fr - cased - base |
24 |
14 |
1,792 |
1,017 B |
预期用途与限制
预期用途
该模型可用于语言生成任务,并且可以将许多任务进行格式化处理,使其直接以自然语言生成输出,适用于学术和工业应用。
限制和偏差
大型语言模型往往会复制预训练数据集中存在的偏差,如性别歧视或生成冒犯性内容。为了减少接触过多的明确材料,我们事先仔细选择了数据源。但模型仍可能反映数据中包含的一些社会偏差。例如,在性别平等方面,模型生成的句子可能会因主体性别不同而产生不同的职位描述。我们非常欢迎你提供反馈,以便更好地从定性和定量角度评估这些影响。
训练数据
为了训练这个生成模型,我们创建了一个专门的语料库。该模型使用固定长度为1024的上下文大小,需要长文档进行训练。我们整合了多个现有语料库,包括 维基百科、OpenSubtitle ([Tiedemann, 2012](#tiedemann - 2012)) 和 古腾堡计划。对语料库进行过滤并分割成句子,然后在每个文档最多1024个标记的限制内将连续的句子连接起来。
训练过程
我们使用令人惊叹的 Google Colab 跨服务器在TPU v2 - 8上对模型进行了预训练。
评估结果
我们为 GPT - fr 配备了专门的语言模型评估基准。参照英文的 [WikiText](https://blog.einstein.ai/the - wikitext - long - term - dependency - language - modeling - dataset/) 基准,我们从法语维基百科的经过验证的 优质 和 特色 文章集中收集了超过7000万个标记。该模型在测试集上的零样本困惑度达到了 109.2。
模型指标
任务类型 |
任务名称 |
数据集 |
指标 |
值 |
文本生成 |
Wikitext - fr |
Wikitext - fr |
困惑度 |
109.2 |
文本分类 |
FLUE |
CLS - Books |
准确率 |
88.3 |
文本分类 |
FLUE |
CLS - Dvd |
准确率 |
86.9 |
文本分类 |
FLUE |
CLS - Music |
准确率 |
89.3 |
文本分类 |
FLUE |
PAWS - X |
准确率 |
83.3 |
文本分类 |
FLUE |
XNLI |
准确率 |
75.6 |
摘要生成 |
OrangeSum - Abstract |
OrangeSum - Abstract |
ROUGE - 1 |
17.5 |
摘要生成 |
OrangeSum - Abstract |
OrangeSum - Abstract |
ROUGE - 2 |
3.1 |
摘要生成 |
OrangeSum - Abstract |
OrangeSum - Abstract |
ROUGE - L |
12.1 |
摘要生成 |
OrangeSum - Title |
OrangeSum - Title |
ROUGE - 1 |
13.9 |
摘要生成 |
OrangeSum - Title |
OrangeSum - Title |
ROUGE - 2 |
2.3 |
摘要生成 |
OrangeSum - Title |
OrangeSum - Title |
ROUGE - L |
9.7 |
BibTeX引用和引用信息
如果你在科学出版物或工业应用中使用 GPT - fr,请引用以下论文:
@inproceedings{simoulin:hal-03265900,
TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
URL = {https://hal.archives-ouvertes.fr/hal-03265900},
BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
ADDRESS = {Lille, France},
EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
PUBLISHER = {{ATALA}},
PAGES = {246-255},
YEAR = {2021},
KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
HAL_ID = {hal-03265900},
HAL_VERSION = {v1},
}
参考文献
Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214 - 2218
📄 许可证
本模型遵循 apache - 2.0
许可证。