gpt-fr-cased-base開源法語GPT模型 - 基於大語料庫訓練助力法語應用

首頁

Gpt Fr Cased Base

由asi開發

GPT-fr是由Quantmetry和形式語言學實驗室(LLF)開發的法語GPT模型，在大型多樣化的法語語料庫上訓練。

大型語言模型法語開源協議:Apache-2.0 #法語文本生成 #多任務適配 #高參數模型

下載量 755

發布時間 : 3/2/2022

模型概述

這是一個基於Transformer架構的法語語言模型，可用於文本生成、文本分類和摘要生成等自然語言處理任務。

模型特點

法語優化

專門針對法語語言特性進行訓練和優化

多任務能力

支持文本生成、分類和摘要等多種NLP任務

大規模訓練

在大型多樣化法語語料庫上訓練，包括維基百科、OpenSubtitle等數據源

模型能力

法語文本生成

文本分類

自動摘要

問答系統

使用案例

內容生成

文章續寫

根據給定的開頭生成連貫的法語文章

文本分類

產品評論分類

對書籍、DVD和音樂評論進行分類

準確率91.4%-92.6%

摘要生成

新聞摘要

生成法語新聞文章的簡短摘要

ROUGE-1得分16.6

🚀 GPT-fr：法語生成式GPT模型

GPT-fr 是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 開發的法語GPT模型。該模型在一個非常龐大且多樣化的法語語料庫上進行訓練，可用於語言生成任務，如自動摘要或問答等，有望在學術和工業領域得到應用。

🚀 快速開始

該模型可以通過強大的 Transformers 庫來使用。以下是使用示例：

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# 加載預訓練模型和分詞器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

✨ 主要特性

多配置發佈：發佈了 gpt-fr-cased-small 和 gpt-fr-cased-base 兩種配置的模型權重。
多任務表現：在文本生成、文本分類、摘要等多種任務上進行了評估，取得了不錯的成績。
單GPU適配：通過校準模型，使其在預訓練或微調時可以在單個NVIDIA V100 32GB GPU上運行。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 Transformers 庫的官方安裝說明。

💻 使用示例

基礎用法

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# 加載預訓練模型和分詞器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

📚 詳細文檔

模型描述

GPT-fr 是一個用於法語的GPT模型，由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 開發。該模型在一個非常龐大且多樣化的法語語料庫上進行訓練，發佈了以下配置的權重：

模型名稱	層數	注意力頭數	嵌入維度	總參數
`gpt-fr-cased-small`	12	12	768	124 M
`gpt-fr-cased-base`	24	14	1,792	1,017 B

預期用途和限制

該模型可用於語言生成任務，許多任務可以被格式化為直接以自然語言生成輸出的形式，例如自動摘要或問答。但大語言模型往往會複製預訓練數據集中的偏差，如性別歧視或生成冒犯性內容。為了減少暴露於過多的明確內容，在選擇數據源時進行了仔細篩選，但模型仍可能反映數據中包含的一些社會偏差。

訓練數據

為了訓練生成模型，創建了一個專用語料庫。模型使用固定長度為1,024的上下文大小，需要長文檔進行訓練。聚合了現有的語料庫，包括 Wikipedia、OpenSubtitle (Tiedemann, 2012)、Gutenberg 和 Common Crawl (Li et al., 2019)。對語料庫進行了過濾並分割成句子，然後在每個文檔不超過1,024個標記的限制內將連續的句子連接起來。

訓練過程

在新的CNRS（法國國家科學研究中心）Jean Zay 超級計算機上對模型進行了預訓練。在Tesla V-100硬件（TDP為300W）上進行了總共140小時的計算訓練，訓練分佈在4個包含8個GPU的計算節點上。使用數據並行化將每個微批次分配到計算單元上。使用 Lacoste et al., (2019) 中提出的機器學習影響計算器估計總排放量為580.61 kgCO2eq。

評估結果

使用一個專門的法語語言模型評估基準對 GPT-fr 進行了評估。與英文的 WikiText 基準類似，從維基百科上經過驗證的優質和特色文章集合中收集了超過7000萬個標記。模型在測試集上的零樣本困惑度達到了 12.9。

BibTeX引用和引用信息

除了在HuggingFace transformers庫中託管的模型外，還維護了一個 git倉庫。如果在科學出版物或工業應用中使用 GPT-fr，請引用以下論文：

@inproceedings{simoulin:hal-03265900,
  TITLE = {{Un modèle Transformer Génératif Pré-entraîné pour le français}},
  AUTHOR = {Simoulin, Antoine and Crabbé, Benoit},
  URL = {https://hal.archives-ouvertes.fr/hal-03265900},
  BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
  ADDRESS = {Lille, France},
  EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, Rémi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
  PUBLISHER = {{ATALA}},
  PAGES = {246-255},
  YEAR = {2021},
  KEYWORDS = {français. ; GPT ; Génératif ; Transformer ; Pré-entraîné},
  PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
  HAL_ID = {hal-03265900},
  HAL_VERSION = {v1},
}

參考文獻

Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218

Xian Li, Paul Michel, Antonios Anastasopoulos, Yonatan Belinkov, Nadir Durrani, Orhan Firat, Philipp Koehn, Graham Neubig, Juan Pino, Hassan Sajjad: Findings of the First Shared Task on Machine Translation Robustness. WMT (2) 2019: 91-102

Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. CoRR abs/1909.08053 (2019)

Alexandre Lacoste, Alexandra Luccioni, Victor Schmidt, Thomas Dandres: Quantifying the Carbon Emissions of Machine Learning. CoRR abs/1910.09700 (2019)