模型概述
模型特點
模型能力
使用案例
🚀 GPT-fr:法語生成式GPT模型
GPT-fr 是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 開發的法語GPT模型。該模型在一個非常龐大且多樣化的法語語料庫上進行訓練,可用於語言生成任務,如自動摘要或問答等,有望在學術和工業領域得到應用。
🚀 快速開始
該模型可以通過強大的 Transformers
庫來使用。以下是使用示例:
from transformers import GPT2Tokenizer, GPT2LMHeadModel
# 加載預訓練模型和分詞器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")
# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
✨ 主要特性
- 多配置發佈:發佈了
gpt-fr-cased-small
和gpt-fr-cased-base
兩種配置的模型權重。 - 多任務表現:在文本生成、文本分類、摘要等多種任務上進行了評估,取得了不錯的成績。
- 單GPU適配:通過校準模型,使其在預訓練或微調時可以在單個NVIDIA V100 32GB GPU上運行。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 Transformers
庫的官方安裝說明。
💻 使用示例
基礎用法
from transformers import GPT2Tokenizer, GPT2LMHeadModel
# 加載預訓練模型和分詞器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")
# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
📚 詳細文檔
模型描述
GPT-fr 是一個用於法語的GPT模型,由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 開發。該模型在一個非常龐大且多樣化的法語語料庫上進行訓練,發佈了以下配置的權重:
模型名稱 | 層數 | 注意力頭數 | 嵌入維度 | 總參數 |
---|---|---|---|---|
gpt-fr-cased-small |
12 | 12 | 768 | 124 M |
gpt-fr-cased-base |
24 | 14 | 1,792 | 1,017 B |
預期用途和限制
該模型可用於語言生成任務,許多任務可以被格式化為直接以自然語言生成輸出的形式,例如自動摘要或問答。但大語言模型往往會複製預訓練數據集中的偏差,如性別歧視或生成冒犯性內容。為了減少暴露於過多的明確內容,在選擇數據源時進行了仔細篩選,但模型仍可能反映數據中包含的一些社會偏差。
訓練數據
為了訓練生成模型,創建了一個專用語料庫。模型使用固定長度為1,024的上下文大小,需要長文檔進行訓練。聚合了現有的語料庫,包括 Wikipedia、OpenSubtitle (Tiedemann, 2012)、Gutenberg 和 Common Crawl (Li et al., 2019)。對語料庫進行了過濾並分割成句子,然後在每個文檔不超過1,024個標記的限制內將連續的句子連接起來。
訓練過程
在新的CNRS(法國國家科學研究中心)Jean Zay 超級計算機上對模型進行了預訓練。在Tesla V-100硬件(TDP為300W)上進行了總共140小時的計算訓練,訓練分佈在4個包含8個GPU的計算節點上。使用數據並行化將每個微批次分配到計算單元上。使用 Lacoste et al., (2019) 中提出的 機器學習影響計算器 估計總排放量為580.61 kgCO2eq。
評估結果
使用一個專門的法語語言模型評估基準對 GPT-fr 進行了評估。與英文的 WikiText 基準類似,從維基百科上經過驗證的 優質 和 特色 文章集合中收集了超過7000萬個標記。模型在測試集上的零樣本困惑度達到了 12.9。
BibTeX引用和引用信息
除了在HuggingFace transformers庫中託管的模型外,還維護了一個 git倉庫。如果在科學出版物或工業應用中使用 GPT-fr,請引用以下論文:
@inproceedings{simoulin:hal-03265900,
TITLE = {{Un modèle Transformer Génératif Pré-entraîné pour le français}},
AUTHOR = {Simoulin, Antoine and Crabbé, Benoit},
URL = {https://hal.archives-ouvertes.fr/hal-03265900},
BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
ADDRESS = {Lille, France},
EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, Rémi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
PUBLISHER = {{ATALA}},
PAGES = {246-255},
YEAR = {2021},
KEYWORDS = {français. ; GPT ; Génératif ; Transformer ; Pré-entraîné},
PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
HAL_ID = {hal-03265900},
HAL_VERSION = {v1},
}
參考文獻
Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218Xian Li, Paul Michel, Antonios Anastasopoulos, Yonatan Belinkov, Nadir Durrani, Orhan Firat, Philipp Koehn, Graham Neubig, Juan Pino, Hassan Sajjad: Findings of the First Shared Task on Machine Translation Robustness. WMT (2) 2019: 91-102Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. CoRR abs/1909.08053 (2019)Alexandre Lacoste, Alexandra Luccioni, Victor Schmidt, Thomas Dandres: Quantifying the Carbon Emissions of Machine Learning. CoRR abs/1910.09700 (2019)
🔧 技術細節
模型使用了 Shoeybi et al., (2019) 的工作,並對模型進行了校準,使得在預訓練或微調時,模型可以在單個NVIDIA V100 32GB GPU上運行。
📄 許可證
本項目採用 apache-2.0
許可證。



