🚀 法國GPT模型(GPT - fr)
GPT - fr 是由 Quantmetry 和 形式語言學實驗室(LLF) 開發的一款針對法語的GPT模型。該模型在一個非常龐大且多樣化的法語語料庫上進行訓練,能夠有效處理多種自然語言處理任務,為法語相關的學術研究和工業應用提供了有力支持。
🚀 快速開始
模型調用示例
你可以通過強大的 Transformers
庫來使用這個模型:
from transformers import GPT2Tokenizer, GPT2LMHeadModel
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-small")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-small")
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
✨ 主要特性
- 多任務處理:可用於語言生成任務,還能處理自動摘要、問答等多種自然語言處理任務。
- 多配置選擇:提供了不同配置的模型權重,如
gpt - fr - cased - small
和 gpt - fr - cased - base
,以滿足不同場景的需求。
📚 詳細文檔
模型描述
我們在一個大規模且多樣化的法語語料庫上訓練該模型,併發布了以下配置的權重:
模型名稱 |
層數 |
注意力頭數 |
嵌入維度 |
總參數 |
gpt - fr - cased - small |
12 |
12 |
768 |
124 M |
gpt - fr - cased - base |
24 |
14 |
1,792 |
1,017 B |
預期用途與限制
預期用途
該模型可用於語言生成任務,並且可以將許多任務進行格式化處理,使其直接以自然語言生成輸出,適用於學術和工業應用。
限制和偏差
大型語言模型往往會複製預訓練數據集中存在的偏差,如性別歧視或生成冒犯性內容。為了減少接觸過多的明確材料,我們事先仔細選擇了數據源。但模型仍可能反映數據中包含的一些社會偏差。例如,在性別平等方面,模型生成的句子可能會因主體性別不同而產生不同的職位描述。我們非常歡迎你提供反饋,以便更好地從定性和定量角度評估這些影響。
訓練數據
為了訓練這個生成模型,我們創建了一個專門的語料庫。該模型使用固定長度為1024的上下文大小,需要長文檔進行訓練。我們整合了多個現有語料庫,包括 維基百科、OpenSubtitle ([Tiedemann, 2012](#tiedemann - 2012)) 和 古騰堡計劃。對語料庫進行過濾並分割成句子,然後在每個文檔最多1024個標記的限制內將連續的句子連接起來。
訓練過程
我們使用令人驚歎的 Google Colab 跨服務器在TPU v2 - 8上對模型進行了預訓練。
評估結果
我們為 GPT - fr 配備了專門的語言模型評估基準。參照英文的 [WikiText](https://blog.einstein.ai/the - wikitext - long - term - dependency - language - modeling - dataset/) 基準,我們從法語維基百科的經過驗證的 優質 和 特色 文章集中收集了超過7000萬個標記。該模型在測試集上的零樣本困惑度達到了 109.2。
模型指標
任務類型 |
任務名稱 |
數據集 |
指標 |
值 |
文本生成 |
Wikitext - fr |
Wikitext - fr |
困惑度 |
109.2 |
文本分類 |
FLUE |
CLS - Books |
準確率 |
88.3 |
文本分類 |
FLUE |
CLS - Dvd |
準確率 |
86.9 |
文本分類 |
FLUE |
CLS - Music |
準確率 |
89.3 |
文本分類 |
FLUE |
PAWS - X |
準確率 |
83.3 |
文本分類 |
FLUE |
XNLI |
準確率 |
75.6 |
摘要生成 |
OrangeSum - Abstract |
OrangeSum - Abstract |
ROUGE - 1 |
17.5 |
摘要生成 |
OrangeSum - Abstract |
OrangeSum - Abstract |
ROUGE - 2 |
3.1 |
摘要生成 |
OrangeSum - Abstract |
OrangeSum - Abstract |
ROUGE - L |
12.1 |
摘要生成 |
OrangeSum - Title |
OrangeSum - Title |
ROUGE - 1 |
13.9 |
摘要生成 |
OrangeSum - Title |
OrangeSum - Title |
ROUGE - 2 |
2.3 |
摘要生成 |
OrangeSum - Title |
OrangeSum - Title |
ROUGE - L |
9.7 |
BibTeX引用和引用信息
如果你在科學出版物或工業應用中使用 GPT - fr,請引用以下論文:
@inproceedings{simoulin:hal-03265900,
TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
URL = {https://hal.archives-ouvertes.fr/hal-03265900},
BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
ADDRESS = {Lille, France},
EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
PUBLISHER = {{ATALA}},
PAGES = {246-255},
YEAR = {2021},
KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
HAL_ID = {hal-03265900},
HAL_VERSION = {v1},
}
參考文獻
Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214 - 2218
📄 許可證
本模型遵循 apache - 2.0
許可證。