FlauBERT法語BERT模型開源 - 依託大規模法語語料庫，助力法語文本處理

首頁

Flaubert Base Uncased

由flaubert開發

FlauBERT是一個基於大規模法語語料庫訓練的法語BERT模型，由法國國家科學研究中心開發。

大型語言模型

Transformers

法語開源協議:MIT #法語預訓練 #無監督學習 #BERT架構

下載量 1,838

發布時間 : 3/2/2022

模型概述

FlauBERT是一個面向法語的無監督語言模型預訓練模型，基於BERT架構，適用於各種法語自然語言處理任務。

模型特點

法語專用預訓練

專門針對法語語言特點進行優化訓練

多版本選擇

提供small/base/large不同規模的模型版本

FLUE評估框架

配套提供法語NLP系統評估基準

超級計算機訓練

在法國Jean Zay超級計算機上完成訓練

模型能力

法語文本理解

法語文本分類

法語命名實體識別

法語語言模型

使用案例

學術研究

法語NLP研究

用於法語自然語言處理領域的研究和實驗

商業應用

法語文本分析

應用於法語客戶反饋分析、社交媒體監控等場景

🚀 FlauBERT：法語無監督語言模型預訓練

FlauBERT 是一個在非常龐大且多樣化的法語語料庫上訓練的法語BERT模型。不同規模的模型藉助法國國家科學研究中心（CNRS）的讓·扎伊超級計算機進行訓練。

與 FlauBERT 一同推出的還有 FLUE：一個類似於流行的 GLUE 基準的法語自然語言處理系統評估套件。其目標是在未來推動可復現的實驗，並分享法語語言模型和研究進展。更多詳情請參考官方網站。

✨ 主要特性

基於大規模且異構的法語語料庫進行訓練，能更好地適應法語的語言特點。
提供了不同規模的模型，可根據具體需求進行選擇。
配套有 FLUE 評估套件，方便對模型進行評估。

📦 安裝指南

文檔未提及安裝步驟，跳過該章節。

💻 使用示例

基礎用法

import torch
from transformers import FlaubertModel, FlaubertTokenizer

# 可從以下模型中選擇 ['flaubert/flaubert_small_cased', 'flaubert/flaubert_base_uncased', 
#               'flaubert/flaubert_base_cased', 'flaubert/flaubert_large_cased']
modelname = 'flaubert/flaubert_base_cased' 

# 加載預訓練模型和分詞器
flaubert, log = FlaubertModel.from_pretrained(modelname, output_loading_info=True)
flaubert_tokenizer = FlaubertTokenizer.from_pretrained(modelname, do_lowercase=False)
# 如果使用大小寫敏感的模型，do_lowercase=False；如果使用大小寫不敏感的模型，do_lowercase=True

sentence = "Le chat mange une pomme."
token_ids = torch.tensor([flaubert_tokenizer.encode(sentence)])

last_layer = flaubert(token_ids)[0]
print(last_layer.shape)
# torch.Size([1, 8, 768])  -> (batch size x number of tokens x embedding dimension)

# BERT 的 [CLS] 標記對應最後一層的第一個隱藏狀態
cls_embedding = last_layer[:, 0, :]

注意事項

⚠️ 重要提示

如果你的 transformers 版本小於等於 2.10.0，modelname 應取以下值之一：

['flaubert-small-cased', 'flaubert-base-uncased', 'flaubert-base-cased', 'flaubert-large-cased']

📚 詳細文檔

FlauBERT 模型

模型名稱	層數	注意力頭數	嵌入維度	總參數數量
`flaubert-small-cased`	6	8	512	54 M
`flaubert-base-uncased`	12	12	768	137 M
`flaubert-base-cased`	12	12	768	138 M
`flaubert-large-cased`	24	16	1024	373 M

⚠️ 重要提示

flaubert-small-cased 是部分訓練的模型，因此不能保證其性能。建議僅將其用於調試目的。

📄 許可證

本項目採用 MIT 許可證。

📖 參考文獻

如果你在科學出版物中使用了 FlauBERT 或 FLUE 基準，或者發現本倉庫中的資源很有用，請引用以下論文之一：

LREC 論文

@InProceedings{le2020flaubert,
  author    = {Le, Hang  and  Vial, Lo\"{i}c  and  Frej, Jibril  and  Segonne, Vincent  and  Coavoux, Maximin  and  Lecouteux, Benjamin  and  Allauzen, Alexandre  and  Crabb\'{e}, Beno\^{i}t  and  Besacier, Laurent  and  Schwab, Didier},
  title     = {FlauBERT: Unsupervised Language Model Pre-training for French},
  booktitle = {Proceedings of The 12th Language Resources and Evaluation Conference},
  month     = {May},
  year      = {2020},
  address   = {Marseille, France},
  publisher = {European Language Resources Association},
  pages     = {2479--2490},
  url       = {https://www.aclweb.org/anthology/2020.lrec-1.302}
}

TALN 論文

@inproceedings{le2020flaubert,
  title         = {FlauBERT: des mod{\`e}les de langue contextualis{\'e}s pr{\'e}-entra{\^\i}n{\'e}s pour le fran{\c{c}}ais},
  author        = {Le, Hang and Vial, Lo{\"\i}c and Frej, Jibril and Segonne, Vincent and Coavoux, Maximin and Lecouteux, Benjamin and Allauzen, Alexandre and Crabb{\'e}, Beno{\^\i}t and Besacier, Laurent and Schwab, Didier},
  booktitle     = {Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 31e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 2: Traitement Automatique des Langues Naturelles},
  pages         = {268--278},
  year          = {2020},
  organization  = {ATALA}
}