Camembert Base
模型概述
CamemBERT是基於RoBERTa架構的法語預訓練語言模型,專門針對法語文本進行優化,適用於各種自然語言處理任務。
模型特點
法語優化
專門針對法語文本進行預訓練和優化
多版本選擇
提供6種不同版本,包括基礎版和大型版,適應不同需求
高效預訓練
基於RoBERTa架構,採用更高效的預訓練方法
模型能力
法語文本理解
掩碼語言建模
上下文嵌入提取
文本特徵表示
使用案例
自然語言處理
文本補全
預測被掩碼遮蓋的單詞
示例中成功預測'Le camembert est un fromage de chèvre!'
特徵提取
提取文本的上下文嵌入特徵
可獲取各層的上下文嵌入表示
🚀 CamemBERT:美味的法語語言模型
CamemBERT 是一個基於 RoBERTa 模型的最先進的法語語言模型。它為法語自然語言處理任務提供了強大的支持,能夠在多種應用場景中發揮出色的性能。
目前,CamemBERT 在 Hugging Face 上提供了 6 種不同版本,這些版本在參數數量、預訓練數據量和預訓練數據源領域等方面存在差異,用戶可以根據自己的需求進行選擇。
如需獲取更多信息或提出請求,請訪問 Camembert 官網。
✨ 主要特性
- 多版本選擇:提供 6 種不同參數規模和預訓練數據的版本,滿足多樣化的應用需求。
- 強大性能:基於 RoBERTa 架構,在法語自然語言處理任務上表現出色。
- 易於使用:與 Hugging Face 庫集成,方便加載和使用。
📦 安裝指南
文檔中未提及具體安裝步驟,若需使用 CamemBERT,可通過 Hugging Face 的 transformers
庫進行安裝,一般安裝命令如下:
pip install transformers
💻 使用示例
基礎用法
from transformers import CamembertModel, CamembertTokenizer
# 你可以將 "camembert-base" 替換為表格中的其他模型,例如 "camembert/camembert-large"。
tokenizer = CamembertTokenizer.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert.eval() # 禁用 dropout(或保留訓練模式以進行微調)
高級用法
填充掩碼
from transformers import pipeline
camembert_fill_mask = pipeline("fill-mask", model="camembert/camembert-base-wikipedia-4gb", tokenizer="camembert/camembert-base-wikipedia-4gb")
results = camembert_fill_mask("Le camembert est un fromage de <mask>!")
# results
#[{'sequence': '<s> Le camembert est un fromage de chèvre!</s>', 'score': 0.4937814474105835, 'token': 19370},
#{'sequence': '<s> Le camembert est un fromage de brebis!</s>', 'score': 0.06255942583084106, 'token': 30616},
#{'sequence': '<s> Le camembert est un fromage de montagne!</s>', 'score': 0.04340197145938873, 'token': 2364},
# {'sequence': '<s> Le camembert est un fromage de Noël!</s>', 'score': 0.02823255956172943, 'token': 3236},
#{'sequence': '<s> Le camembert est un fromage de vache!</s>', 'score': 0.021357402205467224, 'token': 12329}]
從 Camembert 輸出中提取上下文嵌入特徵
import torch
# 使用 SentencePiece 進行子詞分詞
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
# ['▁J', "'", 'aime', '▁le', '▁ca', 'member', 't', '▁!']
# 進行 one-hot 編碼並添加特殊的起始和結束標記
encoded_sentence = tokenizer.encode(tokenized_sentence)
# [5, 221, 10, 10600, 14, 8952, 10540, 75, 1114, 6]
# 注意:可以一步完成:tokenize.encode("J'aime le camembert !")
# 將標記作為 torch 張量輸入到 Camembert 中(批次維度為 1)
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
# embeddings.detach()
# embeddings.size torch.Size([1, 10, 768])
#tensor([[[-0.0928, 0.0506, -0.0094, ..., -0.2388, 0.1177, -0.1302],
# [ 0.0662, 0.1030, -0.2355, ..., -0.4224, -0.0574, -0.2802],
# [-0.0729, 0.0547, 0.0192, ..., -0.1743, 0.0998, -0.2677],
# ...,
從所有 Camembert 層中提取上下文嵌入特徵
from transformers import CamembertConfig
# (需要使用新配置重新加載模型)
config = CamembertConfig.from_pretrained("camembert/camembert-base-wikipedia-4gb", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb", config=config)
embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
# all_layer_embeddings 列表長度為 13(輸入嵌入層 + 12 個自注意力層)
all_layer_embeddings[5]
# 第 5 層上下文嵌入:大小為 torch.Size([1, 10, 768])
#tensor([[[-0.0059, -0.0227, 0.0065, ..., -0.0770, 0.0369, 0.0095],
# [ 0.2838, -0.1531, -0.3642, ..., -0.0027, -0.8502, -0.7914],
# [-0.0073, -0.0338, -0.0011, ..., 0.0533, -0.0250, -0.0061],
# ...,
📚 詳細文檔
預訓練模型
屬性 | 詳情 |
---|---|
模型類型 | camembert-base 、camembert/camembert-large 、camembert/camembert-base-ccnet 、camembert/camembert-base-wikipedia-4gb 、camembert/camembert-base-oscar-4gb 、camembert/camembert-base-ccnet-4gb |
訓練數據 | OSCAR(138 GB 文本)、CCNet(135 GB 文本)、Wikipedia(4 GB 文本)、OSCAR 子樣本(4 GB 文本)、CCNet 子樣本(4 GB 文本) |
模型 | 參數數量 | 架構 | 訓練數據 |
---|---|---|---|
camembert-base |
1.1 億 | 基礎 | OSCAR(138 GB 文本) |
camembert/camembert-large |
3.35 億 | 大型 | CCNet(135 GB 文本) |
camembert/camembert-base-ccnet |
1.1 億 | 基礎 | CCNet(135 GB 文本) |
camembert/camembert-base-wikipedia-4gb |
1.1 億 | 基礎 | Wikipedia(4 GB 文本) |
camembert/camembert-base-oscar-4gb |
1.1 億 | 基礎 | OSCAR 子樣本(4 GB 文本) |
camembert/camembert-base-ccnet-4gb |
1.1 億 | 基礎 | CCNet 子樣本(4 GB 文本) |
🔧 技術細節
文檔中未提供足夠詳細的技術實現細節。
📄 許可證
本項目採用 MIT 許可證。
👥 作者
CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 進行訓練和評估。
📖 引用
如果您使用了我們的工作,請引用以下文獻:
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98