Camembert Base Legacy
CamemBERT是基於RoBERTa的法語語言模型,該版本使用維基百科4GB文本訓練
下載量 24.98k
發布時間 : 3/2/2022
模型概述
基於RoBERTa架構的法語預訓練語言模型,適用於各種法語自然語言處理任務
模型特點
法語優化
專門針對法語語言特點進行優化的預訓練模型
多版本選擇
提供6種不同版本,參數規模和數據源各不相同
基於RoBERTa架構
採用經過驗證的RoBERTa架構,性能穩定可靠
模型能力
文本特徵提取
掩碼語言預測
上下文嵌入生成
使用案例
自然語言處理
文本補全
預測被掩碼遮蓋的文本內容
示例中成功預測'chèvre'為最可能的補全詞
語義分析
提取文本的上下文嵌入特徵
可獲取各層次的語義表示
🚀 CamemBERT:美味的法語語言模型
CamemBERT 是基於 RoBERTa 模型的最先進法語語言模型,能夠有效處理法語相關的自然語言處理任務,為法語的語義理解、文本生成等提供強大支持。
🚀 快速開始
⚠️ 重要提示
此檢查點已棄用,請使用 https://huggingface.co/almanach/camembert-base 替代。
CamemBERT 是一個基於 RoBERTa 模型的最先進法語語言模型。
它現在在 Hugging Face 上有 6 種不同版本,參數數量、預訓練數據量和預訓練數據源領域各不相同。
如需更多信息或有相關請求,請訪問 Camembert 官網。
✨ 主要特性
CamemBERT 提供了多種不同參數規模和訓練數據的模型版本,以適應不同的應用場景和需求。
📦 安裝指南
文檔未提及安裝步驟,此處跳過。
💻 使用示例
基礎用法
加載 CamemBERT 及其子詞分詞器
from transformers import CamembertModel, CamembertTokenizer
# 你可以將 "camembert-base" 替換為表格中的任何其他模型,例如 "camembert/camembert-large"。
tokenizer = CamembertTokenizer.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert.eval() # 禁用 dropout(或保持訓練模式以進行微調)
使用管道填充掩碼
from transformers import pipeline
camembert_fill_mask = pipeline("fill-mask", model="camembert/camembert-base-wikipedia-4gb", tokenizer="camembert/camembert-base-wikipedia-4gb")
results = camembert_fill_mask("Le camembert est un fromage de <mask>!")
# results
#[{'sequence': '<s> Le camembert est un fromage de chèvre!</s>', 'score': 0.4937814474105835, 'token': 19370},
#{'sequence': '<s> Le camembert est un fromage de brebis!</s>', 'score': 0.06255942583084106, 'token': 30616},
#{'sequence': '<s> Le camembert est un fromage de montagne!</s>', 'score': 0.04340197145938873, 'token': 2364},
# {'sequence': '<s> Le camembert est un fromage de Noël!</s>', 'score': 0.02823255956172943, 'token': 3236},
#{'sequence': '<s> Le camembert est un fromage de vache!</s>', 'score': 0.021357402205467224, 'token': 12329}]
高級用法
從 Camembert 輸出中提取上下文嵌入特徵
import torch
# 使用 SentencePiece 進行子詞分詞
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
# ['▁J', "'", 'aime', '▁le', '▁ca', 'member', 't', '▁!']
# 進行 one-hot 編碼並添加特殊的起始和結束標記
encoded_sentence = tokenizer.encode(tokenized_sentence)
# [5, 221, 10, 10600, 14, 8952, 10540, 75, 1114, 6]
# 注意:可以一步完成:tokenize.encode("J'aime le camembert !")
# 將標記作為 torch 張量輸入到 Camembert 中(批次維度為 1)
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
# embeddings.detach()
# embeddings.size torch.Size([1, 10, 768])
#tensor([[[-0.0928, 0.0506, -0.0094, ..., -0.2388, 0.1177, -0.1302],
# [ 0.0662, 0.1030, -0.2355, ..., -0.4224, -0.0574, -0.2802],
# [-0.0729, 0.0547, 0.0192, ..., -0.1743, 0.0998, -0.2677],
# ...,
從所有 Camembert 層中提取上下文嵌入特徵
from transformers import CamembertConfig
# (需要使用新配置重新加載模型)
config = CamembertConfig.from_pretrained("camembert/camembert-base-wikipedia-4gb", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb", config=config)
embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
# all_layer_embeddings 列表長度為 13(輸入嵌入層 + 12 個自注意力層)
all_layer_embeddings[5]
# 第 5 層上下文嵌入:大小為 torch.Size([1, 10, 768])
#tensor([[[-0.0059, -0.0227, 0.0065, ..., -0.0770, 0.0369, 0.0095],
# [ 0.2838, -0.1531, -0.3642, ..., -0.0027, -0.8502, -0.7914],
# [-0.0073, -0.0338, -0.0011, ..., 0.0533, -0.0250, -0.0061],
# ...,
📚 詳細文檔
預訓練模型
屬性 | 詳情 |
---|---|
模型類型 | camembert-base 、camembert/camembert-large 、camembert/camembert-base-ccnet 、camembert/camembert-base-wikipedia-4gb 、camembert/camembert-base-oscar-4gb 、camembert/camembert-base-ccnet-4gb |
訓練數據 | camembert-base :OSCAR(138 GB 文本);camembert/camembert-large :CCNet(135 GB 文本);camembert/camembert-base-ccnet :CCNet(135 GB 文本);camembert/camembert-base-wikipedia-4gb :Wikipedia(4 GB 文本);camembert/camembert-base-oscar-4gb :OSCAR 子樣本(4 GB 文本);camembert/camembert-base-ccnet-4gb :CCNet 子樣本(4 GB 文本) |
參數數量 | camembert-base :1.1 億;camembert/camembert-large :3.35 億;camembert/camembert-base-ccnet :1.1 億;camembert/camembert-base-wikipedia-4gb :1.1 億;camembert/camembert-base-oscar-4gb :1.1 億;camembert/camembert-base-ccnet-4gb :1.1 億 |
架構 | camembert-base 、camembert/camembert-base-ccnet 、camembert/camembert-base-wikipedia-4gb 、camembert/camembert-base-oscar-4gb 、camembert/camembert-base-ccnet-4gb :基礎架構;camembert/camembert-large :大型架構 |
🔧 技術細節
文檔未提及技術細節,此處跳過。
📄 許可證
文檔未提及許可證信息,此處跳過。
👨💻 作者
CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 進行訓練和評估。
📚 引用
如果您使用我們的工作,請引用:
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98