🚀 vBERT-2021-BASE
vBERT-2021-BASE 是一款針對 VMware 領域優化的預訓練語言模型,它解決了傳統 BERT 模型在處理 VMware 特定詞彙、技術術語和複合詞時的難題,能更好地應用於 VMware 相關的 NLP 任務。
🚀 快速開始
本模型可在 PyTorch 和 TensorFlow 框架下使用,以下是獲取給定文本特徵的示例代碼。
💻 使用示例
基礎用法(PyTorch)
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = BertModel.from_pretrained("VMware/vbert-2021-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
基礎用法(TensorFlow)
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = TFBertModel.from_pretrained('VMware/vbert-2021-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
✨ 主要特性
- 針對性優化:通過替換 BERT 詞彙表中前 1000 個未使用的標記為 VMware 特定術語,解決了傳統 BERT 模型在處理 VMware 特定詞彙、技術術語和複合詞時的難題。
- 性能提升:在各種 VMware 特定的 NLP 下游任務(如信息檢索、分類等)的基準測試中,得分高於 'bert-base-uncased' 模型。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 transformers
庫的安裝說明進行安裝。
📚 詳細文檔
模型信息
屬性 |
詳情 |
作者 |
R&D AI Lab, VMware Inc. |
模型日期 |
2022 年 4 月 |
模型版本 |
2021-base |
模型類型 |
預訓練語言模型 |
許可證 |
Apache 2.0 |
設計動機
傳統 BERT 模型在處理 VMware 特定詞彙(如 Tanzu、vSphere 等)、技術術語和複合詞時存在困難。(WordPiece 分詞的弱點)
我們使用 BERT 預訓練庫 對 vBERT 模型進行預訓練,以解決上述問題。我們將 BERT 詞彙表中前 1000 個未使用的標記替換為 VMware 特定術語,創建了一個修改後的詞彙表。然後,我們在 VMware 領域數據上對 'bert-base-uncased' 模型進行了額外 78000 步(71000 步使用 MSL_128,7000 步使用 MSL_512)的預訓練(約 5 個 epoch)。
預期用途
該模型作為特定於 VMware 的語言模型發揮作用。
訓練情況
數據集
使用公開可用的 VMware 文本數據(如 VMware 文檔、博客等)創建預訓練語料庫。數據於 2021 年 5 月收集,約有 320000 份文檔。
預處理
- 解碼 HTML
- 解碼 Unicode
- 去除重複字符
- 拆分複合詞
- 拼寫校正
模型性能評估
我們在各種 VMware 特定的 NLP 下游任務(如信息檢索、分類等)上對 vBERT 進行了基準測試。該模型在所有基準測試中的得分均高於 'bert-base-uncased' 模型。
侷限性和偏差
由於該模型是在 BERT 模型的基礎上進一步預訓練的,因此可能存在與原始 BERT 模型相同的偏差。
為了使模型性能最大化,需要使用我們內部的 vNLP 預處理器(不對外公開)對數據進行預處理。
📄 許可證
本項目採用 Apache 2.0 許可證。