vbert-2021-large開源模型 - 針對技術文檔與術語優化，免費定製超實用

首頁

Vbert 2021 Large

由VMware開發

VMware研發的定製化BERT模型，針對技術文檔和專有術語優化

大型語言模型

Transformers

英語開源協議:Apache-2.0 #VMware術語優化 #企業級NLP #技術文檔處理

下載量 14

發布時間 : 5/11/2022

模型概述

基於BERT-large架構的預訓練語言模型，專門優化了VMware領域術語處理能力

模型特點

領域術語優化

替換詞彙表中1000個未使用標記為VMware專有術語（如Tanzu、vSphere等）

複合詞處理增強

改進對技術複合詞的分詞和處理能力

增量訓練

在原始BERT-large基礎上進行66,000步領域適應訓練

模型能力

文本理解

信息檢索

文本分類

技術術語處理

使用案例

企業技術文檔處理

技術文檔分類

對VMware產品文檔進行自動分類

性能優於標準BERT-base模型

知識庫檢索

增強企業知識庫的語義搜索能力

🚀 vBERT-2021-LARGE

vBERT-2021-LARGE是一款針對VMware特定場景優化的預訓練語言模型，有效解決了傳統BERT模型在處理VMware相關專業詞彙、技術術語和複合詞時的難題，提升了在VMware領域NLP任務中的表現。

🚀 快速開始

你可以按照以下步驟使用vBERT-2021-LARGE模型獲取給定文本的特徵。

PyTorch環境

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-large')
model = BertModel.from_pretrained("VMware/vbert-2021-large")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

TensorFlow環境

from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-large')
model = TFBertModel.from_pretrained('VMware/vbert-2021-large')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

✨ 主要特性

針對性優化：針對VMware特定的詞彙（如Tanzu、vSphere等）、技術術語和複合詞進行預訓練，解決了傳統BERT模型在這些方面的不足。
性能提升：在各種VMware特定的NLP下游任務（如信息檢索、分類等）基準測試中，得分高於'bert-base-uncased'模型。

📦 安裝指南

文檔未提及具體安裝步驟，可參考transformers庫的官方文檔進行模型的安裝和使用。

📚 詳細文檔

模型信息

屬性	詳情
作者	R&D AI Lab, VMware Inc.
模型日期	2022年4月
模型版本	2021-base
模型類型	預訓練語言模型
許可證	Apache 2.0

動機

傳統的BERT模型在處理VMware特定的詞彙、技術術語和複合詞時存在困難（WordPiece分詞的弱點）。為了解決這些問題，我們使用BERT預訓練庫對vBERT模型進行了預訓練。我們將BERT詞彙表中前1000個未使用的標記替換為VMware特定的術語，創建了一個修改後的詞彙表。然後，在VMware領域的數據上對'bert-large-uncased'模型進行了額外66K步的預訓練（60k步使用MSL_128，6k步使用MSL_512）。