🚀 JavaBERT模型卡片
JavaBERT是一個基於Java軟件代碼進行預訓練的類BERT模型,可用於掩碼填充等任務,為Java代碼相關的自然語言處理提供了有力支持。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import pipeline
pipe = pipeline('fill-mask', model='CAUKiel/JavaBERT')
output = pipe(CODE)
✨ 主要特性
📚 詳細文檔
模型詳情
模型描述
JavaBERT是一個基於Java軟件代碼進行預訓練的類BERT模型。
- 開發者:基爾基督教-阿爾佈雷希茨大學(CAUKiel)
- 共享方:Hugging Face
- 模型類型:掩碼填充(Fill-Mask)
- 語言:英語(en)
- 許可證:Apache-2.0
- 相關模型:該模型使用未小寫化分詞器的版本可在 CAUKiel/JavaBERT-uncased 獲取。
- 更多信息資源:
用途
直接用途
掩碼填充(Fill-Mask)
超出適用範圍的用途
該模型不應用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng et al. (2021) 和 Bender et al. (2021))。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(包括直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。需要更多信息以提供進一步的建議。
訓練詳情
訓練數據
該模型在從GitHub上的開源項目中檢索到的2,998,345個Java文件上進行訓練。該模型使用了 bert-base-cased
分詞器。
訓練過程
訓練目標
使用掩碼語言模型(MLM)目標來訓練該模型。
環境影響
可以使用 Lacoste et al. (2019) 中提出的 機器學習影響計算器 來估算碳排放。
引用
BibTeX:
@inproceedings{De_Sousa_Hasselbring_2021,
address={Melbourne, Australia},
title={JavaBERT: Training a Transformer-Based Model for the Java Programming Language},
rights={https://ieeexplore.ieee.org/Xplorehelp/downloads/license-information/IEEE.html},
ISBN={9781665435833},
url={https://ieeexplore.ieee.org/document/9680322/},
DOI={10.1109/ASEW52652.2021.00028},
booktitle={2021 36th IEEE/ACM International Conference on Automated Software Engineering Workshops (ASEW)},
publisher={IEEE},
author={Tavares de Sousa, Nelson and Hasselbring, Wilhelm},
year={2021},
month=nov,
pages={90–95} }
📄 許可證
本模型採用Apache-2.0許可證。
📦 信息表格
屬性 |
詳情 |
模型類型 |
掩碼填充(Fill-Mask) |
訓練數據 |
從GitHub上的開源項目中檢索到的2,998,345個Java文件 |
許可證 |
Apache-2.0 |