🚀 JavaBERT模型卡片
JavaBERT是一个基于Java软件代码进行预训练的类BERT模型,可用于掩码填充等任务,为Java代码相关的自然语言处理提供了有力支持。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import pipeline
pipe = pipeline('fill-mask', model='CAUKiel/JavaBERT')
output = pipe(CODE)
✨ 主要特性
📚 详细文档
模型详情
模型描述
JavaBERT是一个基于Java软件代码进行预训练的类BERT模型。
- 开发者:基尔基督教-阿尔布雷希茨大学(CAUKiel)
- 共享方:Hugging Face
- 模型类型:掩码填充(Fill-Mask)
- 语言:英语(en)
- 许可证:Apache-2.0
- 相关模型:该模型使用未小写化分词器的版本可在 CAUKiel/JavaBERT-uncased 获取。
- 更多信息资源:
用途
直接用途
掩码填充(Fill-Mask)
超出适用范围的用途
该模型不应用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng et al. (2021) 和 Bender et al. (2021))。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(包括直接用户和下游用户)应该了解该模型的风险、偏差和局限性。需要更多信息以提供进一步的建议。
训练详情
训练数据
该模型在从GitHub上的开源项目中检索到的2,998,345个Java文件上进行训练。该模型使用了 bert-base-cased
分词器。
训练过程
训练目标
使用掩码语言模型(MLM)目标来训练该模型。
环境影响
可以使用 Lacoste et al. (2019) 中提出的 机器学习影响计算器 来估算碳排放。
引用
BibTeX:
@inproceedings{De_Sousa_Hasselbring_2021,
address={Melbourne, Australia},
title={JavaBERT: Training a Transformer-Based Model for the Java Programming Language},
rights={https://ieeexplore.ieee.org/Xplorehelp/downloads/license-information/IEEE.html},
ISBN={9781665435833},
url={https://ieeexplore.ieee.org/document/9680322/},
DOI={10.1109/ASEW52652.2021.00028},
booktitle={2021 36th IEEE/ACM International Conference on Automated Software Engineering Workshops (ASEW)},
publisher={IEEE},
author={Tavares de Sousa, Nelson and Hasselbring, Wilhelm},
year={2021},
month=nov,
pages={90–95} }
📄 许可证
本模型采用Apache-2.0许可证。
📦 信息表格
属性 |
详情 |
模型类型 |
掩码填充(Fill-Mask) |
训练数据 |
从GitHub上的开源项目中检索到的2,998,345个Java文件 |
许可证 |
Apache-2.0 |