🚀 bert-base-15lang-cased
我们分享了 bert-base-multilingual-cased 的较小版本,该版本可处理自定义数量的语言。与 distilbert-base-multilingual-cased 不同,我们的版本能生成与原始模型完全相同的表示,从而保留了原始的准确性。
🚀 快速开始
我们分享了 bert-base-multilingual-cased 的较小版本,该版本可以处理自定义数量的语言。与 distilbert-base-multilingual-cased 不同,我们的版本能够生成与原始模型完全相同的表示,从而保留了原始的准确性。
以下是在 Google Cloud n1-standard-1 机器(1 vCPU,3.75 GB) 上计算得出的测量结果:
模型 |
参数数量 |
大小 |
内存 |
加载时间 |
bert-base-multilingual-cased |
1.78 亿 |
714 MB |
1400 MB |
4.2 秒 |
Geotrend/bert-base-15lang-cased |
1.41 亿 |
564 MB |
1098 MB |
3.1 秒 |
支持的语言:英语(en)、法语(fr)、西班牙语(es)、德语(de)、中文(zh)、阿拉伯语(ar)、俄语(ru)、越南语(vi)、希腊语(el)、保加利亚语(bg)、泰语(th)、土耳其语(tr)、印地语(hi)、乌尔都语(ur)和斯瓦希里语(sw)。
如需更多信息,请访问我们的论文:Load What You Need: Smaller Versions of Multilingual BERT。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Geotrend/bert-base-15lang-cased")
model = AutoModel.from_pretrained("Geotrend/bert-base-15lang-cased")
若要生成多语言转换器的其他较小版本,请访问 我们的 GitHub 仓库。
如何引用
@inproceedings{smallermbert,
title={Load What You Need: Smaller Versions of Multilingual BERT},
author={Abdaoui, Amine and Pradel, Camille and Sigel, Grégoire},
booktitle={SustaiNLP / EMNLP},
year={2020}
}
📄 许可证
本项目采用 Apache-2.0 许可证。
📚 详细文档
数据集
使用的数据集为维基百科(wikipedia)。
小工具示例
- "Google generated 46 billion [MASK] in revenue."
- "Paris is the capital of [MASK]."
- "Algiers is the largest city in [MASK]."
- "Paris est la [MASK] de la France."
- "Paris est la capitale de la [MASK]."
- "L'élection américaine a eu [MASK] en novembre 2020."
- "تقع سويسرا في [MASK] أوروبا"
- "إسمي محمد وأسكن في [MASK]."
📞 联系我们
如有任何问题、反馈或需求,请联系 amine@geotrend.fr。