🚀 bert-base-15lang-cased
我們分享了 bert-base-multilingual-cased 的較小版本,該版本可處理自定義數量的語言。與 distilbert-base-multilingual-cased 不同,我們的版本能生成與原始模型完全相同的表示,從而保留了原始的準確性。
🚀 快速開始
我們分享了 bert-base-multilingual-cased 的較小版本,該版本可以處理自定義數量的語言。與 distilbert-base-multilingual-cased 不同,我們的版本能夠生成與原始模型完全相同的表示,從而保留了原始的準確性。
以下是在 Google Cloud n1-standard-1 機器(1 vCPU,3.75 GB) 上計算得出的測量結果:
模型 |
參數數量 |
大小 |
內存 |
加載時間 |
bert-base-multilingual-cased |
1.78 億 |
714 MB |
1400 MB |
4.2 秒 |
Geotrend/bert-base-15lang-cased |
1.41 億 |
564 MB |
1098 MB |
3.1 秒 |
支持的語言:英語(en)、法語(fr)、西班牙語(es)、德語(de)、中文(zh)、阿拉伯語(ar)、俄語(ru)、越南語(vi)、希臘語(el)、保加利亞語(bg)、泰語(th)、土耳其語(tr)、印地語(hi)、烏爾都語(ur)和斯瓦希里語(sw)。
如需更多信息,請訪問我們的論文:Load What You Need: Smaller Versions of Multilingual BERT。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Geotrend/bert-base-15lang-cased")
model = AutoModel.from_pretrained("Geotrend/bert-base-15lang-cased")
若要生成多語言轉換器的其他較小版本,請訪問 我們的 GitHub 倉庫。
如何引用
@inproceedings{smallermbert,
title={Load What You Need: Smaller Versions of Multilingual BERT},
author={Abdaoui, Amine and Pradel, Camille and Sigel, Grégoire},
booktitle={SustaiNLP / EMNLP},
year={2020}
}
📄 許可證
本項目採用 Apache-2.0 許可證。
📚 詳細文檔
數據集
使用的數據集為維基百科(wikipedia)。
小工具示例
- "Google generated 46 billion [MASK] in revenue."
- "Paris is the capital of [MASK]."
- "Algiers is the largest city in [MASK]."
- "Paris est la [MASK] de la France."
- "Paris est la capitale de la [MASK]."
- "L'élection américaine a eu [MASK] en novembre 2020."
- "تقع سويسرا في [MASK] أوروبا"
- "إسمي محمد وأسكن في [MASK]."
📞 聯繫我們
如有任何問題、反饋或需求,請聯繫 amine@geotrend.fr。