🚀 土耳其基础无大小写区分BERT模型
这是一个土耳其语基础无大小写区分的BERT模型。由于该模型不区分大小写,因此“turkish”和“Turkish”对它来说没有区别。
🚀 快速开始
本模型是土耳其语基础无大小写区分的BERT模型。使用时需注意,由于它不区分大小写,在处理文本时需要进行特殊的小写转换。
⚠️ 重要提示
无大小写区分的使用需要手动进行小写转换。不要在分词器中使用 do_lower_case = True
标志。相反,按照以下方式将文本转换为小写:
text.replace("I", "ı").lower()
这是由于分词器存在一个已知问题。
💡 使用建议
要注意,该模型可能会出现有偏差的预测,因为它主要是在爬取的数据上进行训练的,而这些数据本身可能包含各种偏差。
其他相关信息可在论文中找到。
💻 使用示例
基础用法
from transformers import AutoTokenizer, BertForMaskedLM
from transformers import pipeline
model = BertForMaskedLM.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased")
tokenizer = AutoTokenizer.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased")
unmasker = pipeline('fill-mask', model=model, tokenizer=tokenizer)
unmasker("gelirken bir litre [MASK] aldım.")
[{'score': 0.6248273253440857,
'token': 2417,
'token_str': 'su',
'sequence': 'gelirken bir litre su aldım.'},
{'score': 0.10369712114334106,
'token': 2168,
'token_str': 'daha',
'sequence': 'gelirken bir litre daha aldım.'},
{'score': 0.06832519918680191,
'token': 11818,
'token_str': 'benzin',
'sequence': 'gelirken bir litre benzin aldım.'},
{'score': 0.027739914134144783,
'token': 11973,
'token_str': 'bira',
'sequence': 'gelirken bir litre bira aldım.'},
{'score': 0.02571810781955719,
'token': 7279,
'token_str': 'alkol',
'sequence': 'gelirken bir litre alkol aldım.'}]
📄 致谢
- 本研究得到了谷歌TensorFlow研究云(TFRC)的云TPU支持。感谢提供对TFRC的访问权限 ❤️
- 感谢Hugging Face团队的慷慨支持,使得能够从他们的S3存储中下载模型 🤗
📚 引用
@article{kesgin2023developing,
title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv preprint arXiv:2307.14134},
year={2023}
}
📄 许可证
本项目采用MIT许可证。