🚀 土耳其基礎無大小寫區分BERT模型
這是一個土耳其語基礎無大小寫區分的BERT模型。由於該模型不區分大小寫,因此“turkish”和“Turkish”對它來說沒有區別。
🚀 快速開始
本模型是土耳其語基礎無大小寫區分的BERT模型。使用時需注意,由於它不區分大小寫,在處理文本時需要進行特殊的小寫轉換。
⚠️ 重要提示
無大小寫區分的使用需要手動進行小寫轉換。不要在分詞器中使用 do_lower_case = True
標誌。相反,按照以下方式將文本轉換為小寫:
text.replace("I", "ı").lower()
這是由於分詞器存在一個已知問題。
💡 使用建議
要注意,該模型可能會出現有偏差的預測,因為它主要是在爬取的數據上進行訓練的,而這些數據本身可能包含各種偏差。
其他相關信息可在論文中找到。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, BertForMaskedLM
from transformers import pipeline
model = BertForMaskedLM.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased")
tokenizer = AutoTokenizer.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased")
unmasker = pipeline('fill-mask', model=model, tokenizer=tokenizer)
unmasker("gelirken bir litre [MASK] aldım.")
[{'score': 0.6248273253440857,
'token': 2417,
'token_str': 'su',
'sequence': 'gelirken bir litre su aldım.'},
{'score': 0.10369712114334106,
'token': 2168,
'token_str': 'daha',
'sequence': 'gelirken bir litre daha aldım.'},
{'score': 0.06832519918680191,
'token': 11818,
'token_str': 'benzin',
'sequence': 'gelirken bir litre benzin aldım.'},
{'score': 0.027739914134144783,
'token': 11973,
'token_str': 'bira',
'sequence': 'gelirken bir litre bira aldım.'},
{'score': 0.02571810781955719,
'token': 7279,
'token_str': 'alkol',
'sequence': 'gelirken bir litre alkol aldım.'}]
📄 致謝
- 本研究得到了谷歌TensorFlow研究雲(TFRC)的雲TPU支持。感謝提供對TFRC的訪問權限 ❤️
- 感謝Hugging Face團隊的慷慨支持,使得能夠從他們的S3存儲中下載模型 🤗
📚 引用
@article{kesgin2023developing,
title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv preprint arXiv:2307.14134},
year={2023}
}
📄 許可證
本項目採用MIT許可證。