🚀 哈薩克語問答模型
本項目基於谷歌的 mt5-large
模型,針對哈薩克語問答任務進行了微調,能夠有效處理哈薩克語的問答場景,為哈薩克語信息交互提供支持。
🚀 快速開始
推理示例
以下是使用該模型進行推理的代碼示例:
from transformers import T5Tokenizer, T5TokenizerFast
from transformers import T5ForConditionalGeneration
import sentencepiece
tokenizer = T5Tokenizer.from_pretrained("Kyrmasch/t5-kazakh-qa")
model = T5ForConditionalGeneration.from_pretrained("Kyrmasch/t5-kazakh-qa")
context = "Қазақстан Еуразия құрлығының орталығында орналасқан және аумақтың көлемі бойынша (жер шарының бетінде 2%) әлемде тоғызыншы орынға ие. Қазақстан аумағы бүкіл Батыс Еуропадан үлкен."
question = "Қазақстан жер көлемі жөнінен дүние жүзінде нешінші орында?"
encoded = tokenizer.encode_plus(context, question, max_length=128, pad_to_max_length=True, truncation=True, return_tensors="pt")
input_ids = encoded["input_ids"].to('cpu')
attention_mask = encoded["attention_mask"].to('cpu')
output = model.generate(input_ids=input_ids, attention_mask=attention_mask, max_length=128)
answer = ''.join([tokenizer.decode(ids, skip_special_tokens=True) for ids in output])
✨ 主要特性
- 基於mt5模型:以
google/mt5-large
為基礎模型,具備強大的語言理解和生成能力。
- 針對性微調:在哈薩克語版本的斯坦福問答數據集(SQuAD)上進行微調,適用於哈薩克語問答任務。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
基於 mt5 |
開發者 |
Aldiyar Saken、Sultaniyar Quandyq、Alibek Kamiluly、Kurmash Apayev、Adai Shomanov 和 Aliya Nugumanova |
模型描述
本模型基於 google/mt5-large
模型,使用30,000個樣本在哈薩克語版本的斯坦福問答數據集(SQuAD)上進行了微調。
推理示例
示例1
- 文本:Қазақстан Еуразия құрлығының орталығында орналасқан және аумақтың көлемі бойынша (жер шарының бетінде 2%) әлемде тоғызыншы орынға ие. Қазақстан аумағы бүкіл Батыс Еуропадан үлкен. Қазақстан жер көлемі жөнінен дүние жүзінде нешінші орында?
- 示例標題:example 1
示例2
- 文本:Қар ұсақ мұз кристалдарынан тұрады. Қар деп атмосфералық жауын-шашынды айтады. Қар деген не?
- 示例標題:example 2
示例3
- 文本:Абай ақын туралы 4 томдық "Абай жолы" романы жазылған. Бұл романның авторы Мұхтар Әуезов. Бұл кітаптарда бала Абайдың тұлға, әрі болашақ ақын болып қалыптасқанға дейінгі уақыттар кезеңдермен жазылған. «Абай жолы» романын жазған кім?
- 示例標題:example 3
📄 許可證
本模型採用 apache-2.0
許可證。