hubert-qa-milqa开源问答系统 - 为匈牙利语问答任务定制优化

首页

Hubert Qa Milqa

由 ZTamas 开发

基于匈牙利语 BERT 模型微调的问答系统，专门针对匈牙利语问答任务优化

问答系统

Transformers

其他#匈牙利语问答 #多瑙河知识库 #BERT微调

下载量 75

发布时间 : 11/16/2022

模型简介

该模型是基于匈牙利语 BERT 架构的问答系统，在 milqa 数据集上进行了微调，能够处理匈牙利语的自然语言问答任务

模型特点

匈牙利语专用

专门针对匈牙利语优化的问答模型，能够理解匈牙利语特有的语法和表达方式

基于 BERT 架构

采用强大的 BERT 架构，能够捕捉上下文中的深层语义关系

问答任务优化

在 milqa 数据集上进行了微调，特别适合问答系统应用

模型能力

匈牙利语问答

上下文理解

文本信息提取

使用案例

教育

地理知识问答

回答关于欧洲地理的问题，如河流长度、地理位置等

能准确回答如'欧洲第二长的河流是什么？'这类问题

交通信息

历史交通信息查询

回答关于匈牙利交通历史的问题

能准确回答如'多瑙哈拉斯蒂的市郊铁路何时开通？'这类问题

🚀 匈牙利问答模型

本项目是一个基于匈牙利语的问答模型，它在特定数据集上微调，能有效处理匈牙利语的问答任务，为匈牙利语信息检索和知识问答提供了有力支持。

🚀 快速开始

此模型是 mcsabai/huBert-fine-tuned-hungarian-squadv1 在 milqa 数据集上的微调版本。

💻 使用示例

基础用法

以下是使用该模型进行问答的示例：

# 这里假设使用合适的库加载模型进行问答
# 示例代码仅为示意，实际使用需根据具体库和模型进行调整
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("mcsabai/huBert-fine-tuned-hungarian-squadv1")
model = AutoModelForQuestionAnswering.from_pretrained("mcsabai/huBert-fine-tuned-hungarian-squadv1")

# 定义问题和上下文
question = "Mi Európa második leghosszabb folyója?"
context = "A Duna Európa leghosszabb folyama az oroszországi Volga után. Németországban, a Fekete-erdőben ered két kis patak, a Breg és a Brigach összefolyásával Donaueschingennél, és innen délkeleti irányban 2850 kilométert tesz meg a Fekete-tengerig. Magyarország egész területe e folyam vízgyűjtőjén terül el, itteni főágának hossza 417 km, ezért az ország vízrajzának meghatározó alkotóeleme. A folyó kialakulása a pliocén korban kezdődött el. A pliocén végén jutott el a Duna a Kisalföldig, ekkor a mai nyugat–kelet irány helyett észak–dél irányban folyt itt. Csak a pleisztocén korban alakult ki a kisalföldi szakasza. A folyó legfiatalabb része a Dobrudzsa nyugati oldalán található dél–észak irányú folyása, amely pusztán a pleisztocén kor végén jött létre. Napjainkban fontos nemzetközi hajóút. A németországi Rajna–Majna–Duna-csatorna 1992-es megépítése óta részét képezi annak a 3500 km-es transzeurópai vízi útnak, amely az Északi-tenger melletti Rotterdamtól a Fekete-tenger melletti Sulináig ér. A Dunán szállított áruk össztömege 1987-ben elérte a 100 millió tonnát."

# 对输入进行编码
inputs = tokenizer(question, context, return_tensors='pt')

# 进行推理
outputs = model(**inputs)

# 获取答案的起始和结束位置
answer_start_index = outputs.start_logits.argmax()
answer_end_index = outputs.end_logits.argmax()

# 提取答案
predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
answer = tokenizer.decode(predict_answer_tokens)

print(answer)

高级用法

# 高级场景下可以批量处理多个问题和上下文
# 示例代码仅为示意，实际使用需根据具体库和模型进行调整
questions = ["Mi Európa második leghosszabb folyója?", "Hol vannak a legnagyobb mocsarak a Duna mentén?", "Mióta jár Dunaharasztin hév?"]
contexts = ["A Duna Európa leghosszabb folyama az oroszországi Volga után. Németországban, a Fekete-erdőben ered két kis patak, a Breg és a Brigach összefolyásával Donaueschingennél, és innen délkeleti irányban 2850 kilométert tesz meg a Fekete-tengerig. Magyarország egész területe e folyam vízgyűjtőjén terül el, itteni főágának hossza 417 km, ezért az ország vízrajzának meghatározó alkotóeleme. A folyó kialakulása a pliocén korban kezdődött el. A pliocén végén jutott el a Duna a Kisalföldig, ekkor a mai nyugat–kelet irány helyett észak–dél irányban folyt itt. Csak a pleisztocén korban alakult ki a kisalföldi szakasza. A folyó legfiatalabb része a Dobrudzsa nyugati oldalán található dél–észak irányú folyása, amely pusztán a pleisztocén kor végén jött létre. Napjainkban fontos nemzetközi hajóút. A németországi Rajna–Majna–Duna-csatorna 1992-es megépítése óta részét képezi annak a 3500 km-es transzeurópai vízi útnak, amely az Északi-tenger melletti Rotterdamtól a Fekete-tenger melletti Sulináig ér. A Dunán szállított áruk össztömege 1987-ben elérte a 100 millió tonnát.", "Lassú folyású szakaszain épít hordalékának lerakásával; a lerakott hordalékhalmot hordalékkúpnak nevezik. A Kisalföld és a Margit-sziget a Duna hordalékkúpja. illetve a Duna-delta (elsősorban a Kilia-ág) területén a turzások. A hordalék a felső szakaszon még igen nagy méreteket, lejjebb már csak porszemnyi nagyságot vehet fel. Ugyanis, amikor lelassul, akkor a folyó először a nagyobb, majd az egyre kisebb darabokat hagyja el (kövek, kavicsok, homok, finom por). Ha a vízszint hirtelen apadásnak indul, a Dunán jellemzően ideiglenes zátonyok alakulnak ki. Ha ismét megnő a vízmennyiség, akkor a folyó újra tovább tudja szállítani hordalékát, a zátonyok eltűnnek. Jellemzően zátonyos rész a Duna Rajka és Gönyű közötti szakasza, ahol a Bős–nagymarosi vízlépcső megépítésével a hasonló képződmények még nagyobb számban elszaporodtak. A Duna különleges képződményei az al-dunai sellők, amelyek a mederfenék kisebb-nagyobb kitüremkedéseit jelentik. Egyre kisebb számban, de még jellemzőek a Duna mentén a mocsarak, amelyek lerakott hordalékkúpokon alakultak ki. Ezekből a legnagyobbak Bajorországban, a Hanság és a Duna-delta területén találhatók.", "Az egyesítéskor felmerült a Budapest környéki településekre helyiérdekű vasút (HÉV) építése is, azonban ez csak 1882-ben vált véglegessé: a BKVT április 4-ei ülésén a Közvágóhíd–Soroksár HÉV-vonal létrehozásáról határozott. Még javában folyt a vonal építése, de a BKVT már előmunkálati engedélyt kapott a dunaharaszti meghosszabbításra is. Az 1880-as évek végére a főváros négy HÉV-vonallal büszkélkedhetett: először a Budapest-Szentlőrinci Helyi Érdekű Vasút Rt. (BLVV) üzemeletetésében álló, Ferencvárost és a Budapest-Szentlőrinci Tégla- és Terracottagyárat összekötő vonalat nyitották meg 1887. április 12-én (későbbi 50-es villamos), amit a BKVT Közvágóhíd–Soroksár vonala követett augusztus 7-én, majd ennek a Dunaharasztiig érő szakasza november 24-én. 1888. július 20-án üzembe helyezte a BKVT a Kerepesi út–Cinkota, majd augusztus 17-én a Filatorigát–Szentendre is. A HÉV-ágazat 1889. december 29-én függetlenedett el, kezelője a Budapesti Helyi Érdekű Vasutak Részvénytársaság (BHÉV) lett."]

for question, context in zip(questions, contexts):
    inputs = tokenizer(question, context, return_tensors='pt')
    outputs = model(**inputs)
    answer_start_index = outputs.start_logits.argmax()
    answer_end_index = outputs.end_logits.argmax()
    predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
    answer = tokenizer.decode(predict_answer_tokens)
    print(f"问题: {question}, 答案: {answer}")