hubert-qa-milqa開源問答系統 - 為匈牙利語問答任務定製優化

首頁

Hubert Qa Milqa

由ZTamas開發

基於匈牙利語 BERT 模型微調的問答系統，專門針對匈牙利語問答任務優化

問答系統

Transformers

其他#匈牙利語問答 #多瑙河知識庫 #BERT微調

下載量 75

發布時間 : 11/16/2022

模型概述

該模型是基於匈牙利語 BERT 架構的問答系統，在 milqa 數據集上進行了微調，能夠處理匈牙利語的自然語言問答任務

模型特點

匈牙利語專用

專門針對匈牙利語優化的問答模型，能夠理解匈牙利語特有的語法和表達方式

基於 BERT 架構

採用強大的 BERT 架構，能夠捕捉上下文中的深層語義關係

問答任務優化

在 milqa 數據集上進行了微調，特別適合問答系統應用

模型能力

匈牙利語問答

上下文理解

文本信息提取

使用案例

教育

地理知識問答

回答關於歐洲地理的問題，如河流長度、地理位置等

能準確回答如'歐洲第二長的河流是什麼？'這類問題

交通信息

歷史交通信息查詢

回答關於匈牙利交通曆史的問題

能準確回答如'多瑙哈拉斯蒂的市郊鐵路何時開通？'這類問題

🚀 匈牙利問答模型

本項目是一個基於匈牙利語的問答模型，它在特定數據集上微調，能有效處理匈牙利語的問答任務，為匈牙利語信息檢索和知識問答提供了有力支持。

🚀 快速開始

此模型是 mcsabai/huBert-fine-tuned-hungarian-squadv1 在 milqa 數據集上的微調版本。

💻 使用示例

基礎用法

以下是使用該模型進行問答的示例：

# 這裡假設使用合適的庫加載模型進行問答
# 示例代碼僅為示意，實際使用需根據具體庫和模型進行調整
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("mcsabai/huBert-fine-tuned-hungarian-squadv1")
model = AutoModelForQuestionAnswering.from_pretrained("mcsabai/huBert-fine-tuned-hungarian-squadv1")

# 定義問題和上下文
question = "Mi Európa második leghosszabb folyója?"
context = "A Duna Európa leghosszabb folyama az oroszországi Volga után. Németországban, a Fekete-erdőben ered két kis patak, a Breg és a Brigach összefolyásával Donaueschingennél, és innen délkeleti irányban 2850 kilométert tesz meg a Fekete-tengerig. Magyarország egész területe e folyam vízgyűjtőjén terül el, itteni főágának hossza 417 km, ezért az ország vízrajzának meghatározó alkotóeleme. A folyó kialakulása a pliocén korban kezdődött el. A pliocén végén jutott el a Duna a Kisalföldig, ekkor a mai nyugat–kelet irány helyett észak–dél irányban folyt itt. Csak a pleisztocén korban alakult ki a kisalföldi szakasza. A folyó legfiatalabb része a Dobrudzsa nyugati oldalán található dél–észak irányú folyása, amely pusztán a pleisztocén kor végén jött létre. Napjainkban fontos nemzetközi hajóút. A németországi Rajna–Majna–Duna-csatorna 1992-es megépítése óta részét képezi annak a 3500 km-es transzeurópai vízi útnak, amely az Északi-tenger melletti Rotterdamtól a Fekete-tenger melletti Sulináig ér. A Dunán szállított áruk össztömege 1987-ben elérte a 100 millió tonnát."

# 對輸入進行編碼
inputs = tokenizer(question, context, return_tensors='pt')

# 進行推理
outputs = model(**inputs)

# 獲取答案的起始和結束位置
answer_start_index = outputs.start_logits.argmax()
answer_end_index = outputs.end_logits.argmax()

# 提取答案
predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
answer = tokenizer.decode(predict_answer_tokens)

print(answer)

高級用法

# 高級場景下可以批量處理多個問題和上下文
# 示例代碼僅為示意，實際使用需根據具體庫和模型進行調整
questions = ["Mi Európa második leghosszabb folyója?", "Hol vannak a legnagyobb mocsarak a Duna mentén?", "Mióta jár Dunaharasztin hév?"]
contexts = ["A Duna Európa leghosszabb folyama az oroszországi Volga után. Németországban, a Fekete-erdőben ered két kis patak, a Breg és a Brigach összefolyásával Donaueschingennél, és innen délkeleti irányban 2850 kilométert tesz meg a Fekete-tengerig. Magyarország egész területe e folyam vízgyűjtőjén terül el, itteni főágának hossza 417 km, ezért az ország vízrajzának meghatározó alkotóeleme. A folyó kialakulása a pliocén korban kezdődött el. A pliocén végén jutott el a Duna a Kisalföldig, ekkor a mai nyugat–kelet irány helyett észak–dél irányban folyt itt. Csak a pleisztocén korban alakult ki a kisalföldi szakasza. A folyó legfiatalabb része a Dobrudzsa nyugati oldalán található dél–észak irányú folyása, amely pusztán a pleisztocén kor végén jött létre. Napjainkban fontos nemzetközi hajóút. A németországi Rajna–Majna–Duna-csatorna 1992-es megépítése óta részét képezi annak a 3500 km-es transzeurópai vízi útnak, amely az Északi-tenger melletti Rotterdamtól a Fekete-tenger melletti Sulináig ér. A Dunán szállított áruk össztömege 1987-ben elérte a 100 millió tonnát.", "Lassú folyású szakaszain épít hordalékának lerakásával; a lerakott hordalékhalmot hordalékkúpnak nevezik. A Kisalföld és a Margit-sziget a Duna hordalékkúpja. illetve a Duna-delta (elsősorban a Kilia-ág) területén a turzások. A hordalék a felső szakaszon még igen nagy méreteket, lejjebb már csak porszemnyi nagyságot vehet fel. Ugyanis, amikor lelassul, akkor a folyó először a nagyobb, majd az egyre kisebb darabokat hagyja el (kövek, kavicsok, homok, finom por). Ha a vízszint hirtelen apadásnak indul, a Dunán jellemzően ideiglenes zátonyok alakulnak ki. Ha ismét megnő a vízmennyiség, akkor a folyó újra tovább tudja szállítani hordalékát, a zátonyok eltűnnek. Jellemzően zátonyos rész a Duna Rajka és Gönyű közötti szakasza, ahol a Bős–nagymarosi vízlépcső megépítésével a hasonló képződmények még nagyobb számban elszaporodtak. A Duna különleges képződményei az al-dunai sellők, amelyek a mederfenék kisebb-nagyobb kitüremkedéseit jelentik. Egyre kisebb számban, de még jellemzőek a Duna mentén a mocsarak, amelyek lerakott hordalékkúpokon alakultak ki. Ezekből a legnagyobbak Bajorországban, a Hanság és a Duna-delta területén találhatók.", "Az egyesítéskor felmerült a Budapest környéki településekre helyiérdekű vasút (HÉV) építése is, azonban ez csak 1882-ben vált véglegessé: a BKVT április 4-ei ülésén a Közvágóhíd–Soroksár HÉV-vonal létrehozásáról határozott. Még javában folyt a vonal építése, de a BKVT már előmunkálati engedélyt kapott a dunaharaszti meghosszabbításra is. Az 1880-as évek végére a főváros négy HÉV-vonallal büszkélkedhetett: először a Budapest-Szentlőrinci Helyi Érdekű Vasút Rt. (BLVV) üzemeletetésében álló, Ferencvárost és a Budapest-Szentlőrinci Tégla- és Terracottagyárat összekötő vonalat nyitották meg 1887. április 12-én (későbbi 50-es villamos), amit a BKVT Közvágóhíd–Soroksár vonala követett augusztus 7-én, majd ennek a Dunaharasztiig érő szakasza november 24-én. 1888. július 20-án üzembe helyezte a BKVT a Kerepesi út–Cinkota, majd augusztus 17-én a Filatorigát–Szentendre is. A HÉV-ágazat 1889. december 29-én függetlenedett el, kezelője a Budapesti Helyi Érdekű Vasutak Részvénytársaság (BHÉV) lett."]

for question, context in zip(questions, contexts):
    inputs = tokenizer(question, context, return_tensors='pt')
    outputs = model(**inputs)
    answer_start_index = outputs.start_logits.argmax()
    answer_end_index = outputs.end_logits.argmax()
    predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
    answer = tokenizer.decode(predict_answer_tokens)
    print(f"問題: {question}, 答案: {answer}")