Hubert Qa Milqa
基于匈牙利语 BERT 模型微调的问答系统,专门针对匈牙利语问答任务优化
下载量 75
发布时间 : 11/16/2022
模型简介
该模型是基于匈牙利语 BERT 架构的问答系统,在 milqa 数据集上进行了微调,能够处理匈牙利语的自然语言问答任务
模型特点
匈牙利语专用
专门针对匈牙利语优化的问答模型,能够理解匈牙利语特有的语法和表达方式
基于 BERT 架构
采用强大的 BERT 架构,能够捕捉上下文中的深层语义关系
问答任务优化
在 milqa 数据集上进行了微调,特别适合问答系统应用
模型能力
匈牙利语问答
上下文理解
文本信息提取
使用案例
教育
地理知识问答
回答关于欧洲地理的问题,如河流长度、地理位置等
能准确回答如'欧洲第二长的河流是什么?'这类问题
交通信息
历史交通信息查询
回答关于匈牙利交通历史的问题
能准确回答如'多瑙哈拉斯蒂的市郊铁路何时开通?'这类问题
🚀 匈牙利问答模型
本项目是一个基于匈牙利语的问答模型,它在特定数据集上微调,能有效处理匈牙利语的问答任务,为匈牙利语信息检索和知识问答提供了有力支持。
🚀 快速开始
此模型是 mcsabai/huBert-fine-tuned-hungarian-squadv1 在 milqa 数据集上的微调版本。
💻 使用示例
基础用法
以下是使用该模型进行问答的示例:
# 这里假设使用合适的库加载模型进行问答
# 示例代码仅为示意,实际使用需根据具体库和模型进行调整
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("mcsabai/huBert-fine-tuned-hungarian-squadv1")
model = AutoModelForQuestionAnswering.from_pretrained("mcsabai/huBert-fine-tuned-hungarian-squadv1")
# 定义问题和上下文
question = "Mi Európa második leghosszabb folyója?"
context = "A Duna Európa leghosszabb folyama az oroszországi Volga után. Németországban, a Fekete-erdőben ered két kis patak, a Breg és a Brigach összefolyásával Donaueschingennél, és innen délkeleti irányban 2850 kilométert tesz meg a Fekete-tengerig. Magyarország egész területe e folyam vízgyűjtőjén terül el, itteni főágának hossza 417 km, ezért az ország vízrajzának meghatározó alkotóeleme. A folyó kialakulása a pliocén korban kezdődött el. A pliocén végén jutott el a Duna a Kisalföldig, ekkor a mai nyugat–kelet irány helyett észak–dél irányban folyt itt. Csak a pleisztocén korban alakult ki a kisalföldi szakasza. A folyó legfiatalabb része a Dobrudzsa nyugati oldalán található dél–észak irányú folyása, amely pusztán a pleisztocén kor végén jött létre. Napjainkban fontos nemzetközi hajóút. A németországi Rajna–Majna–Duna-csatorna 1992-es megépítése óta részét képezi annak a 3500 km-es transzeurópai vízi útnak, amely az Északi-tenger melletti Rotterdamtól a Fekete-tenger melletti Sulináig ér. A Dunán szállított áruk össztömege 1987-ben elérte a 100 millió tonnát."
# 对输入进行编码
inputs = tokenizer(question, context, return_tensors='pt')
# 进行推理
outputs = model(**inputs)
# 获取答案的起始和结束位置
answer_start_index = outputs.start_logits.argmax()
answer_end_index = outputs.end_logits.argmax()
# 提取答案
predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
answer = tokenizer.decode(predict_answer_tokens)
print(answer)
高级用法
# 高级场景下可以批量处理多个问题和上下文
# 示例代码仅为示意,实际使用需根据具体库和模型进行调整
questions = ["Mi Európa második leghosszabb folyója?", "Hol vannak a legnagyobb mocsarak a Duna mentén?", "Mióta jár Dunaharasztin hév?"]
contexts = ["A Duna Európa leghosszabb folyama az oroszországi Volga után. Németországban, a Fekete-erdőben ered két kis patak, a Breg és a Brigach összefolyásával Donaueschingennél, és innen délkeleti irányban 2850 kilométert tesz meg a Fekete-tengerig. Magyarország egész területe e folyam vízgyűjtőjén terül el, itteni főágának hossza 417 km, ezért az ország vízrajzának meghatározó alkotóeleme. A folyó kialakulása a pliocén korban kezdődött el. A pliocén végén jutott el a Duna a Kisalföldig, ekkor a mai nyugat–kelet irány helyett észak–dél irányban folyt itt. Csak a pleisztocén korban alakult ki a kisalföldi szakasza. A folyó legfiatalabb része a Dobrudzsa nyugati oldalán található dél–észak irányú folyása, amely pusztán a pleisztocén kor végén jött létre. Napjainkban fontos nemzetközi hajóút. A németországi Rajna–Majna–Duna-csatorna 1992-es megépítése óta részét képezi annak a 3500 km-es transzeurópai vízi útnak, amely az Északi-tenger melletti Rotterdamtól a Fekete-tenger melletti Sulináig ér. A Dunán szállított áruk össztömege 1987-ben elérte a 100 millió tonnát.", "Lassú folyású szakaszain épít hordalékának lerakásával; a lerakott hordalékhalmot hordalékkúpnak nevezik. A Kisalföld és a Margit-sziget a Duna hordalékkúpja. illetve a Duna-delta (elsősorban a Kilia-ág) területén a turzások. A hordalék a felső szakaszon még igen nagy méreteket, lejjebb már csak porszemnyi nagyságot vehet fel. Ugyanis, amikor lelassul, akkor a folyó először a nagyobb, majd az egyre kisebb darabokat hagyja el (kövek, kavicsok, homok, finom por). Ha a vízszint hirtelen apadásnak indul, a Dunán jellemzően ideiglenes zátonyok alakulnak ki. Ha ismét megnő a vízmennyiség, akkor a folyó újra tovább tudja szállítani hordalékát, a zátonyok eltűnnek. Jellemzően zátonyos rész a Duna Rajka és Gönyű közötti szakasza, ahol a Bős–nagymarosi vízlépcső megépítésével a hasonló képződmények még nagyobb számban elszaporodtak. A Duna különleges képződményei az al-dunai sellők, amelyek a mederfenék kisebb-nagyobb kitüremkedéseit jelentik. Egyre kisebb számban, de még jellemzőek a Duna mentén a mocsarak, amelyek lerakott hordalékkúpokon alakultak ki. Ezekből a legnagyobbak Bajorországban, a Hanság és a Duna-delta területén találhatók.", "Az egyesítéskor felmerült a Budapest környéki településekre helyiérdekű vasút (HÉV) építése is, azonban ez csak 1882-ben vált véglegessé: a BKVT április 4-ei ülésén a Közvágóhíd–Soroksár HÉV-vonal létrehozásáról határozott. Még javában folyt a vonal építése, de a BKVT már előmunkálati engedélyt kapott a dunaharaszti meghosszabbításra is. Az 1880-as évek végére a főváros négy HÉV-vonallal büszkélkedhetett: először a Budapest-Szentlőrinci Helyi Érdekű Vasút Rt. (BLVV) üzemeletetésében álló, Ferencvárost és a Budapest-Szentlőrinci Tégla- és Terracottagyárat összekötő vonalat nyitották meg 1887. április 12-én (későbbi 50-es villamos), amit a BKVT Közvágóhíd–Soroksár vonala követett augusztus 7-én, majd ennek a Dunaharasztiig érő szakasza november 24-én. 1888. július 20-án üzembe helyezte a BKVT a Kerepesi út–Cinkota, majd augusztus 17-én a Filatorigát–Szentendre is. A HÉV-ágazat 1889. december 29-én függetlenedett el, kezelője a Budapesti Helyi Érdekű Vasutak Részvénytársaság (BHÉV) lett."]
for question, context in zip(questions, contexts):
inputs = tokenizer(question, context, return_tensors='pt')
outputs = model(**inputs)
answer_start_index = outputs.start_logits.argmax()
answer_end_index = outputs.end_logits.argmax()
predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
answer = tokenizer.decode(predict_answer_tokens)
print(f"问题: {question}, 答案: {answer}")
Distilbert Base Cased Distilled Squad
Apache-2.0
DistilBERT是BERT的轻量级蒸馏版本,参数量减少40%,速度提升60%,保留95%以上性能。本模型是在SQuAD v1.1数据集上微调的问答专用版本。
问答系统 英语
D
distilbert
220.76k
244
Distilbert Base Uncased Distilled Squad
Apache-2.0
DistilBERT是BERT的轻量级蒸馏版本,参数量减少40%,速度提升60%,在GLUE基准测试中保持BERT 95%以上的性能。本模型专为问答任务微调。
问答系统
Transformers 英语

D
distilbert
154.39k
115
Tapas Large Finetuned Wtq
Apache-2.0
TAPAS是基于BERT架构的表格问答模型,通过自监督方式在维基百科表格数据上预训练,支持对表格内容进行自然语言问答
问答系统
Transformers 英语

T
google
124.85k
141
T5 Base Question Generator
基于t5-base的问答生成模型,输入答案和上下文,输出相应问题
问答系统
Transformers

T
iarfmoose
122.74k
57
Bert Base Cased Qa Evaluator
基于BERT-base-cased的问答对评估模型,用于判断问题和答案是否语义相关
问答系统
B
iarfmoose
122.54k
9
Tiny Doc Qa Vision Encoder Decoder
MIT
一个基于MIT许可证的文档问答模型,主要用于测试目的。
问答系统
Transformers

T
fxmarty
41.08k
16
Dpr Question Encoder Single Nq Base
DPR(密集段落检索)是用于开放领域问答研究的工具和模型。该模型是基于BERT的问题编码器,使用自然问题(NQ)数据集训练。
问答系统
Transformers 英语

D
facebook
32.90k
30
Mobilebert Uncased Squad V2
MIT
MobileBERT是BERT_LARGE的轻量化版本,在SQuAD2.0数据集上微调而成的问答系统模型。
问答系统
Transformers 英语

M
csarron
29.11k
7
Tapas Base Finetuned Wtq
Apache-2.0
TAPAS是一个基于Transformer的表格问答模型,通过自监督学习在维基百科表格数据上预训练,并在WTQ等数据集上微调。
问答系统
Transformers 英语

T
google
23.03k
217
Dpr Question Encoder Multiset Base
基于BERT的密集段落检索(DPR)问题编码器,用于开放领域问答研究,在多个QA数据集上训练
问答系统
Transformers 英语

D
facebook
17.51k
4
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98