longformer-base-4096-finetuned-squadv2オープンソース質疑応答モデル

ホーム

Longformer Base 4096 Finetuned Squadv2

mrm8488によって開発

このモデルはLongformerアーキテクチャに基づき、SQuAD v2 Q&AデータセットでファインチューニングされたQ&Aシステムで、長文シーケンス（最大4096トークン）の処理をサポートします。

質問応答システム

Transformers

英語#長文テキストQ&A #SQuADv2ファインチューニング #4096コンテキストウィンドウ

ダウンロード数 190

リリース時間 : 3/2/2022

モデル概要

Longformer-base-4096は長文ドキュメント向けに設計されたTransformerモデルで、RoBERTaを初期化し、SQuAD v2データセットでQ&Aタスクのファインチューニングを行いました。スライディングウィンドウのローカルアテンションとグローバルアテンション機構を組み合わせ、長文ドキュメントのQ&Aタスクに適しています。

モデル特徴

長文処理能力

最大4096トークンのシーケンスをサポートし、長文ドキュメントのQ&Aタスクに適しています

混合アテンション機構

スライディングウィンドウのローカルアテンションとグローバルアテンションを組み合わせ、効率を保ちつつ長距離依存関係を捕捉します

高精度Q&A

SQuAD v2検証セットで79.92%の正確一致率と83.35%のF1スコアを達成しました

モデル能力

長文Q&A

オープンドメインQ&A

無回答検出

使用事例

ドキュメントQ&Aシステム

法律文書分析

長い法律文書から特定の質問の答えを抽出します

研究報告Q&A

学術論文や技術報告書に関する質問に答えます

カスタマーサポート

FAQ自動回答

長い製品ドキュメントから顧客の質問に答えます

🚀 Longformer-base-4096 をSQuAD v2でファインチューニング

Longformer-base-4096モデルを SQuAD v2 でファインチューニングし、質問応答（Q&A） の下流タスクに対応させました。

🚀 クイックスタート

このモデルは、長文に対応したTransformerモデルであるLongformerをSQuAD v2データセットでファインチューニングしたものです。以下に使用例を示します。

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
ckpt = "mrm8488/longformer-base-4096-finetuned-squadv2"
tokenizer = AutoTokenizer.from_pretrained(ckpt)
model = AutoModelForQuestionAnswering.from_pretrained(ckpt)

text = "Huggingface has democratized NLP. Huge thanks to Huggingface for this."
question = "What has Huggingface done ?"
encoding = tokenizer(question, text, return_tensors="pt")
input_ids = encoding["input_ids"]

# default is local attention everywhere
# the forward method will automatically set global attention on question tokens
attention_mask = encoding["attention_mask"]

start_scores, end_scores = model(input_ids, attention_mask=attention_mask)
all_tokens = tokenizer.convert_ids_to_tokens(input_ids[0].tolist())

answer_tokens = all_tokens[torch.argmax(start_scores) :torch.argmax(end_scores)+1]
answer = tokenizer.decode(tokenizer.convert_tokens_to_ids(answer_tokens))

# output => democratized NLP

高度な使用法

from transformers import AutoTokenizer, AutoModelForQuestionAnswering, pipeline

ckpt = "mrm8488/longformer-base-4096-finetuned-squadv2"
tokenizer = AutoTokenizer.from_pretrained(ckpt)
model = AutoModelForQuestionAnswering.from_pretrained(ckpt)

qa = pipeline("question-answering", model=model, tokenizer=tokenizer)

text = "Huggingface has democratized NLP. Huge thanks to Huggingface for this."
question = "What has Huggingface done?"

qa({"question": question, "context": text})

✨ 主な機能

長文対応：Longformerモデルをベースにしているため、最大4,096のシーケンス長をサポートします。
質問応答タスク：SQuAD v2データセットでファインチューニングされており、質問応答タスクに適しています。
ローカルとグローバルのアテンション：Longformerはスライディングウィンドウ（ローカル）アテンションとグローバルアテンションを組み合わせて使用します。

📦 インストール

データセットをロードするために、以下のコマンドでdatasetsライブラリをインストールします。

!pip install datasets

📚 ドキュメント

Longformer-base-4096

Longformer は長文用のTransformerモデルです。 longformer-base-4096 はRoBERTaのチェックポイントから始まり、長文に対してMLM（マスク言語モデリング）で事前学習されたBERTライクなモデルです。最大4,096のシーケンス長をサポートします。 Longformerはスライディングウィンドウ（ローカル）アテンションとグローバルアテンションを組み合わせて使用します。グローバルアテンションはタスクに基づいてユーザーが設定でき、モデルがタスク固有の表現を学習できるようにします。

下流タスク（Q&A）の詳細 - データセット 📚 🧐 ❓

データセットID: squad_v2 （HuggingFace/Datasets から）

データセット	分割	サンプル数
squad_v2	train	130319
squad_v2	valid	11873

Datasets からデータセットをロードする方法：

from datasets import load_dataset
dataset = load_dataset('squad_v2')

このデータセットや他のデータセットについて詳しくは Datasets Viewer を参照してください。

モデルのファインチューニング 🏋️‍

トレーニングスクリプトはこのスクリプトを少し改変したものです。

モデルの実行例 🚀

上記の「基本的な使用法」と「高度な使用法」のコードを参照してください。

注意事項

同じコンテキストで存在しないことを尋ねた場合、回答なし の出力は <s> になります。

作成者: Manuel Romero/@mrm8488 | LinkedIn

スペインで ♥ を込めて作成

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご