Mt5 Small Jaquad Qg Ae
MT5-smallをファインチューニングした日本語の質問生成と回答抽出モデルで、与えられたテキストから質問を生成したり回答を抽出したりできます。
ダウンロード数 143
リリース時間 : 3/2/2022
モデル概要
このモデルは、日本語テキストの質問生成と回答抽出タスクに特化した共同ファインチューニングされたテキスト生成モデルで、JaQuADデータセットで訓練されています。
モデル特徴
共同タスク処理
質問生成と回答抽出という2つの関連タスクを同時にサポート
日本語最適化
日本語テキストに特化して最適化された訓練
複数指標評価
BLEU、ROUGE、METEORなど複数の評価指標をサポート
モデル能力
テキスト生成
質問生成
回答抽出
日本語テキスト処理
使用事例
教育技術
自動テスト問題生成
教材テキストから自動的にテスト問題を生成
生成された問題は教育評価に使用可能
コンテンツ処理
ドキュメント要約強化
ドキュメント内容に対して関連質問を生成して可読性を向上
ドキュメントのインタラクティブ性と理解度を向上
🚀 lmqg/mt5-small-jaquad-qg-ae
モデルカード
このモデルは、google/mt5-smallをベースに、lmqg/qg_jaquad(データセット名:デフォルト)上でlmqg
を用いて共同微調整された質問生成と回答抽出モデルです。
🚀 クイックスタート
概要
プロパティ | 詳細 |
---|---|
言語モデル | google/mt5-small |
言語 | 日本語 |
訓練データ | lmqg/qg_jaquad(デフォルト) |
オンラインデモ | https://autoqg.net/ |
コードリポジトリ | https://github.com/asahi417/lm-question-generation |
論文 | https://arxiv.org/abs/2210.03992 |
使用方法
基本的な使用法
from lmqg import TransformersQG
# モデルの初期化
model = TransformersQG(language="ja", model="lmqg/mt5-small-jaquad-qg-ae")
# モデルの予測
question_answer_pairs = model.generate_qa("維ミル作品の項目は、17世紀のオランダの画家ヨハネス・ヴェルミールの作品を記述しています。ヴェルミールの現存する作品は、論争のある作品を含めてわずか30数点で、すべて油絵で、版画、下絵、素描は残っていません。")
高度な使用法
from transformers import pipeline
pipe = pipeline("text2text-generation", "lmqg/mt5-small-jaquad-qg-ae")
# 回答抽出
answer = pipe("生成問題:ソフィーは貴族出身ですが王族ではなく、ハプスブルク家の皇位継承者フランツ・フェルディナントとの結婚は貴賤通婚に当たります。皇帝フランツ・ヨーゼフは、両者の子孫が皇位を継承できないことを条件にこの結婚を承認しました。予定されていた視察の<hl>6月28日<hl>は、両者の結婚14周年記念日でした。")
# 質問生成
question = pipe("抽出答案:『ワニのプーさん』の物語は、最初は1925年12月24日に短篇作品として『エヴニングニュース』紙のクリスマス特集号に掲載されました。これは『ワニのプーさん』の第一章の内容で、このときの挿絵はJ.H.道德によって描かれました。その後、10編の物語と挿絵が完成し、正式な出版前に、『エオルの誕生日』の章は1926年8月に『ロイヤルマガジン』に掲載され、同年10月9日には『ニューヨークエヴニングポスト』に掲載され、10月14日にはロンドン(メイヒューン出版社)、21日にはニューヨーク(ダトン出版社)で『ワニのプーさん』が出版されました。前作の『私たちが小さかった頃』が大成功を収めたため、英国での初版発行部数は前作の7倍の<hl>3.5万部<hl>に達しました。アメリカ市場でも同年末までに15万部が販売されましたが、依然として人気の高い前作を売上で上回るには数年かかりました。")
✨ 主な機能
- 質問生成:与えられたテキストから質問を自動生成します。
- 回答抽出:テキストから回答を抽出します。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
質問生成例
- 質問生成例1
- テキスト:"生成問題:ソフィーは貴族出身ですが王族ではなく、ハプスブルク家の皇位継承者フランツ・フェルディナントとの結婚は貴賤通婚に当たります。皇帝フランツ・ヨーゼフは、両者の子孫が皇位を継承できないことを条件にこの結婚を承認しました。予定されていた視察の
6月28日 は、両者の結婚14周年記念日でした。"
- テキスト:"生成問題:ソフィーは貴族出身ですが王族ではなく、ハプスブルク家の皇位継承者フランツ・フェルディナントとの結婚は貴賤通婚に当たります。皇帝フランツ・ヨーゼフは、両者の子孫が皇位を継承できないことを条件にこの結婚を承認しました。予定されていた視察の
- 質問生成例2
- テキスト:"生成問題:『ワニのプーさん』の物語は、最初は1925年12月24日に短篇作品として『エヴニングニュース』紙のクリスマス特集号に掲載されました。これは『ワニのプーさん』の第一章の内容で、このときの挿絵はJ.H.道德によって描かれました。その後、10編の物語と挿絵が完成し、正式な出版前に、『エオルの誕生日』の章は1926年8月に『ロイヤルマガジン』に掲載され、同年10月9日には『ニューヨークエヴニングポスト』に掲載され、10月14日にはロンドン(メイヒューン出版社)、21日にはニューヨーク(ダトン出版社)で『ワニのプーさん』が出版されました。前作の『私たちが小さかった頃』が大成功を収めたため、英国での初版発行部数は前作の7倍の
3.5万部 に達しました。アメリカ市場でも同年末までに15万部が販売されましたが、依然として人気の高い前作を売上で上回るには数年かかりました。"
- テキスト:"生成問題:『ワニのプーさん』の物語は、最初は1925年12月24日に短篇作品として『エヴニングニュース』紙のクリスマス特集号に掲載されました。これは『ワニのプーさん』の第一章の内容で、このときの挿絵はJ.H.道德によって描かれました。その後、10編の物語と挿絵が完成し、正式な出版前に、『エオルの誕生日』の章は1926年8月に『ロイヤルマガジン』に掲載され、同年10月9日には『ニューヨークエヴニングポスト』に掲載され、10月14日にはロンドン(メイヒューン出版社)、21日にはニューヨーク(ダトン出版社)で『ワニのプーさん』が出版されました。前作の『私たちが小さかった頃』が大成功を収めたため、英国での初版発行部数は前作の7倍の
- 質問生成例3
- テキスト:"生成問題:維ミル作品の項目は、17世紀のオランダの画家ヨハネス・ヴェルミールの作品を記述しています。ヴェルミールの現存する作品は、論争のある作品を含めてわずか30数点で、すべて油絵で、版画、下絵、素描は残っていません。以下に37点の作品の基本情報(一部の論争作品を含む)を収録し、簡単に説明します。並び順と推定制作年代は、『「ヴェルミールとその時代展」図録』に基づいています。日本語の作品タイトルは、この図録と『「ヴェルミール展」図録』『ヴェルミールの生涯と作品』を参考にしています。読みやすくするために、「1650年代の作品」「1660年代の作品」「1670年代の作品」の3節に分けていますが、ヴェルミールの多くの作品の制作年代は不明で、推定年代には学界の違いがあります。"
回答抽出例
- 回答抽出例1
- テキスト:"抽出答案:『ワニのプーさん』の物語は、最初は1925年12月24日に短篇作品として『エヴニングニュース』紙のクリスマス特集号に掲載されました。これは『ワニのプーさん』の第一章の内容で、このときの挿絵はJ.H.道德によって描かれました。その後、10編の物語と挿絵が完成し、正式な出版前に、『エオルの誕生日』の章は1926年8月に『ロイヤルマガジン』に掲載され、同年10月9日には『ニューヨークエヴニングポスト』に掲載され、10月14日にはロンドン(メイヒューン出版社)、21日にはニューヨーク(ダトン出版社)で『ワニのプーさん』が出版されました。前作の『私たちが小さかった頃』が大成功を収めたため、英国での初版発行部数は前作の7倍の
3.5万部 に達しました。アメリカ市場でも同年末までに15万部が販売されましたが、依然として人気の高い前作を売上で上回るには数年かかりました。"
- テキスト:"抽出答案:『ワニのプーさん』の物語は、最初は1925年12月24日に短篇作品として『エヴニングニュース』紙のクリスマス特集号に掲載されました。これは『ワニのプーさん』の第一章の内容で、このときの挿絵はJ.H.道德によって描かれました。その後、10編の物語と挿絵が完成し、正式な出版前に、『エオルの誕生日』の章は1926年8月に『ロイヤルマガジン』に掲載され、同年10月9日には『ニューヨークエヴニングポスト』に掲載され、10月14日にはロンドン(メイヒューン出版社)、21日にはニューヨーク(ダトン出版社)で『ワニのプーさん』が出版されました。前作の『私たちが小さかった頃』が大成功を収めたため、英国での初版発行部数は前作の7倍の
- 回答抽出例2
- テキスト:"抽出答案:維ミル作品の項目は、17世紀のオランダの画家ヨハネス・ヴェルミールの作品を記述しています。ヴェルミールの現存する作品は、論争のある作品を含めてわずか30数点で、すべて油絵で、版画、下絵、素描は残っていません。
すべての現存作品は油絵で、版画、下絵、素描は残っていません。以下に37点の作品の基本情報(一部の論争作品を含む)を収録し、簡単に説明します。 並び順と推定制作年代は、『「ヴェルミールとその時代展」図録』に基づいています。日本語の作品タイトルは、この図録と『「ヴェルミール展」図録』『ヴェルミールの生涯と作品』を参考にしています。読みやすくするために、「1650年代の作品」「1660年代の作品」「1670年代の作品」の3節に分けていますが、ヴェルミールの多くの作品の制作年代は不明で、推定年代には学界の違いがあります。"
- テキスト:"抽出答案:維ミル作品の項目は、17世紀のオランダの画家ヨハネス・ヴェルミールの作品を記述しています。ヴェルミールの現存する作品は、論争のある作品を含めてわずか30数点で、すべて油絵で、版画、下絵、素描は残っていません。
📚 ドキュメント
評価
質問生成指標
指標名 | 得点 | タイプ | データセット |
---|---|---|---|
BERTScore | 81.64 | デフォルト | lmqg/qg_jaquad |
Bleu_1 | 56.94 | デフォルト | lmqg/qg_jaquad |
Bleu_2 | 45.23 | デフォルト | lmqg/qg_jaquad |
Bleu_3 | 37.37 | デフォルト | lmqg/qg_jaquad |
Bleu_4 | 31.55 | デフォルト | lmqg/qg_jaquad |
METEOR | 29.64 | デフォルト | lmqg/qg_jaquad |
MoverScore | 59.42 | デフォルト | lmqg/qg_jaquad |
ROUGE_L | 52.58 | デフォルト | lmqg/qg_jaquad |
質問と回答生成指標
指標名 | 得点 | タイプ | データセット |
---|---|---|---|
QAAlignedF1Score (BERTScore) | 80.51 | デフォルト | lmqg/qg_jaquad |
QAAlignedF1Score (MoverScore) | 56.28 | デフォルト | lmqg/qg_jaquad |
QAAlignedPrecision (BERTScore) | 80.51 | デフォルト | lmqg/qg_jaquad |
QAAlignedPrecision (MoverScore) | 56.28 | デフォルト | lmqg/qg_jaquad |
QAAlignedRecall (BERTScore) | 80.51 | デフォルト | lmqg/qg_jaquad |
QAAlignedRecall (MoverScore) | 56.28 | デフォルト | lmqg/qg_jaquad |
回答抽出指標
指標名 | 得点 | タイプ | データセット |
---|---|---|---|
AnswerExactMatch | 29.55 | デフォルト | lmqg/qg_jaquad |
AnswerF1Score | 29.55 | デフォルト | lmqg/qg_jaquad |
BERTScore | 78.12 | デフォルト | lmqg/qg_jaquad |
Bleu_1 | 34.96 | デフォルト | lmqg/qg_jaquad |
Bleu_2 | 31.92 | デフォルト | lmqg/qg_jaquad |
Bleu_3 | 29.49 | デフォルト | lmqg/qg_jaquad |
Bleu_4 | 27.55 | デフォルト | lmqg/qg_jaquad |
METEOR | 26.22 | デフォルト | lmqg/qg_jaquad |
MoverScore | 65.68 | デフォルト | lmqg/qg_jaquad |
ROUGE_L | 36.63 | デフォルト | lmqg/qg_jaquad |
訓練ハイパーパラメータ
訓練に使用されたハイパーパラメータは以下の通りです。
- データセットパス:lmqg/qg_jaquad
- データセット名:デフォルト
- 入力タイプ:['段落_答案', '段落_句子']
- 出力タイプ:['問題', '答案']
- プレフィックスタイプ:['qg', 'ae']
- モデル:google/mt5-small
- 最大長:512
- 出力最大長:32
- 訓練エポック数:24
- バッチサイズ:64
- 学習率:0.0005
- 混合精度訓練:オフ
- 乱数シード:1
- 勾配累積ステップ数:1
- ラベルスムージング:0.15
完全な設定については、微調整設定ファイルを参照してください。
🔧 技術詳細
このセクションでは、モデルの技術的な詳細について説明します。
📄 ライセンス
このモデルは、CC-BY-4.0ライセンスの下で提供されています。
引用
@inproceedings{ushio-etal-2022-generative,
title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration",
author = "Ushio, Asahi and
Alva-Manchego, Fernando and
Camacho-Collados, Jose",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, U.A.E.",
publisher = "Association for Computational Linguistics",
}
Distilbert Base Cased Distilled Squad
Apache-2.0
DistilBERTはBERTの軽量蒸留バージョンで、パラメータ数が40%減少し、速度が60%向上し、95%以上の性能を維持しています。このモデルはSQuAD v1.1データセットで微調整された質問応答専用バージョンです。
質問応答システム 英語
D
distilbert
220.76k
244
Distilbert Base Uncased Distilled Squad
Apache-2.0
DistilBERTはBERTの軽量蒸留バージョンで、パラメータ数が40%減少し、速度が60%向上し、GLUEベンチマークテストでBERTの95%以上の性能を維持します。このモデルは質問応答タスク用に微調整されています。
質問応答システム
Transformers 英語

D
distilbert
154.39k
115
Tapas Large Finetuned Wtq
Apache-2.0
TAPASはBERTアーキテクチャに基づく表質問応答モデルで、ウィキペディアの表データで自己監督方式により事前学習され、表内容に対する自然言語質問応答をサポート
質問応答システム
Transformers 英語

T
google
124.85k
141
T5 Base Question Generator
t5-baseに基づく質問生成モデルで、答えとコンテキストを入力すると、対応する質問を出力します。
質問応答システム
Transformers

T
iarfmoose
122.74k
57
Bert Base Cased Qa Evaluator
BERT-base-casedに基づく質問と回答のペアの評価モデルで、質問と回答が意味的に関連しているかどうかを判断するために使用されます。
質問応答システム
B
iarfmoose
122.54k
9
Tiny Doc Qa Vision Encoder Decoder
MIT
MITライセンスに基づく文書質問応答モデルで、主にテスト目的で使用されます。
質問応答システム
Transformers

T
fxmarty
41.08k
16
Dpr Question Encoder Single Nq Base
DPR(密集パッセージ検索)はオープンドメイン質問応答研究のためのツールとモデルです。このモデルはBERTベースの質問エンコーダーで、Natural Questions(NQ)データセットでトレーニングされています。
質問応答システム
Transformers 英語

D
facebook
32.90k
30
Mobilebert Uncased Squad V2
MIT
MobileBERTはBERT_LARGEの軽量化バージョンで、SQuAD2.0データセットで微調整された質問応答システムモデルです。
質問応答システム
Transformers 英語

M
csarron
29.11k
7
Tapas Base Finetuned Wtq
Apache-2.0
TAPASはTransformerベースの表質問応答モデルで、ウィキペディアの表データで自己教師あり学習により事前学習され、WTQなどのデータセットでファインチューニングされています。
質問応答システム
Transformers 英語

T
google
23.03k
217
Dpr Question Encoder Multiset Base
BERTベースの密集パラグラフ検索(DPR)の質問エンコーダーで、オープンドメイン質問応答研究に使用され、複数のQAデータセットで訓練されています。
質問応答システム
Transformers 英語

D
facebook
17.51k
4
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98