🚀 金融要約用PEGASUS
このモデルは、ブルームバーグの2000本の記事からなる独自の金融ニュースデータセットでファインチューニングされています。このデータセットの記事は、株式、市場、通貨、金利、暗号通貨などのトピックに関するものです。
このモデルはPEGASUSモデルをベースに構築されており、特に極限要約(XSum)データセットでファインチューニングされたPEGASUS、つまりgoogle/pegasus - xsumモデルを使用しています。PEGASUSは、Jingqing Zhang、Yao Zhao、Mohammad Saleh、Peter J. LiuによってPEGASUS: Pre - training with Extracted Gap - sentences for Abstractive Summarizationで最初に提案されました。
注: このモデルはベースバージョンです。さらに性能が向上した高度なモデルについては、Rapid API上の[高度なバージョン](https://rapidapi.com/medoid - ai - medoid - ai - default/api/financial - summarization - advanced)をご確認ください。高度なモデルは、ベースモデルと比較してROUGEスコア(人間が生成した要約との類似度)が16%以上向上しています。また、高度なモデルは、さまざまなユースケースやワークロードに合わせた便利なプランを提供しており、個人利用者から企業利用者までスムーズな体験を提供します。
🚀 クイックスタート
このモデルを金融要約タスクで使用する方法を、PyTorchでの簡単なコードスニペットで紹介します。
from transformers import PegasusTokenizer, PegasusForConditionalGeneration, TFPegasusForConditionalGeneration
model_name = "human-centered-summarization/financial-summarization-pegasus"
tokenizer = PegasusTokenizer.from_pretrained(model_name)
model = PegasusForConditionalGeneration.from_pretrained(model_name)
text_to_summarize = "National Commercial Bank (NCB), Saudi Arabia’s largest lender by assets, agreed to buy rival Samba Financial Group for $15 billion in the biggest banking takeover this year.NCB will pay 28.45 riyals ($7.58) for each Samba share, according to a statement on Sunday, valuing it at about 55.7 billion riyals. NCB will offer 0.739 new shares for each Samba share, at the lower end of the 0.736-0.787 ratio the banks set when they signed an initial framework agreement in June.The offer is a 3.5% premium to Samba’s Oct. 8 closing price of 27.50 riyals and about 24% higher than the level the shares traded at before the talks were made public. Bloomberg News first reported the merger discussions.The new bank will have total assets of more than $220 billion, creating the Gulf region’s third-largest lender. The entity’s $46 billion market capitalization nearly matches that of Qatar National Bank QPSC, which is still the Middle East’s biggest lender with about $268 billion of assets."
input_ids = tokenizer(text_to_summarize, return_tensors="pt").input_ids
output = model.generate(
input_ids,
max_length=32,
num_beams=5,
early_stopping=True
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
📚 ドキュメント
評価結果
データセットでのファインチューニング前後の結果を以下に示します。
ファインチューニング |
R - 1 |
R - 2 |
R - L |
R - S |
実施 |
23.55 |
6.99 |
18.14 |
21.36 |
未実施 |
13.8 |
2.4 |
10.63 |
12.03 |
引用
この研究に関する詳細は、以下のワークショップ論文に記載されています。もしあなたの研究でこのモデルを使用する場合は、この論文を引用していただけると幸いです。
T. Passali, A. Gidiotis, E. Chatzikyriakidis and G. Tsoumakas. 2021.
Towards Human - Centered Summarization: A Case Study on Financial News.
In Proceedings of the First Workshop on Bridging Human - Computer Interaction and Natural Language Processing(pp. 21–27). Association for Computational Linguistics.
BibTeXエントリ:
@inproceedings{passali-etal-2021-towards,
title = "Towards Human - Centered Summarization: A Case Study on Financial News",
author = "Passali, Tatiana and Gidiotis, Alexios and Chatzikyriakidis, Efstathios and Tsoumakas, Grigorios",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.4",
pages = "21--27",
}
サポート
より多くの記事で学習され、あなたのニーズに合わせた高度なバージョンのモデルに興味がある場合は、info@medoid.aiまでご連絡ください!
Medoid AIに関する詳細情報:
- ウェブサイト: https://www.medoid.ai
- LinkedIn: [https://www.linkedin.com/company/medoid - ai/](https://www.linkedin.com/company/medoid - ai/)