Bertopic ArXiv
BERTopicフレームワークに基づく事前学習済みトピックモデリングモデル。約3万件のArXiv論文要約で訓練され、多次元トピック表現と分類をサポート
ダウンロード数 231
リリース時間 : 5/30/2023
モデル概要
BERTopicは柔軟でモジュール型のトピックモデリングフレームワークで、大量のデータから解釈しやすいトピック分類を生成できます。本モデルはBERTopicにおける様々なトピック表現手法の組み合わせ応用を示しています。
モデル特徴
多次元トピック表現
品詞タグ付け、KeyBERTヒューリスティック、MMRなど複数の技術を組み合わせて豊富なトピック表現を生成
ChatGPT拡張
ChatGPTを活用してトピックラベルと要約を生成し、解釈性を向上
モジュール設計
異なるトピック表現とクラスタリングアルゴリズムの柔軟な組み合わせをサポート
モデル能力
テキスト分類
トピック抽出
キーワード生成
トピック要約生成
使用事例
学術研究
論文テーマ分析
ArXivなどの学術論文データベースに対するテーママイニングと分類
107の異なるテーマを識別
コンテンツ分析
ドキュメントクラスタリング
大規模な文書コレクションに対する自動テーマクラスタリング
🚀 BERTopic_ArXiv
このモデルはBERTopicをベースにしています。BERTopicは柔軟でモジュール性の高いトピックモデリングフレームワークで、大規模なデータセットから容易に解釈可能なトピックを生成することができます。
この事前学習済みモデルは、BERTopic内で使用できるいくつかの表現モデルの使用方法を示しています。このモデルは、約30000件のArXivの抄録を用いて、以下のトピック表現方法 (bertopic.representation
) で学習されました。
- POS
- KeyBERTInspired
- MaximalMarginalRelevance
- KeyBERT + MaximalMarginalRelevance
- ChatGPT labels
- ChatGPT summaries
デフォルトのc-TF-IDF表現の例:
ChatGPT (gpt-3.5-turbo
) によって生成されたラベルの例:
これらの画像を生成するには、このチュートリアルに沿って操作してください:
🚀 クイックスタート
このモデルを使用するには、まずBERTopicをインストールする必要があります。
pip install -U bertopic
pip install -U safetensors
以下のようにモデルを使用できます。
from bertopic import BERTopic
topic_model = BERTopic.load("MaartenGr/BERTopic_ArXiv")
topic_model.get_topic_info()
すべての異なるトピック表現(キーワード、ラベル、要約など)を表示するには、以下を実行します。
>>> topic_model.get_topic(0, full=True)
{'Main': [['dialogue', 0.02704485163341523],
['dialog', 0.01677038224466311],
['response', 0.011692640237477233],
['responses', 0.01002788412923778],
['intent', 0.00990720856306287],
['oriented', 0.009217253131615378],
['slot', 0.009177118721490055],
['conversational', 0.009129311385144046],
['systems', 0.009101146153425574],
['conversation', 0.008845392252307181]],
'POS': [['dialogue', 0.02704485163341523],
['dialog', 0.01677038224466311],
['response', 0.011692640237477233],
['responses', 0.01002788412923778],
['intent', 0.00990720856306287],
['slot', 0.009177118721490055],
['conversational', 0.009129311385144046],
['systems', 0.009101146153425574],
['conversation', 0.008845392252307181],
['user', 0.008753551043296965]],
'KeyBERTInspired': [['task oriented dialogue', 0.6559894680976868],
['dialogue systems', 0.6249060034751892],
['oriented dialogue', 0.5788208246231079],
['dialog systems', 0.530449628829956],
['dialogue state', 0.5167528390884399],
['response generation', 0.5143576860427856],
['spoken language understanding', 0.46739083528518677],
['oriented dialog', 0.4600704610347748],
['dialog', 0.4534587264060974],
['dialogues', 0.44082391262054443]],
'MMR': [['dialogue', 0.02704485163341523],
['dialog', 0.01677038224466311],
['response', 0.011692640237477233],
['responses', 0.01002788412923778],
['intent', 0.00990720856306287],
['oriented', 0.009217253131615378],
['slot', 0.009177118721490055],
['conversational', 0.009129311385144046],
['systems', 0.009101146153425574],
['conversation', 0.008845392252307181]],
'KeyBERT + MMR': [['task oriented dialogue', 0.6559894680976868],
['dialogue systems', 0.6249060034751892],
['oriented dialogue', 0.5788208246231079],
['dialog systems', 0.530449628829956],
['dialogue state', 0.5167528390884399],
['response generation', 0.5143576860427856],
['spoken language understanding', 0.46739083528518677],
['oriented dialog', 0.4600704610347748],
['dialog', 0.4534587264060974],
['dialogues', 0.44082391262054443]],
'OpenAI_Label': [['Challenges and Approaches in Developing Task-oriented Dialogue Systems',
1]],
'OpenAI_Summary': [['Task-oriented dialogue systems and their components, such as dialogue policy, natural language understanding, dialogue state tracking, response generation, and end-to-end training using neural networks. These components are crucial in assisting users to complete various activities such as booking tickets and restaurant reservations through spoken language understanding dialogue. The challenge lies in tracking dialogue states of multiple domains and obtaining annotations for training. Effective SLU is achieved by utilizing context from the prior dialogue history.',
1]]}
✨ 主な機能
トピック概要
- トピック数: 107
- 学習ドキュメント数: 33189
すべてのトピックの概要を表示するにはここをクリックしてください。
トピックID | トピックキーワード | トピック頻度 | ラベル |
---|---|---|---|
-1 | language - models - model - data - based | 20 | -1_language_models_model_data |
0 | dialogue - dialog - response - responses - intent | 14247 | 0_dialogue_dialog_response_responses |
1 | speech - asr - speech recognition - recognition - end | 1833 | 1_speech_asr_speech recognition_recognition |
2 | tuning - tasks - prompt - models - language | 1369 | 2_tuning_tasks_prompt_models |
3 | summarization - summaries - summary - abstractive - document | 1109 | 3_summarization_summaries_summary_abstractive |
4 | question - answer - qa - answering - question answering | 893 | 4_question_answer_qa_answering |
5 | sentiment - sentiment analysis - aspect - analysis - opinion | 837 | 5_sentiment_sentiment analysis_aspect_analysis |
6 | clinical - medical - biomedical - notes - patient | 691 | 6_clinical_medical_biomedical_notes |
7 | translation - nmt - machine translation - neural machine - neural machine translation | 586 | 7_translation_nmt_machine translation_neural machine |
8 | generation - text generation - text - language generation - nlg | 558 | 8_generation_text generation_text_language generation |
9 | hate - hate speech - offensive - speech - detection | 484 | 9_hate_hate speech_offensive_speech |
10 | news - fake - fake news - stance - fact | 455 | 10_news_fake_fake news_stance |
11 | relation - relation extraction - extraction - relations - entity | 450 | 11_relation_relation extraction_extraction_relations |
12 | ner - named - named entity - entity - named entity recognition | 376 | 12_ner_named_named entity_entity |
13 | parsing - parser - dependency - treebank - parsers | 370 | 13_parsing_parser_dependency_treebank |
14 | event - temporal - events - event extraction - extraction | 314 | 14_event_temporal_events_event extraction |
15 | emotion - emotions - multimodal - emotion recognition - emotional | 300 | 15_emotion_emotions_multimodal_emotion recognition |
16 | word - embeddings - word embeddings - embedding - words | 292 | 16_word_embeddings_word embeddings_embedding |
17 | explanations - explanation - rationales - rationale - interpretability | 212 | 17_explanations_explanation_rationales_rationale |
18 | morphological - arabic - morphology - languages - inflection | 204 | 18_morphological_arabic_morphology_languages |
19 | topic - topics - topic models - lda - topic modeling | 200 | 19_topic_topics_topic models_lda |
20 | bias - gender - biases - gender bias - debiasing | 195 | 20_bias_gender_biases_gender bias |
21 | law - frequency - zipf - words - length | 185 | 21_law_frequency_zipf_words |
22 | legal - court - law - legal domain - case | 182 | 22_legal_court_law_legal domain |
23 | adversarial - attacks - attack - adversarial examples - robustness | 181 | 23_adversarial_attacks_attack_adversarial examples |
24 | commonsense - commonsense knowledge - reasoning - knowledge - commonsense reasoning | 180 | 24_commonsense_commonsense knowledge_reasoning_knowledge |
25 | quantum - semantics - calculus - compositional - meaning | 171 | 25_quantum_semantics_calculus_compositional |
26 | correction - error - error correction - grammatical - grammatical error | 161 | 26_correction_error_error correction_grammatical |
27 | argument - arguments - argumentation - argumentative - mining | 160 | 27_argument_arguments_argumentation_argumentative |
28 | sarcasm - humor - sarcastic - detection - humorous | 157 | 28_sarcasm_humor_sarcastic_detection |
29 | coreference - resolution - coreference resolution - mentions - mention | 156 | 29_coreference_resolution_coreference resolution_mentions |
30 | sense - word sense - wsd - word - disambiguation | 153 | 30_sense_word sense_wsd_word |
31 | knowledge - knowledge graph - graph - link prediction - entities | 149 | 31_knowledge_knowledge graph_graph_link prediction |
32 | parsing - semantic parsing - amr - semantic - parser | 146 | 32_parsing_semantic parsing_amr_semantic |
33 | cross lingual - lingual - cross - transfer - languages | 146 | 33_cross lingual_lingual_cross_transfer |
34 | mt - translation - qe - quality - machine translation | 139 | 34_mt_translation_qe_quality |
35 | sql - text sql - queries - spider - schema | 138 | 35_sql_text sql_queries_spider |
36 | classification - text classification - label - text - labels | 136 | 36_classification_text classification_label_text |
37 | style - style transfer - transfer - text style - text style transfer | 136 | 37_style_style transfer_transfer_text style |
38 | question - question generation - questions - answer - generation | 129 | 38_question_question generation_questions_answer |
39 | authorship - authorship attribution - attribution - author - authors | 127 | 39_authorship_authorship attribution_attribution_author |
40 | sentence - sentence embeddings - similarity - sts - sentence embedding | 123 | 40_sentence_sentence embeddings_similarity_sts |
41 | code - identification - switching - cs - code switching | 121 | 41_code_identification_switching_cs |
42 | story - stories - story generation - generation - storytelling | 118 | 42_story_stories_story generation_generation |
43 | discourse - discourse relation - discourse relations - rst - discourse parsing | 117 | 43_discourse_discourse relation_discourse relations_rst |
44 | code - programming - source code - code generation - programming languages | 117 | 44_code_programming_source code_code generation |
45 | paraphrase - paraphrases - paraphrase generation - paraphrasing - generation | 114 | 45_paraphrase_paraphrases_paraphrase generation_paraphrasing |
46 | agent - games - environment - instructions - agents | 111 | 46_agent_games_environment_instructions |
47 | covid - covid 19 - 19 - tweets - pandemic | 108 | 47_covid_covid 19_19_tweets |
48 | linking - entity linking - entity - el - entities | 107 | 48_linking_entity linking_entity_el |
49 | poetry - poems - lyrics - poem - music | 103 | 49_poetry_poems_lyrics_poem |
50 | image - captioning - captions - visual - caption | 100 | 50_image_captioning_captions_visual |
51 | nli - entailment - inference - natural language inference - language inference | 96 | 51_nli_entailment_inference_natural language inference |
52 | keyphrase - keyphrases - extraction - document - phrases | 95 | 52_keyphrase_keyphrases_extraction_document |
53 | simplification - text simplification - ts - sentence - simplified | 95 | 53_simplification_text simplification_ts_sentence |
54 | empathetic - emotion - emotional - empathy - emotions | 95 | 54_empathetic_emotion_emotional_empathy |
55 | depression - mental - health - mental health - social media | 93 | 55_depression_mental_health_mental health |
56 | segmentation - word segmentation - chinese - chinese word segmentation - chinese word | 93 | 56_segmentation_word segmentation_chinese_chinese word segmentation |
57 | citation - scientific - papers - citations - scholarly | 85 | 57_citation_scientific_papers_citations |
58 | agreement - syntactic - verb - grammatical - subject verb | 85 | 58_agreement_syntactic_verb_grammatical |
59 | metaphor - literal - figurative - metaphors - idiomatic | 83 | 59_metaphor_literal_figurative_metaphors |
60 | srl - semantic role - role labeling - semantic role labeling - role | 82 | 60_srl_semantic role_role labeling_semantic role labeling |
61 | privacy - private - federated - privacy preserving - federated learning | 82 | 61_privacy_private_federated_privacy preserving |
62 | change - semantic change - time - semantic - lexical semantic | 82 | 62_change_semantic change_time_semantic |
63 | bilingual - lingual - cross lingual - cross - embeddings | 80 | 63_bilingual_lingual_cross lingual_cross |
64 | political - media - news - bias - articles | 77 | 64_political_media_news_bias |
65 | medical - qa - question - questions - clinical | 75 | 65_medical_qa_question_questions |
66 | math - mathematical - math word - word problems - problems | 73 | 66_math_mathematical_math word_word problems |
67 | financial - stock - market - price - news | 69 | 67_financial_stock_market_price |
68 | table - tables - tabular - reasoning - qa | 69 | 68_table_tables_tabular_reasoning |
69 | readability - complexity - assessment - features - reading | 65 | 69_readability_complexity_assessment_features |
70 | layout - document - documents - document understanding - extraction | 64 | 70_layout_document_documents_document understanding |
71 | brain - cognitive - reading - syntactic - language | 62 | 71_brain_cognitive_reading_syntactic |
72 | sign - gloss - language - signed - language translation | 61 | 72_sign_gloss_language_signed |
73 | vqa - visual - visual question - visual question answering - question | 59 | 73_vqa_visual_visual question_visual question answering |
74 | biased - biases - spurious - nlp - debiasing | 57 | 74_biased_biases_spurious_nlp |
75 | visual - dialogue - multimodal - image - dialog | 55 | 75_visual_dialogue_multimodal_image |
76 | translation - machine translation - machine - smt - statistical | 54 | 76_translation_machine translation_machine_smt |
77 | multimodal - visual - image - translation - machine translation | 52 | 77_multimodal_visual_image_translation |
78 | geographic - location - geolocation - geo - locations | 51 | 78_geographic_location_geolocation_geo |
79 | reasoning - prompting - llms - chain thought - chain | 48 | 79_reasoning_prompting_llms_chain thought |
80 | essay - scoring - aes - essay scoring - essays | 45 | 80_essay_scoring_aes_essay scoring |
81 | crisis - disaster - traffic - tweets - disasters | 45 | 81_crisis_disaster_traffic_tweets |
82 | graph - text classification - text - gcn - classification | 44 | 82_graph_text classification_text_gcn |
83 | annotation - tools - linguistic - resources - xml | 43 | 83_annotation_tools_linguistic_resources |
84 | entity alignment - alignment - kgs - entity - ea | 43 | 84_entity alignment_alignment_kgs_entity |
85 | personality - traits - personality traits - evaluative - text | 42 | 85_personality_traits_personality traits_evaluative |
86 | ad - alzheimer - alzheimer disease - disease - speech | 40 | 86_ad_alzheimer_alzheimer disease_disease |
87 | taxonomy - hyperny |
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
DistilBERT - base - uncasedをベースに、SST - 2感情分析データセットで微調整されたテキスト分類モデル。正解率91.3%
テキスト分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
XLM-RoBERTaベースの多言語検出モデル、20言語のテキスト分類をサポート
テキスト分類
Transformers 複数言語対応

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
このモデルは動的データセット生成を通じてオンライン憎悪検出を改善し、検出効果を高めるために最悪ケースから学習することに焦点を当てています。
テキスト分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
bert-base-multilingual-uncasedを微調整した多言語感情分析モデルで、6言語の商品レビューの感情分析に対応しています。
テキスト分類 複数言語対応
B
nlptown
1.8M
371
Emotion English Distilroberta Base
DistilRoBERTa-baseをファインチューニングした英語テキストの感情分類モデルで、エクマンの6基本感情と中立カテゴリを予測可能。
テキスト分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
RoBERTuitoベースのスペイン語ツイート感情分析モデル、POS(ポジティブ)/NEG(ネガティブ)/NEU(ニュートラル)の3分類に対応
テキスト分類 スペイン語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERTは金融通信テキストを元に事前学習されたBERTモデルで、金融自然言語処理分野に特化しています。finbert-toneはその微調整バージョンで、金融感情分析タスクに使用されます。
テキスト分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
RoBERTa-baseに基づく多ラベル感情分類モデルで、go_emotionsデータセットで訓練され、28種類の感情ラベル識別をサポートします。
テキスト分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMOはXLM-Tモデルをファインチューニングした多言語感情分析モデルで、19言語をサポートし、特にソーシャルメディアテキストの感情予測に特化しています。
テキスト分類
Transformers その他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
MultiNLI、Fever-NLI、ANLIのデータセットを用いて訓練されたDeBERTa-v3モデルで、ゼロショット分類と自然言語推論タスクに優れています。
テキスト分類
Transformers 英語

D
MoritzLaurer
613.93k
204
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98