Bertopic Test
模型简介
BERTopic是基于BERT的话题建模工具,用于从文本数据中自动发现和分类话题。
模型特点
模块化设计
支持自定义嵌入模型、向量降维和聚类算法
可解释性
生成带有代表性关键词的易解释话题
自动话题发现
无需预设话题数量,自动识别数据中的话题结构
模型能力
文本话题分类
话题关键词提取
话题可视化
大规模文本分析
使用案例
社交媒体分析
加密货币论坛话题分析
分析加密货币相关讨论中的主要话题分布
识别出50个不同话题(如莱特币、证券交易委员会监管等)
市场研究
消费者反馈分类
自动归类产品评论中的主要讨论主题
🚀 BERTopic测试模型
这是一个 BERTopic 模型。BERTopic 是一个灵活且模块化的主题建模框架,可从大型数据集中生成易于解释的主题。
🚀 快速开始
📦 安装指南
要使用此模型,请安装 BERTopic:
pip install -U bertopic
💻 使用示例
基础用法
from bertopic import BERTopic
topic_model = BERTopic.load("ahessamb/bertopic-test")
topic_model.get_topic_info()
📚 详细文档
主题概述
- 主题数量:50
- 训练文档数量:1570
点击此处查看所有主题概述。
主题ID | 主题关键词 | 主题频率 | 标签 |
---|---|---|---|
0 | liquidations - forcefully - betting - liquidation - contracts | 8 | 0_liquidations_forcefully_betting_liquidation |
1 | litecoin - wsm - presale - 77 - near | 94 | 1_litecoin_wsm_presale_77 |
2 | sec - court - terraform - dismiss - lawyers | 49 | 2_sec_court_terraform_dismiss |
3 | huobi - hkvac - bsl - web3 - code | 12 | 3_huobi_hkvac_bsl_web3 |
4 | lucie - shiba - susbarium - puppynet - portals | 3 | 4_lucie_shiba_susbarium_puppynet |
5 | 000006819 - shiba - accuracy - finbold - estimates | 27 | 5_000006819_shiba_accuracy_finbold |
6 | tokens - sec - binance - securities - coinbase | 45 | 6_tokens_sec_binance_securities |
7 | mckinsey - ai - nanjing - productivity - diffusion | 43 | 7_mckinsey_ai_nanjing_productivity |
8 | resistance - swing - fib - zone - ltc | 32 | 8_resistance_swing_fib_zone |
9 | brinkman - tategpt - bitcoin - artists - wealth | 26 | 9_brinkman_tategpt_bitcoin_artists |
10 | stablecoin - stablecoins - decline - redemptions - tusd | 2 | 10_stablecoin_stablecoins_decline_redemptions |
11 | mutant - mayc - bayc - club - mcmullen | 64 | 11_mutant_mayc_bayc_club |
12 | xrp - ema - ripple - bullish - cryptocurrencies | 43 | 12_xrp_ema_ripple_bullish |
13 | tether - cbdcs - loans - federal - nafcu | 27 | 13_tether_cbdcs_loans_federal |
14 | rate - tradingview - bnb - breakout - coinmarketcap | 85 | 14_rate_tradingview_bnb_breakout |
15 | 26 - bulls - rsi - ceiling - 300 | 2 | 15_26_bulls_rsi_ceiling |
16 | lowest - jump - week - wallet - staggering | 3 | 16_lowest_jump_week_wallet |
17 | xrp - ripple - mekras - sbi - institutions | 56 | 17_xrp_ripple_mekras_sbi |
18 | debt - mortgages - trillion - government - suspends | 3 | 18_debt_mortgages_trillion_government |
19 | longitude - chronometer - bitcoin - ships - graffiti | 2 | 19_longitude_chronometer_bitcoin_ships |
20 | volumes - piggy - aud - xrp - usdt | 15 | 20_volumes_piggy_aud_xrp |
21 | root - ledger - stakers - sidechains - compatibility | 4 | 21_root_ledger_stakers_sidechains |
22 | astra - letter - concerns - investors - bitwise | 4 | 22_astra_letter_concerns_investors |
23 | gold - governments - manipulated - stocks - mined | 10 | 23_gold_governments_manipulated_stocks |
24 | tether - sygnum - documents - bank - coindesk | 9 | 24_tether_sygnum_documents_bank |
25 | rewards - governance - lido - proposal - june | 45 | 25_rewards_governance_lido_proposal |
26 | listings - coin - fairerc20 - bittrex - withdrawals | 68 | 26_listings_coin_fairerc20_bittrex |
27 | peaq - ordibots - cosmos - fetch - machine | 81 | 27_peaq_ordibots_cosmos_fetch |
28 | uniswap - v4 - orders - hooks - differing | 23 | 28_uniswap_v4_orders_hooks |
29 | price - neo - matic - rise - altcoin | 92 | 29_price_neo_matic_rise |
30 | emptydoc - staff - policy - binance - workspaces | 2 | 30_emptydoc_staff_policy_binance |
31 | lunc - synthetix - terra - perps - staking | 33 | 31_lunc_synthetix_terra_perps |
32 | tweet - dogecoin - chart - meme - negative | 3 | 32_tweet_dogecoin_chart_meme |
33 | binance - securities - exchange - cz - regulators | 63 | 33_binance_securities_exchange_cz |
34 | bitmart - sale - xrp - discount - event | 4 | 34_bitmart_sale_xrp_discount |
35 | yuan - event - olympics - canadians - organizers | 49 | 35_yuan_event_olympics_canadians |
36 | gusd - fidelity - bitcoin - proposal - blackrock | 52 | 36_gusd_fidelity_bitcoin_proposal |
37 | bills - mcglone - markets - stablecoins - liquidity | 56 | 37_bills_mcglone_markets_stablecoins |
38 | asset - gain - drop - trading - hours | 2 | 38_asset_gain_drop_trading |
39 | epstein - hamsterwheel - vulnerability - bounty - certick | 28 | 39_epstein_hamsterwheel_vulnerability_bounty |
40 | pyth - transparency - data - terra - oracle | 19 | 40_pyth_transparency_data_terra |
41 | shiba - inu - weighted - collapse - recovery | 2 | 41_shiba_inu_weighted_collapse |
42 | neo - opensea - carey - security - impersonators | 24 | 42_neo_opensea_carey_security |
43 | balancer - zkevm - liquidity - defi - 8020 | 3 | 43_balancer_zkevm_liquidity_defi |
44 | reed - battle - platform - argument - trading | 22 | 44_reed_battle_platform_argument |
45 | ada - cardano - whale - sell - investors | 4 | 45_ada_cardano_whale_sell |
46 | uk - coinbase - hong - crypto - regulatory | 65 | 46_uk_coinbase_hong_crypto |
47 | ethereum - tvl - defi - arbitrum - airdrop | 54 | 47_ethereum_tvl_defi_arbitrum |
48 | swyftx - shibarium - token - shibaswap - shiba | 54 | 48_swyftx_shibarium_token_shibaswap |
49 | bitcoin - mining - gain - miners - difficulty | 54 | 49_bitcoin_mining_gain_miners |
训练超参数
属性 | 详情 |
---|---|
计算概率 | False |
语言 | None |
低内存模式 | False |
最小主题大小 | 10 |
n-gram范围 | (1, 1) |
主题数量 | None |
种子主题列表 | None |
前n个关键词 | 10 |
详细输出 | False |
框架版本
属性 | 详情 |
---|---|
Numpy | 1.22.4 |
HDBSCAN | 0.8.29 |
UMAP | 0.5.3 |
Pandas | 1.5.3 |
Scikit-Learn | 1.2.2 |
Sentence-transformers | 2.2.2 |
Transformers | 4.30.2 |
Numba | 0.56.4 |
Plotly | 5.13.1 |
Python | 3.10.12 |
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型,准确率91.3%
文本分类 英语
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基于XLM-RoBERTa的多语言检测模型,支持20种语言的文本分类
文本分类
Transformers 支持多种语言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
该模型通过动态生成数据集来改进在线仇恨检测,专注于从最差案例中学习以提高检测效果。
文本分类
Transformers 英语

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基于bert-base-multilingual-uncased微调的多语言情感分析模型,支持6种语言的商品评论情感分析
文本分类 支持多种语言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基于DistilRoBERTa-base微调的英文文本情感分类模型,可预测埃克曼六种基本情绪及中性类别。
文本分类
Transformers 英语

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基于RoBERTuito的西班牙语推文情感分析模型,支持POS(积极)/NEG(消极)/NEU(中性)三类情感分类
文本分类 西班牙语
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基于金融通讯文本预训练的BERT模型,专注于金融自然语言处理领域。finbert-tone是其微调版本,用于金融情感分析任务。
文本分类
Transformers 英语

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基于RoBERTa-base的多标签情感分类模型,在go_emotions数据集上训练,支持28种情感标签识别。
文本分类
Transformers 英语

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一个基于XLM-T模型微调的多语言情感分析模型,支持19种语言,专门针对社交媒体文本的情感预测。
文本分类
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基于MultiNLI、Fever-NLI和ANLI数据集训练的DeBERTa-v3模型,擅长零样本分类和自然语言推理任务
文本分类
Transformers 英语

D
MoritzLaurer
613.93k
204
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98