Bertopic Test
模型概述
BERTopic是基於BERT的話題建模工具,用於從文本數據中自動發現和分類話題。
模型特點
模塊化設計
支持自定義嵌入模型、向量降維和聚類算法
可解釋性
生成帶有代表性關鍵詞的易解釋話題
自動話題發現
無需預設話題數量,自動識別數據中的話題結構
模型能力
文本話題分類
話題關鍵詞提取
話題可視化
大規模文本分析
使用案例
社交媒體分析
加密貨幣論壇話題分析
分析加密貨幣相關討論中的主要話題分佈
識別出50個不同話題(如萊特幣、證券交易委員會監管等)
市場研究
消費者反饋分類
自動歸類產品評論中的主要討論主題
🚀 BERTopic測試模型
這是一個 BERTopic 模型。BERTopic 是一個靈活且模塊化的主題建模框架,可從大型數據集中生成易於解釋的主題。
🚀 快速開始
📦 安裝指南
要使用此模型,請安裝 BERTopic:
pip install -U bertopic
💻 使用示例
基礎用法
from bertopic import BERTopic
topic_model = BERTopic.load("ahessamb/bertopic-test")
topic_model.get_topic_info()
📚 詳細文檔
主題概述
- 主題數量:50
- 訓練文檔數量:1570
點擊此處查看所有主題概述。
主題ID | 主題關鍵詞 | 主題頻率 | 標籤 |
---|---|---|---|
0 | liquidations - forcefully - betting - liquidation - contracts | 8 | 0_liquidations_forcefully_betting_liquidation |
1 | litecoin - wsm - presale - 77 - near | 94 | 1_litecoin_wsm_presale_77 |
2 | sec - court - terraform - dismiss - lawyers | 49 | 2_sec_court_terraform_dismiss |
3 | huobi - hkvac - bsl - web3 - code | 12 | 3_huobi_hkvac_bsl_web3 |
4 | lucie - shiba - susbarium - puppynet - portals | 3 | 4_lucie_shiba_susbarium_puppynet |
5 | 000006819 - shiba - accuracy - finbold - estimates | 27 | 5_000006819_shiba_accuracy_finbold |
6 | tokens - sec - binance - securities - coinbase | 45 | 6_tokens_sec_binance_securities |
7 | mckinsey - ai - nanjing - productivity - diffusion | 43 | 7_mckinsey_ai_nanjing_productivity |
8 | resistance - swing - fib - zone - ltc | 32 | 8_resistance_swing_fib_zone |
9 | brinkman - tategpt - bitcoin - artists - wealth | 26 | 9_brinkman_tategpt_bitcoin_artists |
10 | stablecoin - stablecoins - decline - redemptions - tusd | 2 | 10_stablecoin_stablecoins_decline_redemptions |
11 | mutant - mayc - bayc - club - mcmullen | 64 | 11_mutant_mayc_bayc_club |
12 | xrp - ema - ripple - bullish - cryptocurrencies | 43 | 12_xrp_ema_ripple_bullish |
13 | tether - cbdcs - loans - federal - nafcu | 27 | 13_tether_cbdcs_loans_federal |
14 | rate - tradingview - bnb - breakout - coinmarketcap | 85 | 14_rate_tradingview_bnb_breakout |
15 | 26 - bulls - rsi - ceiling - 300 | 2 | 15_26_bulls_rsi_ceiling |
16 | lowest - jump - week - wallet - staggering | 3 | 16_lowest_jump_week_wallet |
17 | xrp - ripple - mekras - sbi - institutions | 56 | 17_xrp_ripple_mekras_sbi |
18 | debt - mortgages - trillion - government - suspends | 3 | 18_debt_mortgages_trillion_government |
19 | longitude - chronometer - bitcoin - ships - graffiti | 2 | 19_longitude_chronometer_bitcoin_ships |
20 | volumes - piggy - aud - xrp - usdt | 15 | 20_volumes_piggy_aud_xrp |
21 | root - ledger - stakers - sidechains - compatibility | 4 | 21_root_ledger_stakers_sidechains |
22 | astra - letter - concerns - investors - bitwise | 4 | 22_astra_letter_concerns_investors |
23 | gold - governments - manipulated - stocks - mined | 10 | 23_gold_governments_manipulated_stocks |
24 | tether - sygnum - documents - bank - coindesk | 9 | 24_tether_sygnum_documents_bank |
25 | rewards - governance - lido - proposal - june | 45 | 25_rewards_governance_lido_proposal |
26 | listings - coin - fairerc20 - bittrex - withdrawals | 68 | 26_listings_coin_fairerc20_bittrex |
27 | peaq - ordibots - cosmos - fetch - machine | 81 | 27_peaq_ordibots_cosmos_fetch |
28 | uniswap - v4 - orders - hooks - differing | 23 | 28_uniswap_v4_orders_hooks |
29 | price - neo - matic - rise - altcoin | 92 | 29_price_neo_matic_rise |
30 | emptydoc - staff - policy - binance - workspaces | 2 | 30_emptydoc_staff_policy_binance |
31 | lunc - synthetix - terra - perps - staking | 33 | 31_lunc_synthetix_terra_perps |
32 | tweet - dogecoin - chart - meme - negative | 3 | 32_tweet_dogecoin_chart_meme |
33 | binance - securities - exchange - cz - regulators | 63 | 33_binance_securities_exchange_cz |
34 | bitmart - sale - xrp - discount - event | 4 | 34_bitmart_sale_xrp_discount |
35 | yuan - event - olympics - canadians - organizers | 49 | 35_yuan_event_olympics_canadians |
36 | gusd - fidelity - bitcoin - proposal - blackrock | 52 | 36_gusd_fidelity_bitcoin_proposal |
37 | bills - mcglone - markets - stablecoins - liquidity | 56 | 37_bills_mcglone_markets_stablecoins |
38 | asset - gain - drop - trading - hours | 2 | 38_asset_gain_drop_trading |
39 | epstein - hamsterwheel - vulnerability - bounty - certick | 28 | 39_epstein_hamsterwheel_vulnerability_bounty |
40 | pyth - transparency - data - terra - oracle | 19 | 40_pyth_transparency_data_terra |
41 | shiba - inu - weighted - collapse - recovery | 2 | 41_shiba_inu_weighted_collapse |
42 | neo - opensea - carey - security - impersonators | 24 | 42_neo_opensea_carey_security |
43 | balancer - zkevm - liquidity - defi - 8020 | 3 | 43_balancer_zkevm_liquidity_defi |
44 | reed - battle - platform - argument - trading | 22 | 44_reed_battle_platform_argument |
45 | ada - cardano - whale - sell - investors | 4 | 45_ada_cardano_whale_sell |
46 | uk - coinbase - hong - crypto - regulatory | 65 | 46_uk_coinbase_hong_crypto |
47 | ethereum - tvl - defi - arbitrum - airdrop | 54 | 47_ethereum_tvl_defi_arbitrum |
48 | swyftx - shibarium - token - shibaswap - shiba | 54 | 48_swyftx_shibarium_token_shibaswap |
49 | bitcoin - mining - gain - miners - difficulty | 54 | 49_bitcoin_mining_gain_miners |
訓練超參數
屬性 | 詳情 |
---|---|
計算概率 | False |
語言 | None |
低內存模式 | False |
最小主題大小 | 10 |
n-gram範圍 | (1, 1) |
主題數量 | None |
種子主題列表 | None |
前n個關鍵詞 | 10 |
詳細輸出 | False |
框架版本
屬性 | 詳情 |
---|---|
Numpy | 1.22.4 |
HDBSCAN | 0.8.29 |
UMAP | 0.5.3 |
Pandas | 1.5.3 |
Scikit-Learn | 1.2.2 |
Sentence-transformers | 2.2.2 |
Transformers | 4.30.2 |
Numba | 0.56.4 |
Plotly | 5.13.1 |
Python | 3.10.12 |
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98