🚀 CryptoBERT
CryptoBERTは、暗号通貨関連のソーシャルメディアの投稿やメッセージの言語と感情を分析するための事前学習済みNLPモデルです。このモデルは、vinai's bertweet-base言語モデルを暗号通貨ドメインでさらに学習させ、320万件以上の一意の暗号通貨関連のソーシャルメディア投稿からなるコーパスを使用して構築されました。(詳細を含む研究論文は近日公開予定です。)
🚀 クイックスタート
学術的な参照のために、次の論文を引用してください:https://ieeexplore.ieee.org/document/10223689
✨ 主な機能
CryptoBERTは、暗号通貨関連のソーシャルメディア投稿やメッセージの言語と感情を分析することができます。
📦 インストール
本READMEにはインストール手順に関する具体的なコマンドが記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
from transformers import TextClassificationPipeline, AutoModelForSequenceClassification, AutoTokenizer
model_name = "ElKulako/cryptobert"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels = 3)
pipe = TextClassificationPipeline(model=model, tokenizer=tokenizer, max_length=64, truncation=True, padding = 'max_length')
post_1 = " see y'all tomorrow and can't wait to see ada in the morning, i wonder what price it is going to be at. 😎🐂🤠💯😴, bitcoin is looking good go for it and flash by that 45k. "
post_2 = " alright racers, it’s a race to the bottom! good luck today and remember there are no losers (minus those who invested in currency nobody really uses) take your marks... are you ready? go!!"
post_3 = " i'm never selling. the whole market can bottom out. i'll continue to hold this dumpster fire until the day i die if i need to."
df_posts = [post_1, post_2, post_3]
preds = pipe(df_posts)
print(preds)
[{'label': 'Bullish', 'score': 0.8734585642814636}, {'label': 'Bearish', 'score': 0.9889495372772217}, {'label': 'Bullish', 'score': 0.6595883965492249}]
📚 ドキュメント
分類学習
このモデルは、次のラベルで学習されました:"Bearish" : 0, "Neutral": 1, "Bullish": 2
CryptoBERTの感情分類ヘッドは、ElKulako/stocktwits-cryptoからサンプリングされた200万件のラベル付きStockTwits投稿のバランスの取れたデータセットで微調整されました。
CryptoBERTは、最大シーケンス長128で学習されました。技術的には、最大514トークンのシーケンスを処理できますが、128を超えることは推奨されません。
学習コーパス
CryptoBERTは、様々な暗号通貨に関する320万件のソーシャルメディア投稿で学習されました。4語以上の重複しない投稿のみが考慮されました。コーパスのソースとして、次のコミュニティが使用されました:
(1) StockTwits - 取引量上位100の暗号通貨に関する187.5万件の投稿。投稿は2021年11月1日から2022年6月16日まで収集されました。ElKulako/stocktwits-crypto
(2) Telegram - 上位5つのTelegramグループからの66.4万件の投稿:Binance, Bittrex, huobi global, Kucoin, OKEx。データは2020年11月16日から2021年1月30日までのものです。Anton提供。
(3) Reddit - 2021年5月から2022年5月まで収集された、様々な暗号通貨投資スレッドからの17.2万件のコメント
(4) Twitter - ハッシュタグXBT、BitcoinまたはBTCが付けられた49.6万件の投稿。2018年5月に収集されました。Paul提供。
🔧 技術詳細
CryptoBERTは、vinai's bertweet-base言語モデルを暗号通貨ドメインでさらに学習させることで構築されました。学習には、320万件以上の一意の暗号通貨関連のソーシャルメディア投稿からなるコーパスが使用されました。モデルの感情分類ヘッドは、200万件のラベル付きStockTwits投稿のバランスの取れたデータセットで微調整されました。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。