Sentence Transformer Parsbert Fa 2.0
S
Sentence Transformer Parsbert Fa 2.0
myrkurによって開発
これはParsBERTベースのペルシャ語文章埋め込みモデルで、文の類似度計算と特徴抽出タスクに特化しています。
ダウンロード数 289
リリース時間 : 12/10/2024
モデル概要
このモデルはParsBERTアーキテクチャに基づき、ペルシャ語テキスト向けに最適化されており、文章を高次元ベクトル表現に変換して文の類似度計算やテキスト特徴抽出に利用できます。
モデル特徴
ペルシャ語最適化
ペルシャ語テキスト向けに特別に最適化・訓練されています
文類似度計算
ペルシャ語の文間の意味的類似度を正確に計算可能
特徴抽出
テキストを高次元ベクトル表現に変換し、下流タスクに利用可能
効率的な訓練
MultipleNegativesRankingLossを使用した訓練でモデル性能を向上
モデル能力
文類似度計算
テキスト特徴抽出
ペルシャ語意味理解
テキスト埋め込み生成
使用事例
情報検索
質問応答システム
ユーザーの質問とナレッジベース内の関連回答をマッチング
QAシステムの精度と再現率を向上
ドキュメント検索
クエリに最も関連する文書や段落を検索
検索関連性の向上
テキスト分析
テキストクラスタリング
意味的類似度に基づくテキストのグループ化
テキスト集合内のテーマパターンを発見
意味検索
キーワードマッチングを超えた意味レベルの検索
ユーザー意図に沿った検索結果を提供
base_model: myrkur/sentence-transformer-parsbert-fa library_name: sentence-transformers pipeline_tag: sentence-similarity tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:48000
- loss:MultipleNegativesRankingLoss widget:
- source_sentence: بهترین اپلیکیشن های خواندن کتاب های الکترونیکی pdf در آیپد و تبلت کدامند؟
sentences:
-
- source_sentence: چطور می توانیم از همکارانمان بازخورد تاثیرگذار بگیریم؟
sentences:
-
- source_sentence: اس ام اس های ویژه ایام سوگواری شهادت امام علی چیست؟
sentences:
-
- source_sentence: بهترین گوشی هوشمند نیمه ی اول سال کدام است؟
sentences:
-
- source_sentence: وظایف معلمان چیست؟
sentences:
-
- myrkur/persian-blog-QA language:
- fa
SentenceTransformer based on myrkur/sentence-transformer-parsbert-fa
This is a sentence-transformers model finetuned from myrkur/sentence-transformer-parsbert-fa. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: myrkur/sentence-transformer-parsbert-fa
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 tokens
- Similarity Function: Cosine Similarity
- Training Dataset: myrkur/persian-blog-QA
- Language: Persian(Farsi)
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer, util
# Download from the 🤗 Hub
model = SentenceTransformer("myrkur/sentence-transformer-parsbert-fa-2.0")
# Run inference
sentences = [
'وظایف معلمان چیست؟',
'معلمان برای بهانجامرساندن وظایفشان نیازمند آموختن مهارتهای پیشرفتهی مدیریت زمان در کلاس درس هستند آنها باید میان دنبالکردن هدفهای بلندمدت کلاس درس پاسخگویی به نیازهای آموزشی آنی دانشآموزان و ارزیابی حجم زیادی از تکالیف و امتحانات تعادل برقرار کنند درست است که وظایف کاری معلمان در ساعات کاری زیادازحد بهنظر میرسد اما مدیریت شرایط و خالیکردن وقت در کلاس درس و خارج از آن باز هم امکانپذیر است با دراختیارداشتن مهارت کارآمد مدیریت زمان در کلاس درس معلمان میتوانند بازدهی خود را افزایش دهند و فراگیرانشان را بهتر از گذشته آموزش دهند حتما بخوانید تقویت اعتماد به نفس در دانش آموزان با نکته برای معلمان راهکار ساده برای مدیریت زمان از زبان یکی از مدیران گوگلموانع مدیریت زمان چیست مهارتهای مدیریت زمان در کلاس درس با اولویتبندی روزتان را سروسامان بدهید مدیریت زمان در کلاس درس برای معلم با تعیین اولویتها و ساماندادن برنامه حول مهمترین وظایف آغاز میشود تعیین اولویتها معلمان را طی روز در مسیری که باید نگه میدارد حتی وقتی اتفاقات غیرمنتظره یا فشار کاری بهنظر زیاد باشد اولویتبندی کارآمد یعنی ترتیبدادن به حجم کار براساس اهمیت هریک از وظایف و همچنین نتایجی که از تکمیل آنها حاصل میشود معلمان باید بتوانند ارزیابی کنند که آیا معوقگذاشتن برخی پروژهها به این دلیل که نتیجهی آنها بهاندازهی دیگر پروژهها اثربخش نیست منطقی است یا نه اولویتها را نباید مانند این جمله بهطور مطلق طراحی کرد ریاضی و زبان در ساعات اول و اگر زمان اجازه داد انجام کارهای هنری این شیوهی تفکر ممکن است به فرسایش همزمان معلم و دانشآموزان منجر شود در زمینهای بخصوص ممکن است فعالیت هنری یا خارج از کلاس درس بهاندازهی برنامههای کلاسی درسمحور انگیزاننده باشد حتما بخوانید تکنیک پومودورو تکنیکی ساده برای مدیریت زمان تکالیف خانه را با برنامهریزیهای راهبردی طرح کنید هم معلمان و هم دانشآموزان ممکن است متوجه شده باشند که برخی تکالیف که به تمرینهای مکرر نیاز دارند برای محیط منزل مناسبترند تمرین در کلاس بهویژه در زمان یادگیری چهارچوبها و ساختارهای حل مسیله کمککننده است اما صرف زمان برای انجام تمرینهای مکرر در کلاس ممکن است بهترین استفاده از زمان نباشد تکالیفی که در آن صرفا از دانشآموز میخواهند تعداد مشخصی مسیله را بهعنوان تمرین درس ارایهشده حل کنند زمان ارزشمند کلاس را هدر میدهد از تلنبارشدن کارهای عقبافتاده خودداری کنید معمولا خود معلمان متوجه میشوند که در نمرهگذاری تکالیف و امتحانات تقسیم برگهها به گروههای کوچک و انجام کارهای مربوط به آنها ظرف چند روز روش کارآمدتری است تا بررسی یکبارهی کار تمام کلاس در یک روز از تلنبارکردن وظایف ارزیابی خودداری کنید و سعی کنید هربار بخشی از آن را انجام دهید هر روز میتوان بررسی مقدار کوچکی از موارد ارزیابی را بهسادگی مدیریت کرد این روش به معلم اجازه میدهد ارزیابی را بهدرستی انجام دهد و بازخورد مناسبی به دانشآموزان بدهد با تکمیل هریک از بخشهای ارزیابی معلم احساس موفقیت میکند حتما بخوانید نکته درباره مدیریت زمان که در جوانی باید بدانید برای بحرانهای احتمالی برنامهریزی کنید بهتر است پیش از بروز مشکل در کلاس برای آن برنامه داشته باشید چراکه بحرانهای ناگهانی ممکن است معلمان را از اهداف کلاسیشان منحرف کنند گرچه درمورد بعضی اتفاقات مانند بلایای طبیعی اختیارات کمتری وجود دارد معلمان میتوانند برحسب نیاز دانشآموزان برای این موارد هم برنامهای طراحی کنند اما در گام نخست بهتر است مانع بحرانهایی شوید که مربوط به رفتار دانشآموزان است اگر ممکن است قبل از اینکه این مسایل جدی شوند کنترلشان کنید تا از هدررفتن وقت کلاس جلوگیری شود یادگیری دربارهی دانشآموزان پیش از آنکه وارد کلاس درس شوند به معلم امکان میدهد برنامهی عملیاتی پیشگیرانه طراحی کند و از این راه مانع اتفاقات ناخواسته شود و موجبات حواسپرتی را متوقف کند برای خودتان زمانی کنار بگذارید معلمها وظایف فراوانی دارند که نیازمند توجه است و اغلب مربوط به نیازهای دانشآموزان و والدین آنهاست صرف وقت بیشتر برای ارزیابی بازخورددادن و مدیریت نیازهای دانشآموزان وسوسهانگیز است اما فراموش نکنید کنارگذاشتن زمانی برای خود نیز اهمیت دارد این کار باعث میشود اولویتها سر جای خودشان قرار بگیرند اولویتبندی زمان بهنحویکه برای نیازهای خودتان هم وقتی باقی بماند برای طرحریزی و اجرای کارآمد برنامههای آموزش کلاستان ضروری است زمانی که معلمان بهخاطر رسیدگینکردن به خود و فقدان زمان فرسوده میشوند این احتمال وجود دارد که کلاس درس کارایی و بازدهی کمتری پیدا کند اجرای برنامههای مدیریت زمان در کلاس درس تنها زمانی امکانپذیر است که معلم کلاس پرانرژی سالم و سرحال باشد برای مدیریت زمان در کلاس درس بهشیوهای درست معلمان باید برای رسیدن به اهدافشان فرایندی را ترتیب دهند که فضای کارآمدی را در کلاس ایجاد کند با کاربرد استراتژیهای مدیریت زمان میتوان به نیازهای آموزشی هر دانشآموز رسیدگی کرد پیشامدهای اتفاقی را مدیریت کرد و از عقبافتادگی هنگام مواجهه با رخدادهای ناگهانی نیز جلوگیری کرد مدیریت زمان در کلاس درس قسمت بااهمیتی از فراهمآوری آموزش باکیفیت و پاسخگویی به نیازهای تکتک دانشآموزان بهحساب میآید کتاب الکترونیکی قیمت نسخه انگلیسی در سایت آمازون دلار قالب فایل تعداد صفحه ناشر تعداد فایل فایل مدیریت زمان به روش اساتید هاروارد اولویتبندی کارها را بیاموزید تا در زمان کمتر بهینهتر کار کنید تومان تومان مشاهده کتاب الکترونیکی',
'هیپنوتیزم با تخیلات فروید در یک ماجراجویی سال 2021 رو با یکی از سریال\u200cهای جدید شبکه نتفلیکس تحت عنوان "فروید" ( Freud ) شروع کردم سریالی هیجانی، پر از رمز و راز و اندکی تخیلی که زیگموند فروید، روانپزشک معروف رو در یک پیچ و تاب داستانی قرار می\u200cده. اول از همه این موضوع رو بگم که این سریال نه بیوگرافی از فروید هست و نه قراره خیلی تو بطن شخصیت و کارکتر این روانپزشک و عصب\u200cشناس با ایده\u200cهای مختلفش بره. صرفا کارگردان و فیلمنامه نویس\u200cهای این سریال سعی کردن تا یه مقدار با شخصیتش بازی کنن و اونو داخل یک داستان با قتل، خون، هیپنوتیزم و خیلی چیزهای عجیب و غریب قرار بدن',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = util.cos_sim(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 48,000 training samples
- Columns:
anchor
andpositive
- Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 5 tokens
- mean: 9.99 tokens
- max: 58 tokens
- min: 14 tokens
- mean: 144.01 tokens
- max: 512 tokens
- Samples:
anchor positive پادکست های پیشرفت معنوی مدتی پیش درباره چه موضوعی است؟
جلسه اول پادکست هایی با موضوع پیشرفت معنویمدتی پیش ، از یکی از اساتید ایران درخواست کردم پادکست هایی را در خصوص پیشرفت معنوی برای ما که از کشور فاصله دوری داریم ضبط کنند و بفرستند. به ذهنم رسید که این پادکستها را با شما هم به اشتراک بگذارم تا شاید در این روزها که همه در خانهها هستند و فرصتهای بیشتری دارند کسی از آنها بهرهای ببرد.یک کانال اختصاصی برای این پادکستها ایجاد کردم و بقیه قسمتها را هم به آن اضافه خواهم کرد. اگر برایتان قابل استفاده بود میتوانید به دوستانتان هم پیشنهاد کنید
هنرهای رزمی چیست؟
هنرهای رزمی به سیستمها و سنتهای مدونی از تکنیکها و فنون مبارزهای گفته میشود که با انگیزهها و دلایل متفاوتی تمرین میشوند برای دفاع شخصی، رقابت در مسابقات، سلامتی بدنی و تناسب اندام، سرگرمی و تفریح و همچنین رشد و تعالی روحی، جسمی و معنوی. از پرکاربردترین سبکهای رزمی میتوان به ساندا، جوجیتسو برزیلی، هاپکیدو، کیوکوشین ، انشین (از سبکهای کاراته) و جودو نام برد. اصطلاح هنرهای رزمی بیشتر به رشتههای رزمی شرق آسیا مانند ووشو، کاراته، تکواندو اشاره دارد، اما رشتههای غربی همچون بوکس، ساواته، پانکریشن و انواع کشتی نیز در مجموعه هنرهای رزمی قرار داده میشوند
آیا توکیو به عنوان بهشتی برای عاشقان مناسب است؟
علاوه بر این توکیو میتواند به عنوان بهشتی برای عاشقان باشد. آنتونی بوردین ( Anthony Bourdain ) گردشگری که در طول سالها به دور دنیا سفر کرده است بارها از توکیو به عنوان یکی از شهرهای مورد علاقه خود یاد کرده است.همچنین بر طبق بررسیهای انجام شده در یک گزارش اقتصادی، توکیو به عنوان یکی از شهرهای امن دنیا در سال 2017 معرفی شده است. در این لیست پس از شهرهای در و ژاپن قرار دارد.در حالت کلی لیست بهترین شهرهای دنیا بیشتر در حوزه قرار دارد در حالی که در این لیست غایب است و تنها در آمریکای شمالی در رتبه 8 ام قرار دارد.ترتیب بهترین شهرها در این نظر سنجی: 1
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 12,000 evaluation samples
- Columns:
anchor
andpositive
- Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 4 tokens
- mean: 9.69 tokens
- max: 52 tokens
- min: 19 tokens
- mean: 142.39 tokens
- max: 512 tokens
- Samples:
anchor positive آیا تب تعطیلات در ایران ادامه دارد؟
نوروز تحت ت ثیر نوسانات و جو اقتصادی حاکم بر کشور دچار رکود شده بود، اینک به تب تعطیلات نسبتا طولانی نیمه خردادماه 97 دچار شده و با افزایش نرخ، بهویژه در مسیرهای پر روبرو شده است. هرچند رییس هییت مدیره انجمن صنفی دفاتر خدمات مسافرتی ایران معتقد است این تب یکی دو روزه بوده و اکنون در حال افت است.بررسیهای بازار سفر نشان میدهد در چند روز گذشته خارجی و داخلی با قیمتهای افزایش یافته تبلیغ شدهاند که با کاهش استقبال، سیر نزولی را آغاز کردهاند.به گفته حرمتالله رفیعی نیز، تبی که برای یکی دو روز گریبان تورهای خارجی و داخلی را گرفته بود، اکنون در آستانه افت قرار گرفته است، چون مردم از این سفرها با این قیمتها استقبال نکردهاند.قیمت سه شب و چهار روز برای اواخر این هفته از 795 هزار تومان آغاز میشود که برای تعطیلات هفته آینده تا بیش از 2 میلیون تومان نرخگذاری شده است. در این میان برخی نیز قیمت تعطیلات را کاهش داده و آن را به زیر 2 میلیون تومان رساندهاند.اما مقصد جذاب ایرانیها که شمار سفر به آن همچنان در حال افزایش است، برای تعطیلات پیشرو تا بیش از 4 میلیون تومان نرخگذاری شده که همین برای آخر همین هفته کمی بیشتر از 2 میلیون تومان است.نرخ سفر به ، ، و که مسیرهای پر سفر ایرانیها است، همین حالا بسته به نوع مقصد، بین 600 تا 2 میلیون تومان قیمتگذاری شدهاند که برای تعطیلات هفته آینده با افزایش قابل توجه نرخ روبرو شدهاند.هزینه به بیش از 2 میلیون تومان رسیده وان که اینک کمتر از 700 هزار تومان قیمت دارد برای هفته آینده به بیش از یک میلیون تومان افزایش یافته و که اتفاقا روزهای داغی را سپری میکند حدود 2 میلیون تومان قیمتگذاری شده است
آیا یوتیوب برای افزایش تدابیر امنیتی مناسب است؟
اعلام کرده است در دفتر این شرکت در سن برونو کالیفرنیا انجام شد و به آسیب دیدن سه نفر انجامید، تدابیر امنیتی را در تمام دفاتر خود در تمام نقاط جهان افزایش میدهد. یوتیوب به این نکته اشاره کرده است که افزایش تدابیر امنیتی یک سیاست کوتاهمدت نیست و این شرکت در نظر دارد این استراتژی را بهعنوان یک نگرش بلندمدت دنبال کند. سیاست جدید یوتیوب را باید مت ثر از حملهی دیروز و افزایش خشونتها در فضای آنلاین خواند که رفتهرفته شاهد نمود آن در دنیای واقعی نیز هستیم.یوتیوب تصمیم خود در مورد افزایش امنیت در دفاتر بینالمللی را از طریق حساب کاربری توییتر گوگل در قالب یک بیانیهی منتشر کرده است
هدفون بی سیم سامسونگ مدل Galaxy Buds Live چیست؟
هدفون بی سیم سامسونگ مدل Galaxy Buds Live کمپانی سامسونگ جدیدترین هدفون بی سیم خود را به شکل لوبیا طراحی کرده است. این محصول که Galaxy Buds Live نام دارد با طراحی ارگونومی به خوبی در گوش جای میگیرد و ظاهری بسیار زیبا دارد. کیفیت بالای این محصول و حداقل میزان نویز، شنیدن موسیقی یا مکالمه را برایتان لذت بخش خواهد کرد
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16learning_rate
: 4e-05num_train_epochs
: 2lr_scheduler_type
: cosinebf16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 4e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 2max_steps
: -1lr_scheduler_type
: cosinelr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falsebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss |
---|---|---|---|
0.0333 | 50 | 0.6248 | - |
0.0667 | 100 | 0.1795 | - |
0.1 | 150 | 0.1578 | - |
0.1333 | 200 | 0.1328 | - |
0.1667 | 250 | 0.0884 | - |
0.2 | 300 | 0.0801 | - |
0.2333 | 350 | 0.108 | - |
0.2667 | 400 | 0.0686 | - |
0.3 | 450 | 0.1042 | - |
0.3333 | 500 | 0.0955 | 0.0777 |
0.3667 | 550 | 0.0821 | - |
0.4 | 600 | 0.0789 | - |
0.4333 | 650 | 0.0964 | - |
0.4667 | 700 | 0.0783 | - |
0.5 | 750 | 0.0827 | - |
0.5333 | 800 | 0.0934 | - |
0.5667 | 850 | 0.077 | - |
0.6 | 900 | 0.0533 | - |
0.6333 | 950 | 0.0701 | - |
0.6667 | 1000 | 0.0859 | 0.0609 |
0.7 | 1050 | 0.0808 | - |
0.7333 | 1100 | 0.0537 | - |
0.7667 | 1150 | 0.0633 | - |
0.8 | 1200 | 0.0579 | - |
0.8333 | 1250 | 0.0547 | - |
0.8667 | 1300 | 0.0628 | - |
0.9 | 1350 | 0.0557 | - |
0.9333 | 1400 | 0.0531 | - |
0.9667 | 1450 | 0.0629 | - |
1.0 | 1500 | 0.0536 | 0.0492 |
1.0333 | 1550 | 0.0353 | - |
1.0667 | 1600 | 0.0143 | - |
1.1 | 1650 | 0.012 | - |
1.1333 | 1700 | 0.0096 | - |
1.1667 | 1750 | 0.0054 | - |
1.2 | 1800 | 0.008 | - |
1.2333 | 1850 | 0.0052 | - |
1.2667 | 1900 | 0.0043 | - |
1.3 | 1950 | 0.0105 | - |
1.3333 | 2000 | 0.0065 | 0.0455 |
1.3667 | 2050 | 0.0032 | - |
1.4 | 2100 | 0.0069 | - |
1.4333 | 2150 | 0.004 | - |
1.4667 | 2200 | 0.0078 | - |
1.5 | 2250 | 0.0044 | - |
1.5333 | 2300 | 0.0062 | - |
1.5667 | 2350 | 0.0036 | - |
1.6 | 2400 | 0.0027 | - |
1.6333 | 2450 | 0.0076 | - |
1.6667 | 2500 | 0.0048 | 0.0423 |
1.7 | 2550 | 0.0096 | - |
1.7333 | 2600 | 0.0049 | - |
1.7667 | 2650 | 0.0054 | - |
1.8 | 2700 | 0.0066 | - |
1.8333 | 2750 | 0.0059 | - |
1.8667 | 2800 | 0.0037 | - |
1.9 | 2850 | 0.004 | - |
1.9333 | 2900 | 0.0032 | - |
1.9667 | 2950 | 0.006 | - |
2.0 | 3000 | 0.0027 | 0.0428 |
Framework Versions
- Python: 3.10.15
- Sentence Transformers: 3.2.0
- Transformers: 4.45.1
- PyTorch: 2.4.0+cu121
- Accelerate: 1.1.0
- Datasets: 3.0.1
- Tokenizers: 0.20.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98