Telugu Sentence Bert Nli
這是一個基於NLI數據集訓練的泰盧固語BERT模型,用於句子相似度計算。
下載量 26
發布時間 : 3/4/2023
模型概述
該模型是基於泰盧固語BERT(l3cube-pune/telugu-bert)訓練的句子轉換器,主要用於特徵提取和句子相似度計算。作為MahaNLP項目的一部分發布。
模型特點
泰盧固語專用
專門針對泰盧固語優化的句子嵌入模型
基於NLI訓練
使用自然語言推理(NLI)數據集進行訓練,提高句子表示質量
句子相似度計算
能夠有效計算泰盧固語句子之間的語義相似度
模型能力
句子特徵提取
句子相似度計算
語義搜索
使用案例
文本處理
語義搜索
在泰盧固語文檔中查找語義相似的句子
文本聚類
將語義相似的泰盧固語句子分組
問答系統
用於匹配問題和答案的語義相似度
🚀 TeluguSBERT
這是一個在NLI數據集上訓練的泰盧固語BERT模型(l3cube - pune/telugu - bert)。
作為MahaNLP項目的一部分發布:https://github.com/l3cube - pune/MarathiNLP
一個支持主要印度語言和跨語言能力的該模型多語言版本可在此處查看 indic - sentence - bert - nli
一個更好的句子相似度模型(此模型的微調版本)可在此處查看:https://huggingface.co/l3cube - pune/telugu - sentence - similarity - sbert
關於數據集、模型和基線結果的更多詳細信息可在我們的論文中找到。
🚀 快速開始
模型基礎信息
屬性 | 詳情 |
---|---|
模型類型 | 句子相似度模型 |
訓練數據 | NLI數據集 |
示例展示
以下是一些使用示例:
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- feature-extraction
- sentence-similarity
- transformers
license: cc-by-4.0
language: te
widget:
- source_sentence: "ఒక మహిళ ఉల్లిపాయను కత్తిస్తోంది"
sentences:
- "ఒక స్త్రీ ఉల్లిపాయలు కోస్తోంది"
- "ఒక స్త్రీ బంగాళాదుంపను తొక్కడం"
- "ఒక పిల్లి ఇంటి చుట్టూ నడుస్తోంది"
example_title: "Example 1"
- source_sentence: "పిల్లల బృందం జంపింగ్ పోటీని నిర్వహిస్తోంది"
sentences:
- "పిల్లల గుంపు సరదాగా గడుపుతోంది"
- "పిల్లలు పార్కులో ఆడుకోవడానికి ఇష్టపడతారు"
- "ముగ్గురు అబ్బాయిలు నడుస్తున్నారు"
example_title: "Example 2"
- source_sentence: "మీ రెండు ప్రశ్నలకు అవుననే సమాధానం వస్తుంది"
sentences:
- "రెండు ప్రశ్నలకు అవుననే సమాధానం వస్తోంది"
- "మేము మీ అన్ని ప్రశ్నలకు సమాధానమిచ్చాము"
- "నేను ఈ ప్రశ్నకు సమాధానం ఇస్తాను"
example_title: "Example 3"
📦 安裝指南
當你安裝了sentence - transformers後,使用此模型會變得很容易:
pip install -U sentence-transformers
💻 使用示例
基礎用法(Sentence - Transformers)
安裝好sentence - transformers
後,你可以像這樣使用模型:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)
高級用法(HuggingFace Transformers)
如果你沒有安裝sentence - transformers,可以按以下方式使用模型:首先,將輸入傳遞給transformer模型,然後對上下文詞嵌入應用正確的池化操作。
from transformers import AutoTokenizer, AutoModel
import torch
def cls_pooling(model_output, attention_mask):
return model_output[0][:,0]
# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']
# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')
# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Compute token embeddings
with torch.no_grad():
model_output = model(**encoded_input)
# Perform pooling. In this case, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])
print("Sentence embeddings:")
print(sentence_embeddings)
📚 詳細文檔
引用信息
@article{deode2023l3cube,
title={L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence representations using multilingual BERT},
author={Deode, Samruddhi and Gadre, Janhavi and Kajale, Aditi and Joshi, Ananya and Joshi, Raviraj},
journal={arXiv preprint arXiv:2304.11434},
year={2023}
}
@article{joshi2022l3cubemahasbert,
title={L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi},
author={Joshi, Ananya and Kajale, Aditi and Gadre, Janhavi and Deode, Samruddhi and Joshi, Raviraj},
journal={arXiv preprint arXiv:2211.11187},
year={2022}
}
相關論文鏈接
其他單語言印度句子BERT模型
- [馬拉地語SBERT](https://huggingface.co/l3cube - pune/marathi - sentence - bert - nli)
- [印地語SBERT](https://huggingface.co/l3cube - pune/hindi - sentence - bert - nli)
- [卡納達語SBERT](https://huggingface.co/l3cube - pune/kannada - sentence - bert - nli)
- [泰盧固語SBERT](https://huggingface.co/l3cube - pune/telugu - sentence - bert - nli)
- [馬拉雅拉姆語SBERT](https://huggingface.co/l3cube - pune/malayalam - sentence - bert - nli)
- [泰米爾語SBERT](https://huggingface.co/l3cube - pune/tamil - sentence - bert - nli)
- [古吉拉特語SBERT](https://huggingface.co/l3cube - pune/gujarati - sentence - bert - nli)
- [奧里亞語SBERT](https://huggingface.co/l3cube - pune/odia - sentence - bert - nli)
- [孟加拉語SBERT](https://huggingface.co/l3cube - pune/bengali - sentence - bert - nli)
- [旁遮普語SBERT](https://huggingface.co/l3cube - pune/punjabi - sentence - bert - nli)
- [印度SBERT(多語言)](https://huggingface.co/l3cube - pune/indic - sentence - bert - nli)
其他單語言相似度模型
- [馬拉地語相似度模型](https://huggingface.co/l3cube - pune/marathi - sentence - similarity - sbert)
- [印地語相似度模型](https://huggingface.co/l3cube - pune/hindi - sentence - similarity - sbert)
- [卡納達語相似度模型](https://huggingface.co/l3cube - pune/kannada - sentence - similarity - sbert)
- [泰盧固語相似度模型](https://huggingface.co/l3cube - pune/telugu - sentence - similarity - sbert)
- [馬拉雅拉姆語相似度模型](https://huggingface.co/l3cube - pune/malayalam - sentence - similarity - sbert)
- [泰米爾語相似度模型](https://huggingface.co/l3cube - pune/tamil - sentence - similarity - sbert)
- [古吉拉特語相似度模型](https://huggingface.co/l3cube - pune/gujarati - sentence - similarity - sbert)
- [奧里亞語相似度模型](https://huggingface.co/l3cube - pune/odia - sentence - similarity - sbert)
- [孟加拉語相似度模型](https://huggingface.co/l3cube - pune/bengali - sentence - similarity - sbert)
- [旁遮普語相似度模型](https://huggingface.co/l3cube - pune/punjabi - sentence - similarity - sbert)
- [印度相似度模型(多語言)](https://huggingface.co/l3cube - pune/indic - sentence - similarity - sbert)
📄 許可證
本模型使用的許可證為cc - by - 4.0。
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98