sup-SimCSE-VietNamese-phobert-base開源模型 - 助力越南語語句嵌入處理，適配多種數據

首頁

Sup SimCSE VietNamese Phobert Base

由VoVanPhuc開發

SimeCSE_Vietnamese是基於SimCSE的越南語句嵌入模型，使用PhoBert作為預訓練語言模型，適用於無標註和有標註數據。

文本嵌入

Transformers

其他#越南語句嵌入 #對比學習 #PhoBERT預訓練

下載量 25.51k

發布時間 : 3/2/2022

模型概述

SimeCSE_Vietnamese是一個用於越南語句嵌入的模型，通過對比學習優化預訓練過程，能夠生成高質量的句子向量表示。

模型特點

基於SimCSE的對比學習

採用SimCSE的對比學習方法，優化預訓練過程，提升句子嵌入的質量。

支持無標註和有標註數據

模型適用於無標註和有標註數據，具有較強的泛化能力。

基於PhoBert的預訓練

使用PhoBert作為預訓練語言模型，充分利用越南語的語言特性。

模型能力

生成越南語句子嵌入

句子相似度計算

文本檢索

使用案例

文本相似度

句子相似度計算

計算兩個越南語句子之間的相似度。

信息檢索

越南語文本檢索

用於檢索與查詢句子最相關的越南語文檔。

🚀 SimeCSE_Vietnamese：基於越南語的簡單對比學習句子嵌入模型

SimeCSE_Vietnamese 預訓練模型是目前越南語句子嵌入領域的先進模型，它具備以下優勢：

SimeCSE_Vietnamese 的預訓練方法基於 SimCSE，對預訓練過程進行了優化，以實現更強大的性能。
SimeCSE_Vietnamese 使用預訓練語言模型（如 PhoBert）對輸入句子進行編碼。
SimeCSE_Vietnamese 既可以處理無標籤數據，也能處理有標籤數據。

🚀 快速開始

在 Colab 中打開

✨ 主要特性

基於先進的 SimCSE 方法進行預訓練，性能更優。
支持使用預訓練語言模型（如 PhoBert）進行句子編碼。
可同時處理有標籤和無標籤數據。

📦 安裝指南

使用 `sentences-transformers` 庫

安裝 sentence-transformers：
- pip install -U sentence-transformers
安裝 pyvi 進行分詞：
- pip install pyvi

使用 `transformers` 庫

安裝 transformers：
- pip install -U transformers
安裝 pyvi 進行分詞：
- pip install pyvi

💻 使用示例

使用 `sentences-transformers` 庫

基礎用法

from sentence_transformers import SentenceTransformer
from pyvi.ViTokenizer import tokenize

model = SentenceTransformer('VoVanPhuc/sup-SimCSE-VietNamese-phobert-base')

sentences = ['Kẻ đánh bom đinh tồi tệ nhất nước Anh.',
          'Nghệ sĩ làm thiện nguyện - minh bạch là việc cấp thiết.',
          'Bắc Giang tăng khả năng điều trị và xét nghiệm.',
          'HLV futsal Việt Nam tiết lộ lý do hạ Lebanon.',
          'việc quan trọng khi kêu gọi quyên góp từ thiện là phải minh bạch, giải ngân kịp thời.',
          '20% bệnh nhân Covid-19 có thể nhanh chóng trở nặng.',
          'Thái Lan thua giao hữu trước vòng loại World Cup.',
          'Cựu tuyển thủ Nguyễn Bảo Quân: May mắn ủng hộ futsal Việt Nam',
          'Chủ ki-ốt bị đâm chết trong chợ đầu mối lớn nhất Thanh Hoá.',
          'Bắn chết người trong cuộc rượt đuổi trên sông.'
          ]

sentences = [tokenize(sentence) for sentence in sentences]
embeddings = model.encode(sentences)

使用 `transformers` 庫

基礎用法

import torch
from transformers import AutoModel, AutoTokenizer
from pyvi.ViTokenizer import tokenize

PhobertTokenizer = AutoTokenizer.from_pretrained("VoVanPhuc/sup-SimCSE-VietNamese-phobert-base")
model = AutoModel.from_pretrained("VoVanPhuc/sup-SimCSE-VietNamese-phobert-base")

sentences = ['Kẻ đánh bom đinh tồi tệ nhất nước Anh.',
          'Nghệ sĩ làm thiện nguyện - minh bạch là việc cấp thiết.',
          'Bắc Giang tăng khả năng điều trị và xét nghiệm.',
          'HLV futsal Việt Nam tiết lộ lý do hạ Lebanon.',
          'việc quan trọng khi kêu gọi quyên góp từ thiện là phải minh bạch, giải ngân kịp thời.',
          '20% bệnh nhân Covid-19 có thể nhanh chóng trở nặng.',
          'Thái Lan thua giao hữu trước vòng loại World Cup.',
          'Cựu tuyển thủ Nguyễn Bảo Quân: May mắn ủng hộ futsal Việt Nam',
          'Chủ ki-ốt bị đâm chết trong chợ đầu mối lớn nhất Thanh Hoá.',
          'Bắn chết người trong cuộc rượt đuổi trên sông.'
          ]

sentences = [tokenize(sentence) for sentence in sentences]

inputs = PhobertTokenizer(sentences, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    embeddings = model(**inputs, output_hidden_states=True, return_dict=True).pooler_output

📚 詳細文檔

預訓練模型

模型	參數數量	架構
`VoVanPhuc/sup-SimCSE-VietNamese-phobert-base`	1.35 億	基礎架構
`VoVanPhuc/unsup-SimCSE-VietNamese-phobert-base`	1.35 億	基礎架構

📄 許可證

引用信息

@article{gao2021simcse,
    title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
    author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
    journal={arXiv preprint arXiv:2104.08821},
    year={2021}
}

@inproceedings{phobert,
    title     = {{PhoBERT: Pre-trained language models for Vietnamese}},
    author    = {Dat Quoc Nguyen and Anh Tuan Nguyen},
    booktitle = {Findings of the Association for Computational Linguistics: EMNLP 2020},
    year      = {2020},
    pages     = {1037--1042}
}