sup-SimCSE-VietNamese-phobert-base开源模型 - 助力越南语语句嵌入处理，适配多种数据

首页

Sup SimCSE VietNamese Phobert Base

由 VoVanPhuc 开发

SimeCSE_Vietnamese是基于SimCSE的越南语句嵌入模型，使用PhoBert作为预训练语言模型，适用于无标注和有标注数据。

文本嵌入

Transformers

其他#越南语句嵌入 #对比学习 #PhoBERT预训练

下载量 25.51k

发布时间 : 3/2/2022

模型简介

SimeCSE_Vietnamese是一个用于越南语句嵌入的模型，通过对比学习优化预训练过程，能够生成高质量的句子向量表示。

模型特点

基于SimCSE的对比学习

采用SimCSE的对比学习方法，优化预训练过程，提升句子嵌入的质量。

支持无标注和有标注数据

模型适用于无标注和有标注数据，具有较强的泛化能力。

基于PhoBert的预训练

使用PhoBert作为预训练语言模型，充分利用越南语的语言特性。

模型能力

生成越南语句子嵌入

句子相似度计算

文本检索

使用案例

文本相似度

句子相似度计算

计算两个越南语句子之间的相似度。

信息检索

越南语文本检索

用于检索与查询句子最相关的越南语文档。

🚀 SimeCSE_Vietnamese：基于越南语的简单对比学习句子嵌入模型

SimeCSE_Vietnamese 预训练模型是目前越南语句子嵌入领域的先进模型，它具备以下优势：

SimeCSE_Vietnamese 的预训练方法基于 SimCSE，对预训练过程进行了优化，以实现更强大的性能。
SimeCSE_Vietnamese 使用预训练语言模型（如 PhoBert）对输入句子进行编码。
SimeCSE_Vietnamese 既可以处理无标签数据，也能处理有标签数据。

🚀 快速开始

在 Colab 中打开

✨ 主要特性

基于先进的 SimCSE 方法进行预训练，性能更优。
支持使用预训练语言模型（如 PhoBert）进行句子编码。
可同时处理有标签和无标签数据。

📦 安装指南

使用 `sentences-transformers` 库

安装 sentence-transformers：
- pip install -U sentence-transformers
安装 pyvi 进行分词：
- pip install pyvi

使用 `transformers` 库

安装 transformers：
- pip install -U transformers
安装 pyvi 进行分词：
- pip install pyvi

💻 使用示例

使用 `sentences-transformers` 库

基础用法

from sentence_transformers import SentenceTransformer
from pyvi.ViTokenizer import tokenize

model = SentenceTransformer('VoVanPhuc/sup-SimCSE-VietNamese-phobert-base')

sentences = ['Kẻ đánh bom đinh tồi tệ nhất nước Anh.',
          'Nghệ sĩ làm thiện nguyện - minh bạch là việc cấp thiết.',
          'Bắc Giang tăng khả năng điều trị và xét nghiệm.',
          'HLV futsal Việt Nam tiết lộ lý do hạ Lebanon.',
          'việc quan trọng khi kêu gọi quyên góp từ thiện là phải minh bạch, giải ngân kịp thời.',
          '20% bệnh nhân Covid-19 có thể nhanh chóng trở nặng.',
          'Thái Lan thua giao hữu trước vòng loại World Cup.',
          'Cựu tuyển thủ Nguyễn Bảo Quân: May mắn ủng hộ futsal Việt Nam',
          'Chủ ki-ốt bị đâm chết trong chợ đầu mối lớn nhất Thanh Hoá.',
          'Bắn chết người trong cuộc rượt đuổi trên sông.'
          ]

sentences = [tokenize(sentence) for sentence in sentences]
embeddings = model.encode(sentences)

使用 `transformers` 库

基础用法

import torch
from transformers import AutoModel, AutoTokenizer
from pyvi.ViTokenizer import tokenize

PhobertTokenizer = AutoTokenizer.from_pretrained("VoVanPhuc/sup-SimCSE-VietNamese-phobert-base")
model = AutoModel.from_pretrained("VoVanPhuc/sup-SimCSE-VietNamese-phobert-base")

sentences = ['Kẻ đánh bom đinh tồi tệ nhất nước Anh.',
          'Nghệ sĩ làm thiện nguyện - minh bạch là việc cấp thiết.',
          'Bắc Giang tăng khả năng điều trị và xét nghiệm.',
          'HLV futsal Việt Nam tiết lộ lý do hạ Lebanon.',
          'việc quan trọng khi kêu gọi quyên góp từ thiện là phải minh bạch, giải ngân kịp thời.',
          '20% bệnh nhân Covid-19 có thể nhanh chóng trở nặng.',
          'Thái Lan thua giao hữu trước vòng loại World Cup.',
          'Cựu tuyển thủ Nguyễn Bảo Quân: May mắn ủng hộ futsal Việt Nam',
          'Chủ ki-ốt bị đâm chết trong chợ đầu mối lớn nhất Thanh Hoá.',
          'Bắn chết người trong cuộc rượt đuổi trên sông.'
          ]

sentences = [tokenize(sentence) for sentence in sentences]

inputs = PhobertTokenizer(sentences, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    embeddings = model(**inputs, output_hidden_states=True, return_dict=True).pooler_output

📚 详细文档

预训练模型

模型	参数数量	架构
`VoVanPhuc/sup-SimCSE-VietNamese-phobert-base`	1.35 亿	基础架构
`VoVanPhuc/unsup-SimCSE-VietNamese-phobert-base`	1.35 亿	基础架构

📄 许可证

引用信息

@article{gao2021simcse,
    title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
    author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
    journal={arXiv preprint arXiv:2104.08821},
    year={2021}
}

@inproceedings{phobert,
    title     = {{PhoBERT: Pre-trained language models for Vietnamese}},
    author    = {Dat Quoc Nguyen and Anh Tuan Nguyen},
    booktitle = {Findings of the Association for Computational Linguistics: EMNLP 2020},
    year      = {2020},
    pages     = {1037--1042}
}