B

Bert Chunker 3

由 tim1900 开发
基于BertForTokenClassification的文本分块器,适用于结构化和非结构化文本,特别优化用于RAG场景
下载量 1,226
发布时间 : 2/9/2025

模型简介

bert-chunker-3是一个基于BERT的文本分块模型,能够预测文本块的起始标记,并通过滑动窗口将任意大小的文档切割成文本块。特别适用于检索增强生成(RAG)等场景,对非结构化和杂乱文本有良好处理能力。

模型特点

非结构化文本处理
专门优化用于处理非结构化和杂乱文本的分块需求
滑动窗口机制
采用滑动窗口技术处理任意长度的文档
概率阈值调节
可通过prob_threshold参数灵活控制分块粒度
LLM标注数据
训练数据由大语言模型标注,提高模型稳定性

模型能力

文本分块
文档分割
非结构化文本处理
RAG场景支持

使用案例

检索增强生成(RAG)
文档预处理
为RAG系统准备文档分块
提高检索效率和准确性
文本分析
技术文档处理
分割技术文档为逻辑段落
便于后续分析和处理
广告内容分析
分割广告文本为有意义的块
支持内容分类和特征提取
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase