BM25 算法与关键词提取在向量数据库中的实践优化
BM25 算法与关键词提取在向量数据库中的实践优化
在实际构建问答系统或语义检索场景中,向量数据库(如 Weaviate)提供了基于语义匹配的检索能力,然而我们发现 BM25 关键词检索效果不理想,甚至出现了召回率过低、查询必须精确匹配等问题。
深入排查后,发现问题根源有三:
● 使用 BM25 时,语料库未经过有效分词处理;
● 缺少显式的关键词字段;
● 用户 query 与语料库不一致,导致匹配失败。
💡 问题背景
在构建知识库检索系统过程中,使用了 Weaviate + BM25 作为关键字召回方案,但出现了以下问题:
● 查询内容若与问题文本不完全一致,无法匹配;
● BM25 检索字段未分词(tokenization);
● 用户输入 query 未标准化(如:未分词);
🚧 解决思路与每一步分析
1. 使用 dify 的 keyword 提取方法,在检索和插入时统一处理关键词(pass)
core/rag/datasource/retrieval_service.py
class RetrievalService:@classmethoddef retrieve(cls,retrieval_method: str,dataset_id: str,query: str,top_k: int,score_threshold: Optional[float] = 0.0,reranking_model: Optional[dict] = None,reranking_mode: Optional[str] = "reranking_model",weights: Optional[dict] = None,):# ....这部分代码省略了if retrieval_method == "keyword_search":keyword_thread = threading.Thread(target=RetrievalService.keyword_search,kwargs={"flask_app": current_app._get_current_object(),"dataset_id": dataset_id,"query": query,"top_k": top_k,"all_documents": all_documents,"exceptions": exceptions,},)threads.append(keyword_thread)keyword_thread.start()
● 实现方式
将retrieval_method == "keyword_search"中的代码应用到全文索引中,然后根据默认权重配置keyword_search的返回结果与BM25的搜索结果进行整合返回。
● 为什么这么做?
保证检索时对用户 query 的处理方式与语料构建时一致,避免因分词策略不同导致的召回不一致。
● 好处:
○ 一致性高:插入、检索使用同一套 keyword 提取逻辑;
○ 实现简单:封装函数、按权重检索;
○ 具备可控性:可调节关键词提取策略。
● 缺点:
○ 需修改检索逻辑;
○ 测试的时候对程序运行性能影响较高,造成卡顿现象
2. 在 Weaviate 中为 BM25 检索添加 tokenized_content 字段
核心代码
# 插入数据,附带分词字段
for q, a in qa_data:segmented_q = " ".join(jieba.lcut(q+a))client.data_object.create(data_object={"question": q,"segmentedQuestion": segmented_q,"answer": a},class_name="QAPair")result = client.query.get("QAPair", ["question", "answer"]) \.with_bm25(query=query_text, properties=["segmentedQuestion"]) \.with_limit(3) \.do()
● 为什么这么做?
将语料中的内容预先分词,并按空格分隔成字符串,存储在新字段中,供 BM25 使用。
● 好处:
○ 充分利用 BM25 的词频特征;
○ 可扩展为对任意内容的分词检索;
○ 配合 with_bm25 可轻松启用多字段召回。
● 缺点:
○ 数据迁移成本高;
○ 增加字段后需兼容现有逻辑;
○ 用户输入未标准化,召回结果任然不理想
3. 对用户输入的 Query 做分词预处理
核心代码
segmented_queries = " ".join(jieba.lcut(query))
● 为什么这么做?
与语料中的 tokenized_content 对齐,避免中文 query 无法匹配 token。
● 好处:
○ 显著提升召回率;
○ 查询语义更清晰;
○ 保证检索一致性。
● 缺点:
○ 用户体验上难以感知;
○ 仍受限于关键词提取准确性。
🔬 效果测试与对比分析
我分别测试了以下两种场景:测试代码参考 github连接
📌 未分词的 Query + 原始语料
● 查询 “人工智能是什么”
● 结果为空或错误,必须输入 “什么是人工智能?” 才能命中
✅ 分词后的 Query + 分词语料字段 (segmentedQuestion)
● 查询:“人工智能是什么”
● 命中效果大幅提升,多个语料均被正确匹配
对比项 原始方式(未分词) 优化方式(分词+keyword)
召回率 较低 明显提升
用户容错性 差 好
系统复杂度 简单 增加字段、代码稍复杂
开发适应性 高 需同步维护关键词提取逻辑
查询效率 快 PostgreSQL 存储场景略卡顿
⚠️ PostgreSQL keyword 权重查询方案存在的问题
虽然我们尝试结合 BM25 + keyword 搜索 + 权重配置的方式,在 PostgreSQL 中实现 fulltext 搜索方案,但最终:
● 查询效果非常好;
● 查询速度严重卡顿;
● 不适合高并发线上环境。
因此该方案被标记为高风险。
✅ 最终推荐方案:结合 BM25 + 分词字段
综合考虑效果与性能:
- 为语料增加 tokenized_content 字段;
- 插入语料时进行分词填入该字段;
- 查询时对 query 分词,与该字段对齐;
- 使用 Weaviate 的 with_bm25 指定使用该字段检索。
该方式在准确性、性能、维护成本之间取得了良好平衡。
🧠 总结
本次针对向量数据库中 BM25 匹配效果差的问题,从关键词缺失、分词不一致、语料结构单一等多个角度进行优化,主要提升措施包括:
● 增加分词字段 segmentedQuestion / tokenized_content;
● 插入和查询统一使用 jieba 分词;
● 尝试结合 keyword 库 + PostgreSQL,但因性能问题暂时搁置;
● 最终实现了一种高效、稳定的 hybrid 检索方案。
📌 关键词召回 + 向量语义检索,将是构建强大问答系统的未来主流方案。
相关文章:
BM25 算法与关键词提取在向量数据库中的实践优化
BM25 算法与关键词提取在向量数据库中的实践优化 在实际构建问答系统或语义检索场景中,向量数据库(如 Weaviate)提供了基于语义匹配的检索能力,然而我们发现 BM25 关键词检索效果不理想,甚至出现了召回率过低、查询必…...
济南超算研究所面试问题
1.自我介绍 2.java抽象类与接口的区别 3.抽象类能否实例化 4.在项目中用的抽象类偏多还是接口偏多 5.抽象类用的场景介绍一下 6.java中数据结构有哪些 7.数据的基本类型 8.引用类型,包装类型 9.是一个场景题,在查询数据库中的数据时,…...
“多维像素”可赋能具身智能非凡感知力——昱感微参加2025松山湖中国IC创新高峰论坛
5月13日,由中国半导体行业协会集成电路设计分会、芯原微电子(上海)股份有限公司联合主办的第十五届松山湖中国IC创新高峰论坛在东莞松山湖举行。本届松山湖论坛以“面向‘具身智慧机器人’的创新IC新品推介”为主题,吸引了许多知名…...
解决CLion控制台不能及时显示输出的问题
CLion 2025版本可以免费用于非商业用途了,下载来试用了一下,与JB的其它 IDE一样的资源占用比较大,流畅度不及VSCode。 在Windows下创建了一个简单的控制台应用程序,使用printf和std::cout输出字符串,发现CLion的控制台…...
多尺度对比度调整
一、背景介绍 受到了前面锐化算法实现的启发,对高频层做增强是锐化,那么对中低频一起做增强,就应该能有局域对比度增强效果。 直接暴力实现了个基本版本,确实有对比度增强效果。然后搜了下关键字,还真找到了已经有人这…...
虹桥前湾印象城MEGA品牌大会灵感迸发,共绘湾系生活新章
前言:当千年水韵流淌至上海前湾,当苏州河的生态肌理转化为商业空间的呼吸脉络……上海虹桥前湾印象城MEGA“漫漫而来”。 5月15-16日,以“灵感新章 Wave of Megagination”为主题的虹桥前湾印象城MEGA品牌大会成功举办,正式掀开长…...
新京东,正在成为一种生活方式
出品|何玺排版|叶媛 一个新京东,正在从“心”诞生。 2025年2月11日之前,如果问京东是做什么的,相信大多数人会回答京东是电商平台,卖家电数码日用百货的。现在,如果问京东是做什么的,相信大家的回答不在是…...
读论文alexnet:ImageNet Classification with Deep Convolutional Neural Networks
https://zhuanlan.zhihu.com/p/13694329885 1, 公式 卷积层输出尺寸: o ⌊(i 2p - k) / s⌋ 1 式中,i:输入尺寸;o:输出尺寸;p:padding;k: kernel_size;s: stride。⌊…⌋表示向下取整。 2, 推导过程 …...
操作系统|| 虚拟内存页置换算法
题目 写一个程序来实现 FIFO 和 LRU 页置换算法。首先,产生一个随机的页面引用序列,页面数从 0~9。将这个序列应用到每个算法并记录发生的页错误的次数。实现这个算法时要将页帧的数量设为可变。假设使用请求调页。可以参考所示的抽象类。 抽象类&…...
AGI大模型(19):下载模型到本地之ModelScope(魔搭社区)
1 安装模块 魔塔社区提供了下载的模块,如下: pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple 2 模型下载 from modelscope import snapshot_download model_dirsnapshot_download(LLM-Research/Meta-Llama-3-8B,cache_dirrD:\…...
常见面试题
1.stringbuffer和stringbuilder的区别,stringbuffer是通过什么实现线程安全的? StringBuffer 和 StringBuilder 都是用于处理可变字符串的类,但它们的主要区别在于 线程安全性。 StringBuffer 的线程安全是通过方法加锁(synchronized&…...
【视觉任务】深度估计(Depth Estimation)介绍(2025年更新)
文章目录 1. 任务定义与意义2. 按输入类型的分类2.1 单目深度估计(Monocular Depth Estimation)2.2 双目与多视图深度估计(Stereo / Multi-view)2.3 深度相机输入(RGB-D)2.4 主动与被动方法 3. 核心方法概述…...
Python 在Excel单元格中应用多种字体样式
文在数据处理和报表生成场景中,Excel 文件的格式设置至关重要。合理的字体格式不仅能提升表格的可读性,还能突出关键数据。本文将详细介绍如何使用免费库Free Spire.XLS for Python,在 Excel 单元格中灵活应用多种字体格式,包括字…...
C++:字符串操作函数
strcpy() 功能:把一个字符串复制到另一个字符串。 #include <iostream> #include <cstring> using namespace std;int main() {char src[] "Hello";char dest[10];strcpy(dest, src);cout << "Copied string: " << …...
Spark,SparkSQL操作Mysql, 创建数据库和表
SparkSQL操作Mysql 1.查看系统内是否有mysql [roothadoop100 ~]# rpm -aq | grep mariadb mariadb-libs-5.5.68-1.el7.x86_64 2.想我上面输出了有结果的即证明有,使用下列命令删除即可 [roothadoop100 ~]# rpm -e --nodeps mariadb-libs 3.进入我们常用存放压缩包…...
降低学习成本,1 天掌握 Java 开发核心技能
在当今数字化浪潮中,Java 编程语言凭借其卓越的跨平台性与稳定性,在企业级系统搭建、移动端应用开发以及大数据处理等领域占据着举足轻重的地位。但不可忽视的是,Java 开发链条冗长,从需求剖析到代码落地的全流程充满挑战…...
类模板的简单实例
author: hjjdebug date: 2025年 05月 16日 星期五 15:06:00 CST description: 类模板的简单实例 文章目录 1.实例代码:2. 模板类写法2.1 模板类的构造函数.2.2 模板类中的语句 3. 模板类的实例化过程.3.1 实例化的进一步试验. 4. 怎样调试constexpr 修饰的函数? 类模…...
描述性统计图表
一、核心图表类型与用途 1、直方图(Histogram) (1)定义:用连续矩形表示数据分布,横轴为数据区间,纵轴为频数或频率。 (2)用途:展示数据分布形态(对称、偏态)、识别离群值。 (3)适用场景:分析连续型变量的分布特征,如收入分布、考试成绩分布。 2、箱线图(Box P…...
【Golang笔记01】Goland基础语法规则
Golang笔记:快速学习Golang基础语法规则 一、基础语法 1.1、环境安装 第一步需要安装go的运行环境,从官网下载安装包:https://golang.google.cn/dl/。 第二步需要安装go的开发工具,可以使用vscode、goland。这里推荐使用golan…...
STM32 ADC+DMA+TIM触发采样实战:避坑指南与源码解析
知识点1【TRGO的介绍】 1、TRGO的概述 TRGO:Trigger Output(触发输出),是定时器的一种功能。 它可以作为外设的启动信号,比如ADC转换,DAC输出,DMA请求等。 对于ADC来说,可以通过…...
Gmsh 读取自定义轮廓并划分网格:深入解析与实践指南
一、Gmsh 简介 (一)Gmsh 是什么 Gmsh 是一款功能强大的开源有限元网格生成器,广泛应用于工程仿真、数值模拟以及计算机图形学等领域。它为用户提供了从几何建模到网格划分的一整套解决方案,能够有效处理复杂几何形状,生成高质量的二维和三维网格,满足多种数值方法的需求…...
Elasticsearch/OpenSearch 中doc_values的作用
目录 1. 核心作用 2. 适用场景 3. 与 index 参数的对比 4. 典型配置示例 场景 1:仅用于聚合,禁止搜索 场景 2:优化大字段存储 5. 性能调优建议 6. 底层原理 doc_values 是 Elasticsearch/OpenSearch 中用于优化查询和聚合的列式存储结…...
如何在 Windows 10 或 11 上使用命令提示符安装 PHP
我们可以在 Windows 上从其官方网站下载并安装 PHP 的可执行文件,但使用命令提示符或 PowerShell 更方便。 PHP 并不是一种新的或不为人知的脚本语言,它已经存在并被全球数千名网络开发人员使用。它以开源许可并分发,广泛用于 LAMP 堆栈中。然而,与 Linux 相比,它在 Wind…...
SZU 编译原理
总结自 深圳大学《编译原理》课程所学相关知识。 文章目录 文法语法分析自顶向下的语法分析递归下降分析LL(1) 预测分析法FIRST 集合FOLLOW 集合 文法 乔姆斯基形式语言理论: 表达能力:0型文法 > 1型文法 > 2型文法 > 3型文法。 0 型文法&am…...
灌区量测水自动化监测解决方案
一、方案背景 随着社会发展和人口增长,水资源需求不断增大。我国水资源总量虽然丰富,但时空分布不均,加之农业用水占比大且效率偏低,使得水资源短缺问题日益凸显。农业用水一直是我国的耗水大户,占全部耗水总量的60%以…...
CVE-2017-8046 漏洞深度分析
漏洞概述 CVE-2017-8046 是 Spring Data REST 框架中的一个高危远程代码执行漏洞,影响版本包括 Spring Data REST < 2.5.12、2.6.7、3.0 RC3 及关联的 Spring Boot 和 Spring Data 旧版本。攻击者通过构造包含恶意 SpEL(Spring Expression Language&…...
1基·2台·3空间·6主体——蓝象智联解码可信数据空间的“数智密码”
近日,由全国数据标准化技术委员会编制的《可信数据空间 技术架构》技术文件正式发布,标志着我国数据要素流通体系向标准化、规范化迈出关键一步。该文件从技术功能、业务流程、安全要求三大维度对可信数据空间进行系统性规范,为地方、行业及企…...
MySQL的存储过程
这一部分比较重要,加油!!!部分代码忘记保存了,嘻嘻,练习代码在最后,大家共勉!!! 通俗来讲,视图是死的,但是这个可以根据传入的参数不同…...
spring学习->sprintboot
spring IoC(控制翻转): 控制:资源的控制权(资源的创建,获取,销毁等) 反转:和传统方式不一样(用上面new什么),不用new让ioc来发现你用什么,然后我来给什么 DI:(依赖注入) 依赖:组件的依赖关系。如newsController依赖NewsServi…...
如何排查阻塞语句
文章目录 文档用途详细信息 文档用途 查询阻塞当前sql的语句,并结束阻塞语句。 详细信息 1、通过pg_stat_activity视图和pg_blocking_pids函数查找阻塞sql。 highgo# select pid,pg_blocking_pids(pid),wait_event_type,wait_event,query from pg_stat_activity…...
TIP-2021《SRGAT: Single Image Super-Resolution With Graph Attention Network》
推荐深蓝学院的《深度神经网络加速:cuDNN 与 TensorRT》,课程面向就业,细致讲解CUDA运算的理论支撑与实践,学完可以系统化掌握CUDA基础编程知识以及TensorRT实战,并且能够利用GPU开发高性能、高并发的软件系统…...
【AI学习】AI大模型技术发展研究月报的生成提示词
AI大模型技术发展研究月报生成提示词 请输出AI大模型技术发展研究月报,要求如下: —————————— 任务目标 在今天({{today}})往前连续 30 天内,检索已正式公开发表的、与AI大模型(参数量 ≥10B&am…...
深入理解 Git 分支操作的底层原理
在软件开发的世界里,Git 已经成为了版本控制的标配工具。而 Git 分支功能,更是极大地提升了团队协作和项目开发的效率。我们在日常开发中频繁地创建、切换和合并分支,但是这些操作背后的底层原理是怎样的呢?在之前的博客探秘Git底…...
泰迪杯特等奖案例深度解析:基于多模态融合与小样本学习的工业产品表面缺陷智能检测系统
(第九届泰迪杯数据挖掘挑战赛特等奖案例全流程拆解) 一、案例背景与核心挑战 1.1 工业质检痛点分析 在3C电子、汽车零部件等高端制造领域,产品表面缺陷(划痕、凹陷、氧化等)检测是质量控制的核心环节。传统人工目检存在效率低(平均检测速度3秒/件)、漏检率高(约15%)…...
Go语言爬虫系列教程 实战项目JS逆向实现CSDN文章导出教程
爬虫实战:JS逆向实现CSDN文章导出教程 在这篇教程中,我将带领大家实现一个实用的爬虫项目:导出你在CSDN上发布的所有文章。通过分析CSDN的API请求签名机制,我们将绕过平台限制,获取自己的所有文章内容,并以…...
轨道炮--范围得遍历,map巧统计
1.思路很难想,但代码一看一下就明白了,就是模拟时间,map存起来遍历也不受10*6影响 2.每次先统计点对应的直线,再动这个点,map一遍历实时更新ma统计max,AC!!!! https://www.luogu.com.cn/problem/P8695 #i…...
python中集合的操作
Python中的集合(Set)是一种无序、可变且元素唯一的数据结构,主要用于去重和数学运算。以下是核心操作分类: 1. 集合创建 大括号创建:s {1, 2, 3}(空集合必须用set())构造函数:…...
常见激活函数——作用、意义、特点及实现
文章目录 激活函数的意义常见激活函数及其特点1. Sigmoid(Logistic 函数、S型函数)2. Tanh(双曲正切函数)3. ReLU(Rectified Linear Unit修正线性单元)4. Softmax5. Swish(Google 提出ÿ…...
FC7300 Trigger MCAL配置引导
FC7300包含4个触发器选择(TRGSELs)。详细的连接信息将在章节中描述。Trigger Select (TRGSEL)源。TRGSEL模块允许软件为外设选择触发器源。 TRGSEL提供了一种极其灵活的机制,用于将各种触发器源连接到多个引脚/外设。 在TRGSEL中,每个控制寄存器最多支持4个输出触…...
组件导航 (HMRouter)+flutter项目搭建-混合开发+分栏效果
组件导航 (Navigation)flutter项目搭建 接上一章flutter项目的环境变量配置并运行flutter 1.flutter创建项目并运行 flutter create fluter_hmrouter 进入ohos目录打开编辑器先自动签名 编译项目-生成签名包 flutter build hap --debug 运行项目 HMRouter搭建安装 1.安…...
WAS和Tomcat的对比
一、WAS和Tomcat的对比 WebSphere Application Server (WAS) 和 Apache Tomcat 是两款常用的 Java 应用服务器,但它们有许多显著的区别。在企业级应用中,它们扮演不同的角色,各自有其特点和适用场景。以下是它们在多个维度上的详细对比&…...
GPU Runtime Suspend 调试与验证:从 sysfs 到 perf 分析
选题背景:在基于 NXP i.MX8MP 平台调试 GPU 时,常常需要确认 Vivante GPU2D/ Vivante GPU2D/\uGPU3D 是否已经进入 runtime suspend ,以降为一篇完整的验证和分析步骤,适合用于实战调试与面试表达。 一、什么是 Runtime Suspend&a…...
响应式布局
布局方式 固定宽度布局:主流的宽度有960px/980px/1190px/1210px等。移动端用户需要缩放查看页面内容 流式布局:百分比设置相对宽度。在不同设备上都能完整显示。兼容性一般,可能发生错位 响应式布局:一套代码自动适配不同终端。检测设备信息,根据设备调整布局。用户体验最…...
简单入门RabbitMQ
本章将带大家来写一个简单的程序,使用 Java 创建RabbitMQ 的生产者和消费者 依赖引入 在 Maven 仓库中输入 amqp-client: 找到第一个 RabbitMQ Java Client ,点击进去找到一个合适的版本然后将依赖引入到我们项目中的 pom.xml 文件中。 …...
金属加工液展|切削液展|2025上海金属加工液展览会
2025上海金属加工液展览会 时间:2025年12月2-4日 地点:上海新国际博览中心 2025上海金属加工液展规划30000平方米展览规模,预设展位1200个,将为国内外加工液产业提供一个集“展示、合作、交易、发展”于一体的综合性平台&#…...
前端实现流式输出《后端返回Markdown格式文本,前端输出类似于打字的那种》
一、使用插件 插件名称:marked 版本:15.0.11 安装插件:npm install marked15.0.11 作用:marked 是一个用于将 Markdown 语法转换为 HTML 的 JavaScript 库 插件2名称:dompurify 版本:3.2.5 安装插件&…...
Python字符串常用方法详解
文章目录 Python字符串常用方法详解一、字符串大小写转换方法(常用)1. 基础大小写转换2. 案例:验证码检查(不区分大小写) 二、字符串查找与替换方法1. 查找相关方法2. 替换相关方法 三、字符串判断方法1. 内容判断方法 四、字符串分割与连接方…...
深度学习中的归一化:提升模型性能的关键因素
📌 友情提示: 本文内容由银河易创AI(https://ai.eaigx.com)创作平台的gpt-4-turbo模型辅助完成,旨在提供技术参考与灵感启发。文中观点或代码示例需结合实际情况验证,建议读者通过官方文档或实践进一步确认…...
【C++】 —— 笔试刷题day_30
一、爱吃素 题目解析 这道题,简单来说就是给定两个数a和b,然后让我们判断a*b是否是素数。 算法思路 这道题还是比较简单的 首先,输入两个数a和b,这两个数的数据范围都是[1, 10^11];10的11次方,那a*b不就是…...
WebMvcConfigurer介绍-笔记
1.WebMvcConfigurer功能简介 org.springframework.web.servlet.config.annotation.WebMvcConfigurer 是 Spring MVC 提供的一个接口,用于自定义 Web 应用的配置。通过实现该接口,开发者可以灵活地添加拦截器(Interceptors)、配置…...