DeepResearch深度搜索实现方法调研
DeepResearch深度搜索实现方法调研
Deep Research 有三个核心能力
- 能力一:自主规划解决问题的搜索路径(生成子问题,queries,检索)
- 能力二:在探索路径时动态调整搜索方向(刘亦菲最好的一部电影是什么?如何定义好?已有信息是否足够?)
- 能力三:对多源的信息进行验证,整合(一个文档说 37 岁,另一个文档说 27 岁,怎么分辨?)
非强化学习方法:
《Search-o1: Agentic Search-Enhanced Large Reasoning Models》(能力二)
作者:人大+清华
https://github.com/sunnynexus/Search-o1 (Star 800)
- 当遇到知识不确定的情况时,模型会自动生成搜索查询,格式为
<|begin_search_query|>搜索词<|end_search_query|>
- 系统检测到这一标记后,暂停模型推理,执行网络搜索
- 搜索结果被包装在
<|begin_search_result|>检索到的内容<|end_search_result|>
标记中返回给模型 - 如果检索到的结果特别长,就用大语言模型对其进行精炼,再放进推理链条中。
优势:
检索触发机制:传统 RAG 是静态的、预先定义的;Search-o1 是动态的、由模型主动触发的,可以在一定程度上实现能力二。
Deep-Searcher
https://github.com/zilliztech/deep-searcher
基本流程:
- 将原始问题进行拆解,分成多个子问题。
- 子问题分别进行检索,得到对应的答案。
- 子问题和答案进行整合,由模型生成下一轮子问题。
- 达到指定检索轮数后,汇总最终的答案。
OpenDeepResearcher
https://github.com/mshumer/OpenDeepResearcher
- 用户输入一个研究主题后,LLM会生成最多四个不同的搜索关键词。
- 每个搜索关键词都通过调用SERPAPI接口进行搜索。
- 将所有获取到的链接进行聚合和去重处理。
- 对每个唯一链接调用JINA网页内容解析接口,利用LLM评估网页的有用性,如果页面被判定为有效,则提取相关文本内容。
- 汇总所有信息,判断是否需要进一步生成新的搜索关键词。如果需要,则生成新的查询;否则,循环终止。
- 将所有收集到的上下文信息整合后,由LLM生成一份全面、详尽的报告。
deep-research
https://github.com/dzhng/deep-research
- 获取用户的查询和研究参数(广度与深度)并生成SERP查询。
- 处理搜索结果,提取关键内容用于生成后续研究方向。
- 如果深度 > 0,则根据新的研究方向继续探索。
- 将所有上下文汇总成一份全面的Markdown报告。
强化学习方法:
《DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning》(能力一)
作者:伊利诺伊大学香槟分校+高丽大学
https://github.com/pat-jj/DeepRetrieval (Star 360)
query改写已被证实是检索流程中的关键步骤。当用户提交问题时,大型语言模型(LLM)通常会对其进行重新表述(称为增强查询),然后再执行检索。DeepRetrieval采用创新方法,利用强化学习(RL)而非传统的监督式微调(SFT)来优化这一关键步骤。
DeepRetrieval的突出之处在于它能够通过"试错"方式直接学习,使用检索指标作为奖励,无需昂贵的监督数据。这种方法使模型能够针对实际性能指标进行优化,而不仅仅是模仿人工编写的查询。
训练策略使用 PPO。
数据集:PubMed、ClinicalTrials.gov…公开数据集
《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》(能力一、二、三)
伊利诺伊大学香槟分校
https://github.com/PeterGriffinJin/Search-R1
- 将搜索引擎建模为环境的一部分 模型可以在生成中插入
<search>query</search>
指令,系统则响应<information>results</information>
,最终答案用<answer>
标签输出,推理过程包裹在<think>
中。 - 支持多轮思考-检索循环 模型可以识别信息缺口并主动发起下一轮搜索,而不是一次性拼接上下文。
- 基于强化学习策略学习 训练采用 PPO (Proximal Policy Optimization)或 GRPO (Group Relative Policy Optimization)算法,奖励信号基于最终结果(如 Exact Match)而非过程监督。
- 避免优化干扰的技术细节 引入 Retrieved Token Loss Masking,对搜索返回内容不反向传播,从而保持训练稳定。
从下图来看,它用 7B 模型就能超越 Search-o1 和 680B 参数的 R1?这种“小模型大能力”的背后,正是 RL 训练出的搜索策略弥补了知识覆盖和参数规模的不足。
- 数据集:在七个问答数据集上进行评估,包括一般问答(NQ、TriviaQA、PopQA)和多跳问答(HotpotQA、2WikiMultiHopQA、Musique、Bamboogle)。
- 基线比较:与多种方法进行比较,包括无检索的推理、检索增强生成(RAG)、工具调用方法(如IRCoT和Search-o1)、监督微调(SFT)和基于RL的微调(R1)。
- 模型和检索设置:使用Qwen-2.5-3B和Qwen-2.5-7B模型,以2018年维基百科转储作为知识源,E5作为检索器,每次检索返回3个段落。
奖励函数:
总结
- 非强化学习方法从技术上来看技术路线都是一样的,即使用推理模型分析,结合联网搜索以及ReAct机制,根据用户输入扩展问题,再对每个问题进行多次联网查找,推理、再查找的过程,最终输出一个综合性的答案。这套方法也比较容易复现。
- 使用强化学习对整体进行进行端到端训练固然可以提升效果,用小模型代替大模型。但缺点也很明显,依赖于高质量的数据,会限制其应用范围,比如无法支持多种模型。
- 使用强化学习对个别流程进行针对性训练的是比较有可行性的,比如针对query生成专门训练。
- 当前的方法主要讨论的都是能力一、二,对能力三较少有针对性优化。
相关文章:
DeepResearch深度搜索实现方法调研
DeepResearch深度搜索实现方法调研 Deep Research 有三个核心能力 能力一:自主规划解决问题的搜索路径(生成子问题,queries,检索)能力二:在探索路径时动态调整搜索方向(刘亦菲最好的一部电影是…...
使用Python删除PDF中多余或空白的页面
目录 为什么需要删除 PDF 中的多余或空白页面? 所需工具 环境准备 如何使用Python删除PDF中的多余页面 实现思路 详细实现步骤 实现代码 如何使用Python检测并删除PDF中的空白页 实现思路 详细实现步骤 实现代码 在处理 PDF 文件时,常常会遇到…...
什么是分布式光伏系统?屋顶分布式光伏如何并网?
政策窗口倒计时!分布式光伏如何破局而立? 2025年,中国分布式光伏行业迎来关键转折: ▸ "430"落幕——抢装潮收官,但考验才刚开始; ▸ "531"生死线——新增项目全面市场化交易启动&…...
MySQL——七、索引
优势:极高查询效率;极高排序效率 劣势:占用磁盘空间;降低更新表的速度(可忽略,磁盘相对便宜;增删改比例较小) 索引结构 MYSQL的索引是在存储引擎层实现的,不同的存储引…...
LVGL的核心:lv_timer_handler
文章目录 🧠 一句话总结 LVGL 的运行核心:🔁 1. while(1) 主循环中的 lv_task_handler()⏱️ 2. lv_timer_handler() 定时器调度核心✅ 并发控制✅ 关键行为流程:🌀 任务执行逻辑:🧮 计算下一次…...
LLM量化方法:ZeroQuant、LLM.int8()、SmoothQuant、GPTQ、AWQ
文章目录 TLDR;量化分类量化时机量化粒度ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers细粒度硬件感知量化低成本逐层知识蒸馏(Layer-by-layer Knowledge Distillation, LKD) LLM.int8(): 8-bit Matrix…...
数据结构 集合类与复杂度
文章目录 📕1. 集合类📕2. 时间复杂度✏️2.1 时间复杂度✏️2.2 大O渐进表示法✏️2.3 常见的时间复杂度量级✏️2.4 常见时间复杂度计算举例 📕3. 空间复杂度 📕1. 集合类 Java 集合框架(Java Collection Framework…...
AI服务器通常会运用在哪些场景当中?
人工智能行业作为现代科技的杰出代表,在多个领域当中发展其强大的应用能力和价值,随之,AI服务器也在各个行业中日益显现出来,为各个行业提供了强大的计算能力和处理能力,帮助企业处理复杂的大规模数据,本文…...
keepalived详细笔记
keepalived 是一种基于VRRP(虚拟路由器冗余协议)的高可用解决方案,主要是用于服务器的负载均衡和高可用性的保障,自动将服务切换到备份服务器上,确保业务的连续性。 工作原理: VRRP协议:一组路…...
基于大模型的母婴ABO血型不合溶血病全方位预测与诊疗方案研究
目录 一、引言 1.1 研究背景与目的 1.2 国内外研究现状 1.3 研究方法与创新点 二、母婴 ABO 血型不合溶血病概述 2.1 发病机制 2.2 临床表现 2.3 流行病学特征 三、大模型在母婴 ABO 血型不合溶血病预测中的应用 3.1 模型选择与构建 3.2 预测指标与数据输入 3.3 模…...
【5分钟学Docker】Docker快速使用
目录 1. 概述 2. 基本操作 2.1. 镜像操作 2.2. 容器操作 2.3. 运行操作 2.4. 镜像保存 2.5. 镜像分享 3. 高级操作 4. 挂载 4.1. 目录挂载 4.2. 卷映射 1. 概述 Docker 镜像有镜像名称和TAG 2. 基本操作 2.1. 镜像操作 查看镜像 docker images docker image ls …...
单调栈所有模版型题目(1)
普通单调栈模型 首先介绍单调栈模版 这个图里有5个数字,我们从右往左看,第一个数字是4,第二个数字是7,数字4小于数字7,所以7这个数之前的下一个更大值永远不会是4,那么此时4在数组里就相当于没有用了,所以…...
拆分sql数据,(shop_backup)sql文档过大(>5G)
执行表结构 sed -n /^-- Table structure/,/^-- Dumping data/p shop_backup.sql > structure.sql mysql -u root -p shop < structure.sql 执行数据 awk /^INSERT INTO/{if(count%1000001) {file"data_part_"i".sql"}; print > file} shop_bac…...
FunASR阿里开源的语音识别工具
FunASR是一个由阿里云智能团队开源的语音识别工具。它旨在通过发布工业级语音识别模型的训练和微调,促进学术研究和工业应用之间的交流,推动语音识别生态的发展。 今天来试着搭建下。 1、先贴上github地址。 https://github.com/modelscope/FunASR…...
【网络入侵检测】基于源码分析Suricata的IP分片重组
【作者主页】只道当时是寻常 【专栏介绍】Suricata入侵检测。专注网络、主机安全,欢迎关注与评论。 目录 目录 1.概要 2. 配置信息 2.1 名词介绍 2.2 defrag 配置 3. 代码实现 3.1 配置解析 3.1.1 defrag配置 3.1.2 主机系统策略 3.2 分片重组模块 3.2.1…...
“Cobalt Strike Aggressor脚本提权全解析:从监听器到SYSTEM/root的渗透实战指南“
目录 1. Aggressor脚本是什么?如何提权? 2. 这种脚本提权针对什么漏洞? 3. 如何发现可用于CS提权的漏洞? 4. Windows和Linux利用Aggressor脚本提权的全过程 Windows提权:CVE-2021-1732 (Win32k提权) Linux提权&a…...
为啥大模型一般将kv进行缓存,而q不需要
1. 自回归生成的特点 大模型(如 GPT 等)在推理时通常采用自回归生成的方式: 模型逐个生成 token,每次生成一个新 token 时,需要重新计算注意力。在生成第 t 个 token 时,模型需要基于前 t-1 个已生成的 t…...
一些模型测试中的BUG和可能解决方法
一些模型测试中的BUG和可能解决方法 模型一直重复反馈相同内容的问题查找思路 如下顺序也是排查优先级 检查提示词和上下文,保证提示词中没有类似的要求,然后再查看上下文是不是占满了token长度。检查一下选择的model是不是本身就有这样的问题尝试增加repeat_penalty(1.05、…...
智慧农业运维平台养殖—传感器管理监控设计—仙盟创梦IDE
智慧农业综合监测与智能执行系统简介 该系统围绕农业生产全流程,融合气象环境监测、农技指导精准推送及多维度智能控制,助力农业高效、科学发展。 气象环境与农技指导:于农业现场部署慧云智能物联网设备,实时监测空气温湿度、光照…...
linux中的日志分割
1.问题背景,nginx日志过大不好删除 [rootlocalhost cron.daily]# cd /lk/nginx/log/ [rootlocalhost log]# ll 总用量 2386188 -rw-r--r--. 1 root root 2078699697 5月 9 13:02 access.log -rw-r--r--. 1 root root 11138 5月 6 10:28 error.log [rootloc…...
零基础学Java——第十一章:实战项目 - 控制台应用开发
第十一章:实战项目 - 控制台应用开发 在前面的章节中,我们已经学习了Java的基础知识、面向对象编程、高级特性、文件IO、多线程、网络编程和数据库操作等内容。现在,是时候将这些知识应用到实际项目中了。本章我们将从最基础的控制台应用开始…...
从逻辑学视角理解统计学在数据挖掘中的作用
文章目录 一、引言:逻辑学与统计学的交汇1.1 问题的逻辑本质:为什么需要统计学解析数据1.2 数据挖掘中的三重逻辑关系:数据-模式-知识 二、统计学的逻辑基础2.1 归纳逻辑与统计推断2.2 假设检验的逻辑结构2.3 概率论:不确定性的逻…...
Cluster Interconnect in Oracle RAC
Cluster Interconnect in Oracle RAC (文档 ID 787420.1)编辑转到底部 In this Document Purpose Scope Details Physical Layout of the Private Interconnect Why Do We Need a Private Interconnect ? Interconnect Failure Interconnect High Availability Private Inte…...
OPENSSL-1.1.1的使用及注意事项
下载链接: OpenSSL1.1.1一个广泛使用的开源加密库资源-CSDN文库 OpenSSL 1.1.1 是一个广泛使用的开源加密库,以下是其使用方法及注意事项: 使用方法 安装: Linux系统: 从源码编译安装:访问 OpenSSL 官网…...
Element-UI字体图标不显示
原因 我在控制台查看请求后,发现elementUI的字体文件请求路径不对, 我的路径是/static/css/static/fonts/element-icons.535877f.woff, 正确的是/static/fonts/element-icons.535877f.woff 解决 build - utils function generateLoaders (loa…...
lambda 表达式
C 的 lambda 表达式 是一种轻量、内联的函数对象写法,广泛用于标准算法、自定义回调、事件响应等场景。它简洁且强大。以下将系统、详细地讲解 lambda 的语法、捕获规则、应用技巧和实际使用场景。 🧠 一、基本语法 [捕获列表](参数列表) -> 返回类型…...
vue3: pdf.js 2.16.105 using typescript
npm create vite vuepdfpreview //创建项目npm install vue-pdf-embed npm install vue3-pdfjs npm install pdfjs-dist2.16.105 <!--* |~~~~~~~|* | |* | |…...
自然语言处理-词性标注的基本概念
在自然语言处理过程中,进行词性标注是很有必要的一个步骤,词性揭示了一个词的类别,识别每个词的词性可以分析句子的语法和结构,从而为后续的命名实体识别、句法分析、情感分析、信息抽取以及机器翻译等文本分析任务提供必要且有用…...
电机密集型工厂环境下的无线通信技术选型与优化策略
点击下面图片带您领略全新的嵌入式学习路线 🔥爆款热榜 88万阅读 1.6万收藏 在电机、变频器、电焊机等强电磁干扰源遍布的工业环境中,无线通信系统的可靠性面临严峻挑战。本文从抗干扰能力、传输稳定性、实时性需求三大核心维度出发,结合工…...
【软件安装那些事 2 】Multisim 14.3 安装教程(中文版)步骤完整不跳步 { 附百度网盘中软件提取下载链接,永久有效 }
百度网盘分享的文件:Multisim 14.3 安装包 中文 (永久有效) 链接: https://pan.baidu.com/s/1XE4X9_M496lyHCN3DGrOzw?pwd4yku 提取码: 4yku 1、解压完成后,打开【Setup】文件夹 2、右击【Install】,选择…...
NextDenovo2.5.2安装与使用-生信工具53
01 NextDenovo 简介 适用于三代数据基因组组装! NextDenovo 是一个基于字符串图(String Graph)的长读段(如 PacBio CLR, ONT)从头组装工具。它采用类似于 Canu 的“先纠错后组装”(correct-th…...
结构性变革与新兴机遇
近年来,全球就业市场正经历深刻的结构性变革。受技术进步、产业升级、人口结构变化及全球经济格局调整的影响,传统就业模式被重塑,新的职业机会不断涌现。本文将分析当前就业市场的主要趋势,并探讨其对劳动者、企业和政策制定者的…...
第20篇:Linux设备驱动程序入门<七>
Q:如何编写定时器中断驱动内核模块? A:使用在FPGA中实现的间隔定时器FPGA Timer0,寄存器接口基地址为0x00002000,时钟频率100MHz,中断ID为72。调用这个定时器需要向Counter start value寄存器写入适当的值…...
基于Transformer与SHAP可解释性分析的神经网络回归预测模型【MATLAB】
基于Transformer与SHAP可解释性分析的神经网络回归预测模型【MATLAB】 在当今的数据科学与人工智能领域,构建一个高精度的预测模型固然重要,但越来越多的应用场景开始关注模型的可解释性。尤其在金融、医疗、工业控制等对决策透明度要求较高的领域&…...
基于Java和GeoTools的根据矢量BBOx自动生成格网文件实践
目录 前言 一、基础数据介绍及生成方法简介 1、矢量数据处理 2、格网生成算法 二、代码实现 1、根据Shp计算Bounds 2、生成经纬网要素集合 3、写入 Shapefile 三、结果输出与验证 1、格网文件输出格式 2、GIS工具验证 四、总结 前言 在当今数字化与信息化高速发展的…...
[docker基础二]NameSpace隔离实战
目录 一 实战目的 二 基础知识 1)dd 命令详解 2)mkfs命令详解 3)df命令详解 4)mount 命令详解 5)unshare命令详解 三 实战操作一(PID隔离) 四 实战操作二(MOunt隔离) 1)创建 Mount 隔离进程 2)在新进程里边,创建空白文件&#…...
PIC18F45K80 ECAN模块使用
PIC18F45K80的CAN使用过程遇到一些问题,记录一下,主要是代码的理解。 在MPLAB X中配置工程: 1,在MCC中添加ECAN外设 2,CAN通讯有波特率的概念,整一个CAN网络需要运行在同一个速率。这里我们把他配置到12…...
RuntimeError: expected scalar type ComplexDouble but found Float
要解决 RuntimeError: expected scalar type ComplexDouble but found Float 错误,请按照以下步骤操作: 步骤 1:定位错误发生的位置 查看完整的错误堆栈跟踪,确定具体是哪一行代码引发了错误。例如:RuntimeError: exp…...
基于DeepSeek的韦恩图绘制:方法、优化与应用
一、研究背景与冲突 在生物信息学、医学研究、数据科学等众多领域,清晰展示数据集之间的交集关系至关重要。韦恩图(Venn diagram)作为一种有效的可视化工具,能以直观的图形呈现多个数据集之间的重叠情况,帮助研究者快…...
自动驾驶的“眼睛”:用Python构建智能障碍物检测系统
自动驾驶的“眼睛”:用Python构建智能障碍物检测系统 在自动驾驶技术日益成熟的今天,障碍物检测系统成了汽车智能化不可或缺的部分。无论是高速公路上的突发状况,还是城市街道中的行人与车辆,准确识别障碍物并及时反应,是保证行车安全的关键。 那么,我们如何用Python构…...
基于HTML+JavaScript+CSS实现教学网站
摘要 21世纪是信息化的时代,信息化物品不断地涌入我们的生活。同时,教育行业也产生了重大变革。传统的身心教授的模式,正在被替代。互联网模式的教育开辟了一片新的热土。 这算是对教育行业的一次重大挑战。截至目前,众多教育行…...
【Pandas】pandas DataFrame all
Pandas2.2 DataFrame Computations descriptive stats 方法描述DataFrame.abs()用于返回 DataFrame 中每个元素的绝对值DataFrame.all([axis, bool_only, skipna])用于判断 DataFrame 中是否所有元素在指定轴上都为 True pandas.DataFrame.all() pandas.DataFrame.all() 方…...
何时需要import css文件?怎么知道需要导入哪些css文件?为什么webpack不提示CSS导入?(导入css导入规则、css导入规范)
文章目录 何时需要import css文件?**1. 使用模块化工具(如 Webpack、Vite、Rollup 等)****适用场景:****示例:****优点:** **2. 动态加载 CSS(按需加载)****适用场景:***…...
智汇云舟亮相第二十七届北京科博会
5月8日,备受瞩目的第二十七届中国北京国际科技产业博览会(以下简称:北京科博会)在国家会议中心盛大开幕。作为我国科技领域的重要盛会,北京科博会汇聚了众多前沿科技成果与创新力量,为全球科技产业交流搭建…...
ThreadLocal
9.1.1 面试题 ThreadLocal中ThreadLocalMap的数据结构和关系ThreadLocal的key是弱引用,这是为什么?ThreadLocal内存泄漏问题你知道吗?ThreadLocal中最后为什么要加remove方法?...
【高并发内存池】从零到一的项目之centralcache整体结构设计及核心实现
个人主页 : zxctscl 专栏 【C】、 【C语言】、 【Linux】、 【数据结构】、 【算法】 如有转载请先通知 文章目录 前言1. central cache整体结构2. central cache基础结构2.1 span类设计2.2 SpanList带头双向循环链表设计2.3 central cache类设计 3. central cache核…...
(pnpm)引入 其他依赖失败,例如‘@element-plus/icons-vue‘失败
当我们在开发项目的时候,利用了 pnpm 来进行管理,可能有些依赖就无法引入,这是因为 pnpm 和 npm 管理包的方式不一样, 举个例子,假如我们现在需要安装一个 A 包,A 包依赖 B 包, 此时我们通过 …...
面试题:请解释Java中的线程池(ThreadPoolExecutor)的工作原理,并说明如何自定义线程池
线程池(ThreadPoolExecutor)的工作原理 线程池是一种用于管理和复用线程的机制,它可以减少线程创建和销毁的开销,提高程序的执行效率。ThreadPoolExecutor是Java中实现线程池的一个类,它位于java.util.concurrent 包中…...
Windows Server 2025开启GPU分区(GPU-P)部署DoraCloud云桌面
本文描述在ShareStation工作站虚拟化方案的部署过程。 将服务器上部署 Windows Server、DoraCloud,并创建带有vGPU的虚拟桌面。 GPU分区技术介绍 GPU-P(GPU Partitioning) 是微软在 Windows 虚拟化平台(如 Hyper-V)中…...
WEB前端表单及表格标签综合案例
表单标签综合案例: 源代码: <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>…...