当前位置: 首页 > news >正文

DeepSeek 关联公司公布新型数据采集专利 提升数据采集效率与质量

4 月 1 日,国家知识产权局公布了一项由 DeepSeek 关联公司杭州深度求索人工智能基础技术研究有限公司申请的专利,名为 “一种广度数据采集的方法及其系统”,公开号为 CN 119739917 A,申请日期可追溯至 2024 年 12 月。此专利的发布,有望为数据采集领域带来显著变革,尤其在提升数据采集效率与质量方面提供新的技术路径。

近年来,随着人工智能技术的飞速发展,特别是在自然语言处理(NLP)领域,大语言模型(LLMs)的训练对高质量、多样化数据集的需求呈爆发式增长。为了构建这样的数据集,需要从网页中采集并处理大量数据,以获取高质量的文本信息作为模型训练的输入。然而,传统的数据采集技术存在诸多痛点。例如,在面对复杂站点时,难以获取完整链接,导致数据遗漏;过量下载的情况时有发生,甚至造成对方网站崩溃;同时,对下载页面缺乏有效的内容质量分析和推断,容易出现重复下载或低质下载,极大地影响了数据采集的效率。

杭州深度求索人工智能基础技术研究有限公司申请的这项专利,正是为了解决上述问题。根据专利摘要,该方法及其系统主要包括以下关键步骤:

  1. 建立网页元信息库:为整个数据采集流程提供基础信息支撑,便于后续对网页链接的管理和筛选。
  2. 确定每日调度单元下载配额及当日下载总额度:通过合理设定下载额度,有效控制数据采集的节奏,减少对目标网站的流量冲击,保障网站的正常运行。
  3. 从网页元信息库中选取相应数量的链接,分配下载额度:基于对网页元信息库的分析,有针对性地选择链接并分配下载资源,实现资源的优化利用。
  4. 下载过程控制:确保数据下载过程的稳定与安全。
  5. 下载文本进行后处理及数据清洗后进入回灌队列,通过信息回灌实现网页元信息库更新:对采集到的数据进行清洗和处理,保证数据质量,并通过信息回灌机制,实时更新网页元信息库,使整个系统能够适应不断变化的网页环境。

该专利所带来的有益效果十分显著。首先,它能够发现尽可能多的网页链接,同时减少对网站的流量冲击,确保数据采集过程的稳定性和可持续性。其次,通过对已下载内容的分析,对未下载的链接进行质量推断,并采用择优下载分配额度的方式,有效减少了低质量网页下载和重复下载的情况,极大地提高了数据质量及下载效率,降低了数据采集过程中网络资源的消耗。此外,采用单独的信息回灌队列,保证了网页元信息库修改操作的原子性和稳定性,进一步提升了数据的可靠性。

在当前人工智能技术广泛应用的背景下,数据作为驱动技术发展的核心要素,其采集的效率和质量直接关系到模型训练的效果。杭州深度求索人工智能基础技术研究有限公司的这项专利技术,为解决现有数据采集技术的痛点提供了创新性的解决方案,有望推动整个数据采集领域的技术升级,为大语言模型训练以及其他依赖高质量数据的人工智能应用提供更坚实的数据基础。随着这一专利技术的进一步推广和应用,或许将在人工智能相关行业引发新一轮的数据采集技术变革。

相关文章:

DeepSeek 关联公司公布新型数据采集专利 提升数据采集效率与质量

4 月 1 日,国家知识产权局公布了一项由 DeepSeek 关联公司杭州深度求索人工智能基础技术研究有限公司申请的专利,名为 “一种广度数据采集的方法及其系统”,公开号为 CN 119739917 A,申请日期可追溯至 2024 年 12 月。此专利的发布…...

实际犯错以及复盘1

Ds1302 需要两个 一个Set_Rtc 一个Read_Rtc : 本质 read是 85-2i 的 写入是84-2i 然后 写入的时候 是需要对 0x8e 进行 0x00 和0x80进行解开和 锁定的开头结尾。 使用的时候 赋值给ucRtc[i] 然后 主函数使用的时候 需要直接写个(ucRtc) 因为unsigned char* 默认的…...

初探:简道云系统架构及原理

一、系统架构概述 简道云作为一款低代码开发平台,其架构设计以模块化和云端协同为核心,主要分为以下层次: 1. 前端层 可视化界面:基于Web的拖拽式表单设计器,支持动态渲染(React/Vue框架)。多…...

Nginx负载均衡时如何为指定ip配置固定服务器

大家在用Nginx做负载均衡时,一般是采用默认的weight权重指定或默认的平均分配实现后端服务器的路由,还有一种做法是通过ip_hash来自动计算进行后端服务器的路由,但最近遇到一个问题,就是希望大部分用户采用ip_hash自动分配后端服务…...

玩转MCP:用百度热搜采集案例快速上手并接入cline

MCP的大火,让MCP服务器开发也变得热门,上一篇文章: 手搓MCP客户端&服务端:从零到实战极速了解MCP是什么? 手搓了一个极其简单的小场景的MCP实战案例,详细的安装环境及操作步骤已经讲过了,本文不在重复…...

003集——《利用 C# 与 AutoCAD API 开发 WPF 随机圆生成插件》(侧栏菜单+WPF窗体和控件+MVVM)

本案例聚焦于开发一款特色鲜明的 AutoCAD 插件。其核心功能在于,用户在精心设计的 WPF 控件界面中输入期望生成圆的数量,完成输入后,当用户点击 “生成” 按钮,一系列联动操作随即展开。通过数据绑定与命令绑定这一精妙机制&#…...

设计模式简述(十)责任链模式

责任链模式 描述基本使用使用 描述 如果一个请求要经过多个类似或相关处理器的处理。 可以考虑将这些处理器添加到一个链上,让请求逐个经过这些处理器进行处理。 通常,在一个业务场景下会对整个责任链进行初始化,确定这个链上有哪些Handler…...

分组(二分查找)

#include <bits/stdc.h> using namespace std; const int N1e55; int a[N]; int n,k;bool f(int x){int num1;int ma[1];for(int i2;i<n;i){if(a[i]-m>x){ // 当前元素加入当前组会超过极差 xnum; // 新开一组ma[i]; // 新组的最小值设为当前元素}}r…...

vue的主要核心文件介绍

1.package.json 查看依赖包的版本 项目基本信息记录 项目标识&#xff1a;记录项目名称&#xff08;name 字段&#xff09;、版本号&#xff08;version 字段&#xff09;、描述&#xff08;description 字段&#xff09;等基础信息&#xff0c;方便识别和管理项目。例如&…...

从奖励到最优决策:动作价值函数与价值学习

从奖励到最优决策&#xff1a;动作价值函数与价值学习 价值学习动作价值函数对 U t U_t Ut​求期望得到动作价值函数动作价值函数的意义最优动作价值函数(Optimal Action-Value Function)如何理解 Q ∗ Q^* Q∗函数 价值学习的基本思想Deep Q-Network(DQN)DQN玩游戏的具体流程如…...

DApp实战篇:先用前端起个项目

前言 本篇将使用vue框架quasar起一个项目,为了防止大家不会使用quasar,本篇详细讲解一下quasar如何使用。 quasar 如果你不想深入了解quasar,其实你完全可以将quasar当成一个vue的组件库即可,它是一个类谷歌Material风格的UI组件库,但同时它又是一个基于vue的强大框架。…...

论文阅读11——V2V-LLM:采用多模式大型语言模型的车对车协同自动驾驶

原文地址&#xff1a; 2502.09980https://arxiv.org/pdf/2502.09980 论文翻译&#xff1a; V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models V2V-LLM&#xff1a;采用多模式大型语言模型的车对车协同自动驾驶 摘要&#…...

NLP 梳理01 — 文本预处理和分词

文章目录 一、说明二、文本预处理概述2.1 为什么要预处理文本&#xff1f;2.2 文本预处理的常见步骤2.3 什么是令牌化&#xff1f;2.4 为什么令牌化很重要&#xff1f; 三、分词类型四、用于分词化的工具和库五、实际实施六、编写函数以对文本进行标记七、结论 一、说明 本文总…...

Windows11 优雅的停止更新、禁止更新

网上有很多关闭自动更新的方法&#xff0c;改注册表、修改组策略编辑器、禁用Windows Update等等&#xff0c;大同小异&#xff0c;但最后奏效的寥寥无几&#xff0c;今天给大家带来另一种关闭win11自动更新的方法&#xff0c;亲测有效&#xff01; 1、winR 打开运行窗口&…...

Kafka 中的 offset 提交问题

手动提交和自动提交 我们来一次性理清楚&#xff1a;Kafka 中的自动提交 vs 手动提交&#xff0c;到底区别在哪&#xff0c;怎么用&#xff0c;什么场景适合用哪个&#x1f447; &#x1f9e0; 一句话总结 ✅ 自动提交&#xff1a;Kafka 每隔一段时间自动提交 offset ✅ 手动…...

PowerBI窗口函数与视觉计算

文章目录 一、 窗口函数1.1 OFFSET&#xff08;动态查询、求连续值&#xff09;1.1.1 不使用orderBy1.1.2 使用orderBy1.1.3 统计连续值的最大出现次数&#xff08;待补&#xff09; 1.2 INDEX&#xff08;静态查询&#xff09;1.3 WINDOW&#xff08;滚动求和、累计求和、帕累…...

代码随想录算法训练营Day22

回溯知识 力扣77.组合【medium】 一、回溯知识 1、定义 回溯法也可以叫做回溯搜索法&#xff0c;它是一种搜索的方式。回溯是递归的副产品&#xff0c;只要有递归就会有回溯。 2、回溯法的效率 回溯的本质是穷举&#xff0c;穷举所有可能&#xff0c;然后选出我们想要的答案…...

几种常见的HTTP方法之GET和POST

如大家所了解的&#xff0c;每条 HTTP 请求报文都必须包含一个请求方法&#xff0c;这个方法会告诉服务器要执行什么操作&#xff08;例如获取一个 Web 页面、运行一个网关程序、删除一个文件等&#xff09;。常见的几种 HTTP 方法如下&#xff1a; GET&#xff1a; 请求指定的…...

Nginx之https重定向为http

为了将Nginx中443端口的请求重定向到80端口&#xff0c;你可以按照以下步骤进行操作&#xff1a; ‌确认Nginx已经正确安装并运行‌&#xff1a; 确保Nginx服务已经在你的系统上安装并运行。你可以通过运行以下命令来检查Nginx的状态&#xff08;具体命令可能因操作系统而异&a…...

落地DevOps文化:运维变革的正确打开方式

落地DevOps文化:运维变革的正确打开方式 DevOps,这个近年来被谈论得沸沸扬扬的概念,是企业数字化转型的一把钥匙。然而,很多公司虽然喊着“要上DevOps”,却苦于如何真正落地。而DevOps不仅仅是技术工具的堆砌,更是一种文化的重塑。从我的经历来看,DevOps实施的核心在于…...

《C++后端开发最全面试题-从入门到Offer》目录

当今科技行业对C++开发者的需求持续高涨,从金融科技到游戏开发,从嵌入式系统到高性能计算,C++凭借其卓越的性能和灵活性始终占据着关键地位。然而,成为一名优秀的C++工程师并非易事,不仅需要扎实的语言基础,还要掌握现代C++特性、设计模式、性能优化技巧以及各种工业级开…...

24统计建模国奖论文写作框架2(机器学习+自然语言处理类)(附原文《高校负面舆情成因与演化路径研究》)

一、引言 研究背景及意义 文献综述 研究内容与创新点 二、高校负面舆情热点现状分析 案例数据的获取与处理 高效负面舆情热点词频分析 高效负面舆情热点变化趋势分析 三、高校负面舆情成因分析 高校负面舆情变量的选取与赋值 基于QCA方法的高校负面舆情成因分析 四、…...

论文阅读笔记——Deformable Radial Kernel Splatting

DRK 论文 DRK&#xff08;可变形径向核&#xff09;的核心创新正是通过极坐标参数化与切平面投影&#xff0c;对传统3D高斯泼溅&#xff08;3D-GS&#xff09;进行了多维度的优化。 传统 3DGS 依赖径向对称的高斯核&#xff0c;只能表示平滑、各向同性的形状&#xff08;球体、…...

网络编程—TCP/IP模型(IP协议)

上篇文章&#xff1a; 网络编程—TCP/IP模型&#xff08;TCP协议&#xff09;https://blog.csdn.net/sniper_fandc/article/details/147011479?fromshareblogdetail&sharetypeblogdetail&sharerId147011479&sharereferPC&sharesourcesniper_fandc&sharef…...

Android NDK C/C++交叉编译脚本

以下是 ​​Android (arm64-v8a) 交叉编译 C/C 项目的完整脚本模板​​&#xff0c;基于 NDK 工具链&#xff0c;支持自定义源文件编译为静态库/动态库/可执行文件&#xff1a; 1. 基础交叉编译脚本 (build_android.sh) bash 复制 #!/bin/bash# Android 交叉编译脚本 (arm64-…...

IS-IS-单区域的配置

一、IS-IS的概念 IS-IS&#xff08;Intermediate System to Intermediate System&#xff0c;中间系统到中间系统&#xff09;是一种‌链路状态路由协议‌&#xff0c;最初设计用于‌OSI&#xff08;Open Systems Interconnection&#xff09;参考模型‌的网络层&#xff08;CL…...

Java EE期末总结(第四章)

目录 一、ORM框架 二、MyBatis与Hibernate 1、 概念与设计理念 2、SQL 控制 3、学习成本 4、开发效率 三、MyBatisAPI 1、SqlSessionFactoryBuilder 2、SqlSessionFactory 3、SqlSession 四、MyBatis配置 1、核心依赖与日志依赖 2、建立.XML映射文件 3、建立映射…...

Kafka 的选举机制

Kafka 的选举机制在 Zookeeper 模式 和 KRaft 模式 下有所不同&#xff0c;主要体现在 领导选举 和 集群元数据管理 的方式上。下面详细介绍这两种模式下 Kafka 如何进行选举机制。 1. Zookeeper 模式下的选举机制 在早期的 Kafka 架构中&#xff0c;集群的元数据管理和选举机…...

FreeRTOS移植笔记:让操作系统在你的硬件上跑起来

一、为什么需要移植&#xff1f; FreeRTOS就像一套"操作系统积木"&#xff0c;但不同硬件平台&#xff08;如STM32、ESP32、AVR等&#xff09;的CPU架构和外设差异大&#xff0c;需要针对目标硬件做适配配置。移植工作就是让FreeRTOS能正确管理你的硬件资源。 二、…...

设计模式简述(十二)策略模式

策略模式 描述基本使用使用传统策略模式的缺陷以及规避方法 枚举策略描述基本使用使用 描述 定义一组策略&#xff0c;并将其封装起来到一个策略上下文中。 由调用者决定应该使用哪种策略&#xff0c;并且可以动态替换 基本使用 定义策略接口 public interface IStrategy {…...

如何在idea中快速搭建一个Spring Boot项目?

文章目录 前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热启动&#xff08;热部署&#xff09;结语 前言 Spring Boot 凭借其便捷的开发特性&#xff0c;极大提升了开发效率&#xff0c;为 Java 开发工作带来诸多便利。许多大伙伴希望快速…...

【注解简化配置的原理是什么】

注解&#xff08;Annotation&#xff09;简化配置的核心原理是将原本分散在外部文件&#xff08;如XML、properties&#xff09;中的元数据直接内嵌到代码中&#xff0c;通过声明式编程让框架或工具自动处理这些元数据&#xff0c;从而减少手动配置的复杂度。以下是其实现原理的…...

Livox-Mid-70雷达使用------livox_mapping建图

1.ubuntu20.04 和Livox mid 70 的IP设置 连接好Livox-Mid-70雷达,然后进行局域网配置 1.1 Livox mid 70的IP是已知的&#xff0c;即192.168.1.1XX, XX表示mid 70广播码的后两位 1.2 ubuntu 20.04的IP设置 a.查看本机IP名 ifconfig b.设置本机IP地址 sudo ifconfig enx00e04…...

Django中使用不同种类缓存的完整案例

Django中使用不同种类缓存的完整案例 推荐超级课程: 本地离线DeepSeek AI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录 Django中使用不同种类缓存的完整案例步骤1:设置Django项目步骤2:设置URL路由步骤3:视图级别…...

代码随想录算法训练营Day32| 完全背包问题(二维数组 滚动数组)、LeetCode 518 零钱兑换 II、377 组合总数 IV、爬楼梯(进阶)

理论基础 完全背包问题 在完全背包问题中&#xff0c;每种物品都有无限个&#xff0c;我们可以选择任意个数&#xff08;包括不选&#xff09;&#xff0c;放入一个容量为 W W W 的背包中。我们希望在不超过容量的情况下&#xff0c;最大化背包内物品的总价值。 完全背包&a…...

Django SaaS案例:构建一个多租户博客应用

Django SaaS案例:构建一个多租户博客应用 推荐超级课程: 本地离线DeepSeek AI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录 Django SaaS案例:构建一个多租户博客应用如果你正在从事一个SaaS(软件即服务)项目或一…...

静态库与动态库

静态库&#xff08;Static Library&#xff09; 定义&#xff1a;静态库&#xff08;如 .a 文件或 .lib 文件&#xff09;是编译时直接链接到可执行文件中的库。其代码和数据会被完整复制到最终的可执行文件中。 特点&#xff1a; 独立部署&#xff1a;无需依赖外部库文件。 …...

优选算法的妙思之流:分治——归并专题

专栏&#xff1a;算法的魔法世界 个人主页&#xff1a;手握风云 目录 一、归并排序 二、例题讲解 2.1. 排序数组 2.2. 交易逆序对的总数 2.3. 计算右侧小于当前元素的个数 2.4. 翻转对 一、归并排序 归并排序也是采用了分治的思想&#xff0c;将数组划分为多个长度为1的子…...

PDFBox渲染生成pdf文档

使用PDFBox可以渲染生成pdf文档&#xff0c;并且自定义程度高&#xff0c;只是比较麻烦&#xff0c;pdf的内容位置都需要手动设置x&#xff08;横向&#xff09;和y&#xff08;纵向&#xff09;绝对位置&#xff0c;但是每个企业的单据都是不一样的&#xff0c;一般来说都会设…...

flutter dio网络请求与json数据解析

在Flutter中&#xff0c;Dio 是一个功能强大且易于使用的网络请求库&#xff0c;用于处理HTTP请求和响应。与 http 包相比&#xff0c;Dio 提供了更多高级功能&#xff0c;例如拦截器、文件上传/下载、请求取消等。结合 json_serializable 或手动解析 JSON 数据&#xff0c;可以…...

7. RabbitMQ 消息队列——延时队列(Spring Boot + 安装message_exchange“延迟插件“ 的详细配置说明)的详细讲解

7. RabbitMQ 消息队列——延时队列(Spring Boot 安装message_exchange"延迟插件" 的详细配置说明)的详细讲解 文章目录 7. RabbitMQ 消息队列——延时队列(Spring Boot 安装message_exchange"延迟插件" 的详细配置说明)的详细讲解1. RabbitMQ 延时队列概…...

使用 MyBatis-Plus 实现高效的 Spring Boot 数据访问层

在开发 Spring Boot 应用时&#xff0c;数据访问是不可或缺的部分。为了提高开发效率并减少样板代码&#xff0c;MyBatis-Plus 提供了强大的功能&#xff0c;能够简化与数据库交互的操作。本文将详细介绍如何在 Spring Boot 中使用 MyBatis-Plus&#xff0c;并结合具体代码示例…...

Linux学习笔记——零基础详解:什么是Bootloader?U-Boot启动流程全解析!

零基础详解&#xff1a;什么是Bootloader&#xff1f;U-Boot启动流程全解析&#xff01; 一、什么是Bootloader&#xff1f;&#x1f4cc; 举个例子&#xff1a; 二、U-Boot 是什么&#xff1f;三、U-Boot启动过程&#xff1a;分为两个阶段&#x1f539; 第一阶段&#xff08;汇…...

网络初识 - Java

网络发展史&#xff1a; 单机时代&#xff08;独立模式&#xff09; -> 局域网时代 -> 广域网时代 -> 移动互联网时代 网络互联&#xff1a;将多台计算机链接再一起&#xff0c;完成数据共享。 数据共享的本质是网络数据传输&#xff0c;即计算机之间通过网络来传输数…...

(51单片机)独立按键控制流水灯LED流向(独立按键教程)(LED使用教程)

源代码 如上图将7个文放在Keli5 中即可&#xff0c;然后烧录在单片机中就行了 烧录软件用的是STC-ISP&#xff0c;不知道怎么安装的可以去看江科大的视频&#xff1a; 【51单片机入门教程-2020版 程序全程纯手打 从零开始入门】https://www.bilibili.com/video/BV1Mb411e7re?…...

QML输入控件: TextArea的应用(带行号的编辑器)

目录 引言&#x1f4da; 相关阅读&#x1f528;BUG修复实现思路代码解析主窗口代码自定义TextAreaItem组件行号显示部分文本编辑区域滚动同步 关键功能解析1. 动态更新行号2. 属性映射3. 外观定制 运行效果总结工程下载 引言 在开发Qt/QML应用程序时&#xff0c;文本编辑功能是…...

kafka 的存储文件结构

Kafka 的存储文件结构是其高吞吐量和高效性能的关键部分。Kafka 的存储结构是围绕 日志&#xff08;Log&#xff09; 的设计展开的&#xff0c;而每个 Kafka 分区&#xff08;Partition&#xff09; 都会以日志文件的形式存储。Kafka 采用了顺序写入、分段存储和索引文件的机制…...

FAISS原理深度剖析与LLM检索分割难题创新解决方案

一、FAISS核心技术解构&#xff1a;突破传统检索的次元壁 1.1 高维空间的降维艺术 FAISS&#xff08;Facebook AI Similarity Search&#xff09;通过独创的Product Quantization&#xff08;乘积量化&#xff09;技术&#xff0c;将高维向量空间切割为多个正交子空间。每个子…...

Windows操作系统安全配置(一)

1.操作系统和数据库系统管理用户身份标识应具有不易被冒用的特点&#xff0c;口令应有复杂度要求并定期更换 配置方法&#xff1a;运行“gpedit.msc”计算机配置->Windows设置->安全设置>帐户策略->密码策略: 密码必须符合复杂性要求->启用 密码长度最小值->…...

JavaScript promise实例——通过XHR获取省份列表

文章目录 需求和步骤代码示例效果 需求和步骤 代码示例 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><!-- 确保IE浏览器使用最新的渲染引擎 --><meta http-equiv"X-UA-Compatible" conten…...