当前位置: 首页 > news >正文

基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(一)

1. 背景

arXiv简介(参考DeepSeek大模型生成内容):

  • arXiv(发音同“archive”,/ˈɑːrkaɪv/)是一个开放的学术预印本平台,主要用于研究人员分享和获取尚未正式发表或已完成投稿的学术论文。
  • 创建于1991年,最初服务于高能物理领域,后扩展至数学、计算机科学、定量生物学、统计学等多学科。
  • 截至2023年,收录论文超200万篇,月均访问量超3000万次
  • 已成为许多领域(如理论物理、机器学习)的首发平台,例如AlphaGo、GPT等突破性研究均先发布于arXiv。
  • 支持按学科、关键词、作者等检索,并提供每日更新订阅服务。
  • arXiv通过即时共享研究成果,显著推动了开放科学运动,尤其在高动态领域(如人工智能)中成为不可或缺的工具。

由于arXiv的这些特点,对于做科技动态跟踪来说,arXiv就是一个重要的论文来源。通过对arXiv论文进行采集、处理和分析,可以帮助我们了解前沿热门技术分析技术研究的演化脉络构建学术合作网络辅助开展科研等。

2. 需求简介

计划通过大模型技术(RAG、DeepSearch等)帮助对论文进行阅读理解、提取关键信息,能够回答我们提出的问题,例如论文的主要创新点是什么,或者论文的实验结果相比之前的SOTA提升了多少百分点

整理一下技术需求,包括以下关键内容:

  1. arXiv论文数据采集:通过某种方式,实现最新论文的持续采集,从而获取最新的论文数据。
  2. 论文信息抽取:通过直接采集或对采集原始数据进行抽取的方式,获取论文题目、作者、摘要、正文、表格、图表、参考文献、附录等信息。
  3. 数据存储:基于某种数据库或文件系统,对下载及抽取的论文数据进行保存,从而方便查询、展示。需要设计合适的ID机制精确定位每一篇论文。
  4. 建立索引:为了支持从大量论文中快速查找最相关的论文,需要建立索引。以往主要是建立全文索引(比如基于ElasticSearch),当前大模型技术背景下,则还需要建立向量索引(基于某种向量数据库如Qdrant)。
  5. 跨模态检索:由于论文中的表格和图表信息也很重要,不仅需要对元信息和正文建立全文索引、文本向量化索引,还需要对表格、图表建立某种索引。目前先考虑对图表建立向量化索引,从而支持进行论文图片的语义匹配。
  6. 论文内容细粒度抽取识别:针对一些更复杂需求(如进行技术分析、构建技术发展脉络等),可能还需要对论文正文文本、表格、图表等进一步抽取识别;若需要建立学者合作网络,则需要对作者信息进行准备识别,并进行学者链接;若需要建立论文引用关系网络,则需要对参考文献部分进行解析,并与已有的论文库进行链接;等等。这类需求非常复杂本文暂不考虑。(在知识图谱时代,为了实现很多复杂需求,就必须做这些工作。但现在很多技术都可以被大模型技术代替。)

3. 准备工作

由于任务背景与需求较为复杂,需要开展数据调研,搞清楚到底可以从哪些渠道获取数据,根据数据源的情况确定采用什么样的技术实施方案。这是非常重要的,如果可以获取相对结构化的数据,可能就不需要做诸如PDF解析抽取等复杂工作。

3.1.数据源

3.1.1.arXiv官网网页

首先想到的是arXiv官网,提供了搜索和详情阅读功能。

搜索功能按照领域提供单独的URL,如计算机科学主页是https://arxiv.org/search/cs,其中cs是Computer Science的缩写。支持输入关键词,支持选择搜索的字段。
在这里插入图片描述
当我们输入关键词进行搜索,系统默认返回50篇。URL中显示了搜索关键词(query=RAG)、搜索字段(searchtype=all)、排序顺序(order=-announced_date_first,应该是指最初发布时间的倒序)、每页数量(size=50)。搜索结果中包含了论文编号(如2504.02458)、PDF格式链接、其他格式链接、子领域(cs.IR,即计算机科学领域的信息检索子领域)、主题(如Retrieval-Augmented Purifier for Robust LLM-Empowered Recommendation)、作者(如Liangbo Ning)、论文摘要、提交日期、最初发布时间(只到月份),以及备注(可能没有)。基于爬虫技术,可以快速实现论文搜索,获取指定关键词匹配的论文的基本信息。
在这里插入图片描述
打开PDF链接,可以看到浏览器直接显示了论文的PDF文件内容。可以注意到网页链接(以arxiv.org/pdf/为前缀,加上论文编号)非常简洁、有规律。
在这里插入图片描述
至此,我们可以通过搜索页面,获取指定关键词的论文的基本信息,然后根据ID下载PDF文件。
考虑到论文编号(ID)存在明显的规律,YYMM.nnnnn,年月+5位数字编号,因此如果需要大规模的采集,也许可以通过直接构造ID下载PDF格式论文。

3.1.2.arXiv官网API

实际上arXiv官网提供了搜索API,完全不需要我们去用传统爬虫的方式去获取论文信息。查看详情以及详情。

对于Python开发者,既可以直接通过requests库访问arXiv API(请求示例),还可以通过基于该API封装的python包进行,安装arxiv库即可使用,查看详情。arxiv库除了获取论文基本信息外,还提供了论文下载方法,可获取论文源文件和PDF文件,并且支持对搜索结果进行批量下载。样例数据 为API返回结果的样例(XML格式),对应的JSON格式样例。

3.1.3.arXiv官网RSS订阅

基于arXiv官网API可以根据指定关键词或ID进行论文搜索、下载,获取论文基本信息、源文件、PDF文件等。但是如何进行持续采集呢?如何自动获取最新的论文数据?针对这个需求,arXiv提供了RSS订阅,支持按照领域和子领域获取,查看RSS说明。RSS订阅数据每天更新一次,在美国东部时间的午夜,也就是北京时间12点-13点左右,理论上,可以让用户在下午看到当天中午以前发布的论文,时效性已经挺好的了。

RSSXML格式,可引入XML解析库进行解析。不过注意,RSS只包含论文基本信息,源文件和PDF文件需要单独下载(可以配合arxiv库进行)。
在这里插入图片描述

3.1.4.kaggle数据集

上述方法可以获取特定主题的论文以及最新的论文。如果需要获取更多历史数据呢?或者如果需要构建一个足够大的论文库以支持长时间跨度分析,有比搜索更好的方法吗?

首先想到的是暴力采集方法,通过构造论文编号,利用arxiv库进行基本信息获取和论文下载。不过这个需要进行大量的请求,考虑到arxiv网站的访问限制策略,可能需要花费很漫长的时间。

幸运的是,在kaggle平台上,官方机构提供了每周更新的数据集,可以直接从kaggle下载,或者通过谷歌云平台下载。目前JSON格式文件约4.6G(zip格式1.5G左右),每周下载一次,对带宽和处理要求都不高。注意,源文件或PDF文件仍需要单独下载。这里查看样例数据,其中包含了1000条数据供测试。
在这里插入图片描述

3.1.5 小结

综合来说,可以采取一次性下载kaggle数据集+RSS订阅跟踪的方式,实现最新论文元数据的持续获取。对于源文件和PDF文件,则需要综合考虑业务需求和资源情况。按照每月3万篇、每个PDF文件3MB估算,则每天需要下载3GB;在不考虑IP资源池的情况下,每次请求需要间隔3秒左右,约需要1个小时左右,总体压力不大。对于超过200万历史数据,需要下载6TB左右,按1MB/s下载速度估算需要140天左右。

3.2.信息抽取

上述方法提供了论文的基本信息,但没有正文、表格、图表、参考文献、附录等信息,需要基于原始数据进行信息抽取。

3.2.1.基于MinerU的PDF内容抽取

一开始以为arXiv仅提供PDF格式文件,以及考虑到大部分论文平台都是提供PDF格式文件,因此考虑基于PDF进行抽取。由于PDF格式特殊性,虽然有不少PDF解析库(如pdfminerpdfplumberCamelotApache PDFBox等),但是效果不佳。甚至有针对PDF解析的大模型技术研究。

MinerU是一款基于大模型的文档内容提取工具,代码开源,效果较好。MinerU可以直接解析生成Markdown格式内容,可以用于大模型的输入(RAG的上下文),这也是我们考虑使用MinerU的一个重要原因。在此之前,已经在SmartETL中实现了markdown格式解析为层级化JSON结构,可以方便构建层级化索引。

考虑到文档解析的广泛需求,将MinerU部署为docker镜像,并进行API封装,方便调用。

实验测试发现,MinerU(没有GPU加速)抽取一页需要大约20秒,对于20页的论文,则需要7分钟左右。

3.2.2.arXiv官网HTML网页内容抽取

其实,arXiv除了提供PDF格式,还提供源文件以及HTML文件。相比PDF抽取,HTML解析会简单、高效和准确得多。需要注意:(1)HTML页面的URL不仅有ID编号,还有一个版本号(如v1);(2)少量论文可能没有对应的HTML。
在这里插入图片描述
通过浏览器审查,发现HTML页面结构设计规范,便于进行抽取:
在这里插入图片描述
另外对于论文中图片,HTML页面是通过图片链接的方式包含,因此需要通过解析HTML构造图片绝对URL,进而下载图片。

相关文章:

基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(一)

1. 背景 arXiv简介(参考DeepSeek大模型生成内容): arXiv(发音同“archive”,/ˈɑːrkaɪv/)是一个开放的学术预印本平台,主要用于研究人员分享和获取尚未正式发表或已完成投稿的学术论文。创…...

Leetcode 3508. Implement Router

Leetcode 3508. Implement Router 1. 解题思路2. 代码实现 题目链接:3508. Implement Router 1. 解题思路 这一题就是按照题意写作一下对应的函数即可。 我们需要注意的是,这里,定义的类当中需要包含以下一些内容: 一个所有i…...

Nmap全脚本使用指南!NSE脚本全详细教程!Kali Linux教程!(六)

脚本类别 discovery(发现) sip-methods 已演示过。这里不再演示。 436. smb-enum-domains 尝试枚举系统上的域及其策略。这通常需要凭据,但 Windows 2000 除外。除了实际域之外,通常还会显示“内置”域。Windows 在域列表中返…...

了解适配器模式

目录 适配器模式定义 适配器模式角色 适配器模式的实现 适配器的应用场景 适配器模式定义 适配器模式,也叫包装模式。将一个类的接口,转换成客户期望的另一个接口,适配器让原本接口不兼容的类可以合作无间。 简单来说就是目标类不能直接…...

C语言:几种字符串常用的API

字符串的常用操作 C 语言的标准库 <string.h> 提供了很多用于处理字符串的函数。 1. strlen - 计算字符串长度 size_t strlen(const char *str);功能&#xff1a;计算字符串 str 的长度&#xff0c;不包含字符串结束符 \0。 2.strcpy - 复制字符串 char *strcpy(char…...

Django构建安全中间件实用示例

Django安全中间件实用指南 推荐超级课程: 本地离线DeepSeek AI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录 Django安全中间件实用指南什么是Django中的中间件?Django中的安全中间件特性配置示例配置示例配置示例示…...

排序算法(快速排序,选择排序......)【泪光2929】

hello&#xff0c;大家好&#xff01;今天给大家分享一下各种排序&#xff1a; 1&#xff0c;选择排序 首先从原始数组中 选择最小的1个数据&#xff0c;将其和位于第1个位置的数据交换。接着从剩下的n-1个数据中选择次小的1个元素&#xff0c;将其和第2个位置的数据交换然后…...

UE5学习记录part14

第17节 enemy behavior 173 making enemies move: AI Pawn Navigation 按P查看体积 So its very important that our nav mesh bounds volume encompasses all of the area that wed like our 因此&#xff0c;我们的导航网格边界体积必须包含我们希望 AI to navigate in and …...

树莓派llama.cpp部署DeepSeek-R1-Distill-Qwen-1.5B

树莓派的性能太低了&#xff0c;我们需要对模型进行量化才能使用&#xff0c;所以现在的方案是&#xff0c;在windows上将模型格式和量化处理好&#xff0c;然后再将模型文件传输到树莓派上。而完成上面的操作就需要部署llama.cpp。 三、环境的准备 这里要求大家准备…...

Llama 4 最新发布模型分析

1. 引言 在2025年4月5日&#xff0c;Meta公司正式发布了最新一代大型语言模型Llama 4系列&#xff0c;包括Llama 4 Scout和Llama 4 Maverick。该模型添加了多模态支持&#xff0c;能够处理文本、图像、音频和视频数据&#xff0c;实现更加充分的AI功能应用。 2. 技术特性 2.1…...

Llama 4 家族:原生多模态 AI 创新的新时代开启

0 要点总结 Meta发布 Llama 4 系列的首批模型&#xff0c;帮用户打造更个性化多模态体验Llama 4 Scout 是有 170 亿激活参数、16 个专家模块的模型&#xff0c;同类中全球最强多模态模型&#xff0c;性能超越以往所有 Llama 系列模型&#xff0c;能在一张 NVIDIA H100 GPU 上运…...

如何让eDrawings html文件在Chrome浏览器上展示——allWebPlugin中间件扩展

应用背景 eDrawing html文件是仅可在 Internet Explorer 5.5 和以上版本中查阅&#xff0c;由于IE浏览器限制&#xff0c;目前使用非常不方便&#xff0c;为了不修改html的请提下&#xff0c;在chrome浏览器查阅原本html文件&#xff0c;可使用安装allWebPlugin中间件扩展。 a…...

【内网安全】DHCP 饿死攻击和防护

正常情况&#xff1a;PC2可以正常获取到DHCP SERVER分别的IP地址查看DHCP SERCER 的ip pool地址池可以看到分配了一个地址、Total 253个 Used 1个 使用kali工具进行模拟攻击 进行DHCP DISCOVER攻击 此时查看DHCP SERVER d大量的抓包&#xff1a;大量的DHCP Discover包 此时模…...

keepalived高可用介绍

keepalived 是 Linux 一个轻量级的高可用解决方案&#xff0c;提供了心跳检测和资源接管、检测集群中的系统服务&#xff0c;在集群节点间转移共享IP 地址的所有者等。 工作原理 keepalived 通过 VRRP&#xff08;virtual router redundancy protocol&#xff09;虚拟路由冗余…...

基于大模型的脑梗死全流程诊疗技术方案

目录 《基于大模型的脑梗死全流程诊疗技术方案》一、核心算法实现1. 多模态特征融合算法(术前规划)2. 术中实时预警算法二、系统模块设计1. 术前规划系统流程图2. 术中实时监控系统架构三、技术验证方案1. 模型验证矩阵2. 实验验证设计四、关键技术创新点五、工程实现规范1. …...

ngx_timezone_update

定义在 src\os\unix\ngx_time.c void ngx_timezone_update(void) { #if (NGX_FREEBSD)if (getenv("TZ")) {return;}putenv("TZUTC");tzset();unsetenv("TZ");tzset();#elif (NGX_LINUX)time_t s;struct tm *t;char buf[4];s tim…...

Redis 热key问题怎么解决?

Redis 热 Key 问题分析与解决方案 热 Key(Hot Key)是指被高频访问的某个或多个 Key,导致单个 Redis 节点负载过高,可能引发性能瓶颈甚至服务崩溃。以下是常见原因及解决方案: 1. 热 Key 的常见原因 突发流量:如明星八卦、秒杀商品、热门直播等场景。缓存设计不合理:如全…...

JavaWeb(楠)

JavaWeb21-1&#xff1a;Java Web开发的地位、Tomcat服务器 Java Web开发概述 主流地位&#xff1a;Java可用于移动端、桌面应用、机器学习等多个领域&#xff0c;但在Web开发领域优势显著&#xff0c;是Java最主流的研发方向。市场上95%以上的Web端开发都使用Java&#xff0c…...

批量将 JSON 转换为 Excel/思维导入等其它格式

json 格式相信对大家来说都不陌生&#xff0c;这是一种轻量级的结构化数据&#xff0c;可以对对象进行描述。json 格式也是一种普通的文本文件格式&#xff0c;用记事本就能够打开编辑 json 格式的文件&#xff0c;可以很方便的转换为其他格式。今天要给大家介绍的就是如何将 j…...

C# Winform 入门(13)之通过WebServer查询天气预报

展示 控件 添加WebServer 右键项目> 添加引用> 添加服务引用 天气预报URL: WeatherWebService Web 服务WeatherWebService Web 服务http://www.webxml.com.cn/WebServices/WeatherWebService.asmx 查询按钮实现 private void btn_Inquiry_Click(object sender, EventA…...

算法思想之滑动窗口(一)

欢迎拜访&#xff1a;雾里看山-CSDN博客 本篇主题&#xff1a;算法思想之滑动窗口(一) 发布时间&#xff1a;2025.4.6 隶属专栏&#xff1a;算法 目录 滑动窗口算法介绍核心思想时间复杂度适用场景注意事项 例题长度最小的子数组题目链接题目描述算法思路代码实现 无重复字符的…...

爬虫工程师无意义的活

30岁的年龄;这个年龄大家都是成年人;都是做父母的年龄了;你再工位上的心态会发生很大变化的; 爬虫工程师基本都是如此;社会最low的一帮连销售都做不了的;单子都开不出来的然后转行做爬虫工程师的;这样的人基本不太和社会接触; 你作为爬虫初级工程师就敲着键盘然后解析着html;…...

DeepSeek 关联公司公布新型数据采集专利 提升数据采集效率与质量

4 月 1 日&#xff0c;国家知识产权局公布了一项由 DeepSeek 关联公司杭州深度求索人工智能基础技术研究有限公司申请的专利&#xff0c;名为 “一种广度数据采集的方法及其系统”&#xff0c;公开号为 CN 119739917 A&#xff0c;申请日期可追溯至 2024 年 12 月。此专利的发布…...

实际犯错以及复盘1

Ds1302 需要两个 一个Set_Rtc 一个Read_Rtc : 本质 read是 85-2i 的 写入是84-2i 然后 写入的时候 是需要对 0x8e 进行 0x00 和0x80进行解开和 锁定的开头结尾。 使用的时候 赋值给ucRtc[i] 然后 主函数使用的时候 需要直接写个(ucRtc) 因为unsigned char* 默认的…...

初探:简道云系统架构及原理

一、系统架构概述 简道云作为一款低代码开发平台&#xff0c;其架构设计以模块化和云端协同为核心&#xff0c;主要分为以下层次&#xff1a; 1. 前端层 可视化界面&#xff1a;基于Web的拖拽式表单设计器&#xff0c;支持动态渲染&#xff08;React/Vue框架&#xff09;。多…...

Nginx负载均衡时如何为指定ip配置固定服务器

大家在用Nginx做负载均衡时&#xff0c;一般是采用默认的weight权重指定或默认的平均分配实现后端服务器的路由&#xff0c;还有一种做法是通过ip_hash来自动计算进行后端服务器的路由&#xff0c;但最近遇到一个问题&#xff0c;就是希望大部分用户采用ip_hash自动分配后端服务…...

玩转MCP:用百度热搜采集案例快速上手并接入cline

MCP的大火&#xff0c;让MCP服务器开发也变得热门&#xff0c;上一篇文章: 手搓MCP客户端&服务端&#xff1a;从零到实战极速了解MCP是什么&#xff1f; 手搓了一个极其简单的小场景的MCP实战案例&#xff0c;详细的安装环境及操作步骤已经讲过了&#xff0c;本文不在重复…...

003集——《利用 C# 与 AutoCAD API 开发 WPF 随机圆生成插件》(侧栏菜单+WPF窗体和控件+MVVM)

本案例聚焦于开发一款特色鲜明的 AutoCAD 插件。其核心功能在于&#xff0c;用户在精心设计的 WPF 控件界面中输入期望生成圆的数量&#xff0c;完成输入后&#xff0c;当用户点击 “生成” 按钮&#xff0c;一系列联动操作随即展开。通过数据绑定与命令绑定这一精妙机制&#…...

设计模式简述(十)责任链模式

责任链模式 描述基本使用使用 描述 如果一个请求要经过多个类似或相关处理器的处理。 可以考虑将这些处理器添加到一个链上&#xff0c;让请求逐个经过这些处理器进行处理。 通常&#xff0c;在一个业务场景下会对整个责任链进行初始化&#xff0c;确定这个链上有哪些Handler…...

分组(二分查找)

#include <bits/stdc.h> using namespace std; const int N1e55; int a[N]; int n,k;bool f(int x){int num1;int ma[1];for(int i2;i<n;i){if(a[i]-m>x){ // 当前元素加入当前组会超过极差 xnum; // 新开一组ma[i]; // 新组的最小值设为当前元素}}r…...

vue的主要核心文件介绍

1.package.json 查看依赖包的版本 项目基本信息记录 项目标识&#xff1a;记录项目名称&#xff08;name 字段&#xff09;、版本号&#xff08;version 字段&#xff09;、描述&#xff08;description 字段&#xff09;等基础信息&#xff0c;方便识别和管理项目。例如&…...

从奖励到最优决策:动作价值函数与价值学习

从奖励到最优决策&#xff1a;动作价值函数与价值学习 价值学习动作价值函数对 U t U_t Ut​求期望得到动作价值函数动作价值函数的意义最优动作价值函数(Optimal Action-Value Function)如何理解 Q ∗ Q^* Q∗函数 价值学习的基本思想Deep Q-Network(DQN)DQN玩游戏的具体流程如…...

DApp实战篇:先用前端起个项目

前言 本篇将使用vue框架quasar起一个项目,为了防止大家不会使用quasar,本篇详细讲解一下quasar如何使用。 quasar 如果你不想深入了解quasar,其实你完全可以将quasar当成一个vue的组件库即可,它是一个类谷歌Material风格的UI组件库,但同时它又是一个基于vue的强大框架。…...

论文阅读11——V2V-LLM:采用多模式大型语言模型的车对车协同自动驾驶

原文地址&#xff1a; 2502.09980https://arxiv.org/pdf/2502.09980 论文翻译&#xff1a; V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models V2V-LLM&#xff1a;采用多模式大型语言模型的车对车协同自动驾驶 摘要&#…...

NLP 梳理01 — 文本预处理和分词

文章目录 一、说明二、文本预处理概述2.1 为什么要预处理文本&#xff1f;2.2 文本预处理的常见步骤2.3 什么是令牌化&#xff1f;2.4 为什么令牌化很重要&#xff1f; 三、分词类型四、用于分词化的工具和库五、实际实施六、编写函数以对文本进行标记七、结论 一、说明 本文总…...

Windows11 优雅的停止更新、禁止更新

网上有很多关闭自动更新的方法&#xff0c;改注册表、修改组策略编辑器、禁用Windows Update等等&#xff0c;大同小异&#xff0c;但最后奏效的寥寥无几&#xff0c;今天给大家带来另一种关闭win11自动更新的方法&#xff0c;亲测有效&#xff01; 1、winR 打开运行窗口&…...

Kafka 中的 offset 提交问题

手动提交和自动提交 我们来一次性理清楚&#xff1a;Kafka 中的自动提交 vs 手动提交&#xff0c;到底区别在哪&#xff0c;怎么用&#xff0c;什么场景适合用哪个&#x1f447; &#x1f9e0; 一句话总结 ✅ 自动提交&#xff1a;Kafka 每隔一段时间自动提交 offset ✅ 手动…...

PowerBI窗口函数与视觉计算

文章目录 一、 窗口函数1.1 OFFSET&#xff08;动态查询、求连续值&#xff09;1.1.1 不使用orderBy1.1.2 使用orderBy1.1.3 统计连续值的最大出现次数&#xff08;待补&#xff09; 1.2 INDEX&#xff08;静态查询&#xff09;1.3 WINDOW&#xff08;滚动求和、累计求和、帕累…...

代码随想录算法训练营Day22

回溯知识 力扣77.组合【medium】 一、回溯知识 1、定义 回溯法也可以叫做回溯搜索法&#xff0c;它是一种搜索的方式。回溯是递归的副产品&#xff0c;只要有递归就会有回溯。 2、回溯法的效率 回溯的本质是穷举&#xff0c;穷举所有可能&#xff0c;然后选出我们想要的答案…...

几种常见的HTTP方法之GET和POST

如大家所了解的&#xff0c;每条 HTTP 请求报文都必须包含一个请求方法&#xff0c;这个方法会告诉服务器要执行什么操作&#xff08;例如获取一个 Web 页面、运行一个网关程序、删除一个文件等&#xff09;。常见的几种 HTTP 方法如下&#xff1a; GET&#xff1a; 请求指定的…...

Nginx之https重定向为http

为了将Nginx中443端口的请求重定向到80端口&#xff0c;你可以按照以下步骤进行操作&#xff1a; ‌确认Nginx已经正确安装并运行‌&#xff1a; 确保Nginx服务已经在你的系统上安装并运行。你可以通过运行以下命令来检查Nginx的状态&#xff08;具体命令可能因操作系统而异&a…...

落地DevOps文化:运维变革的正确打开方式

落地DevOps文化:运维变革的正确打开方式 DevOps,这个近年来被谈论得沸沸扬扬的概念,是企业数字化转型的一把钥匙。然而,很多公司虽然喊着“要上DevOps”,却苦于如何真正落地。而DevOps不仅仅是技术工具的堆砌,更是一种文化的重塑。从我的经历来看,DevOps实施的核心在于…...

《C++后端开发最全面试题-从入门到Offer》目录

当今科技行业对C++开发者的需求持续高涨,从金融科技到游戏开发,从嵌入式系统到高性能计算,C++凭借其卓越的性能和灵活性始终占据着关键地位。然而,成为一名优秀的C++工程师并非易事,不仅需要扎实的语言基础,还要掌握现代C++特性、设计模式、性能优化技巧以及各种工业级开…...

24统计建模国奖论文写作框架2(机器学习+自然语言处理类)(附原文《高校负面舆情成因与演化路径研究》)

一、引言 研究背景及意义 文献综述 研究内容与创新点 二、高校负面舆情热点现状分析 案例数据的获取与处理 高效负面舆情热点词频分析 高效负面舆情热点变化趋势分析 三、高校负面舆情成因分析 高校负面舆情变量的选取与赋值 基于QCA方法的高校负面舆情成因分析 四、…...

论文阅读笔记——Deformable Radial Kernel Splatting

DRK 论文 DRK&#xff08;可变形径向核&#xff09;的核心创新正是通过极坐标参数化与切平面投影&#xff0c;对传统3D高斯泼溅&#xff08;3D-GS&#xff09;进行了多维度的优化。 传统 3DGS 依赖径向对称的高斯核&#xff0c;只能表示平滑、各向同性的形状&#xff08;球体、…...

网络编程—TCP/IP模型(IP协议)

上篇文章&#xff1a; 网络编程—TCP/IP模型&#xff08;TCP协议&#xff09;https://blog.csdn.net/sniper_fandc/article/details/147011479?fromshareblogdetail&sharetypeblogdetail&sharerId147011479&sharereferPC&sharesourcesniper_fandc&sharef…...

Android NDK C/C++交叉编译脚本

以下是 ​​Android (arm64-v8a) 交叉编译 C/C 项目的完整脚本模板​​&#xff0c;基于 NDK 工具链&#xff0c;支持自定义源文件编译为静态库/动态库/可执行文件&#xff1a; 1. 基础交叉编译脚本 (build_android.sh) bash 复制 #!/bin/bash# Android 交叉编译脚本 (arm64-…...

IS-IS-单区域的配置

一、IS-IS的概念 IS-IS&#xff08;Intermediate System to Intermediate System&#xff0c;中间系统到中间系统&#xff09;是一种‌链路状态路由协议‌&#xff0c;最初设计用于‌OSI&#xff08;Open Systems Interconnection&#xff09;参考模型‌的网络层&#xff08;CL…...

Java EE期末总结(第四章)

目录 一、ORM框架 二、MyBatis与Hibernate 1、 概念与设计理念 2、SQL 控制 3、学习成本 4、开发效率 三、MyBatisAPI 1、SqlSessionFactoryBuilder 2、SqlSessionFactory 3、SqlSession 四、MyBatis配置 1、核心依赖与日志依赖 2、建立.XML映射文件 3、建立映射…...

Kafka 的选举机制

Kafka 的选举机制在 Zookeeper 模式 和 KRaft 模式 下有所不同&#xff0c;主要体现在 领导选举 和 集群元数据管理 的方式上。下面详细介绍这两种模式下 Kafka 如何进行选举机制。 1. Zookeeper 模式下的选举机制 在早期的 Kafka 架构中&#xff0c;集群的元数据管理和选举机…...