当前位置: 首页 > news >正文

大模型数据采集和预处理:把所有数据格式,word、excel、ppt、jpg、pdf、表格等转为数据

大模型数据采集和预处理:把所有数据格式,word、excel、ppt、jpg、pdf、表格等转为数据

    • 文本/图片/表格,分别提取处理
    • 工具选择
    • 不同格式文件,使用不同工具处理
      • 1. 确认目标
      • 2. 分析过程(目标-手段分析法)
      • 3. 实现步骤
      • 4. 代码封装
      • 效果展示
      • 金手指
    • 训练 OCR,提升识别准确率

 


数据采集和预处理:文档格式统一化、图表数据结构化、文本化处理。

 


文本/图片/表格,分别提取处理

在这里插入图片描述
核心做法

  1. 将 Word / PPT / PDF 等不同类型的文档,统一转成 HTML 或者 Markdown 格式。
  2. 基于统一后的格式,从文档中分离出 文本内容图片(含图表截图)表格
  3. 对拆分出来的图片和表格做进一步的 OCR / 表格解析等处理,将其转换为文本(或结构化数据),最后与原有的文本合并或建立关联。

优点

  1. 保留文档内容结构:因为先转为 HTML 或 Markdown,可以较好地保留文档的层级结构、段落、样式等。
  2. 灵活处理:可以针对文字、图片、表格分别采取适合的处理方式。例如:
    • 文本直接拿来做 NLP 预处理;
    • 图片和图表用专门的 OCR 或结构化表格提取工具。
  3. 精细度较高:文字和图表一分为二,可以更精细地进行后续处理,便于标注、检索或微调(Finetune / RAG)。

缺点

  1. 开发成本相对较高:要编写或调用各种解析、转换脚本(doc -> html,pdf -> html 等),还要对拆出来的图片、表格做分别提取。
  2. 依赖工具链:对于 PPT 等复杂文档,直接转 HTML/Markdown 可能并非一帆风顺,需依赖商业或开源工具,可能会遇到兼容性问题。
  3. 图片+表格的后处理:对图表进行 OCR 或表格解析,需要依赖额外的处理模块,处理效果也取决于 OCR / 表格解析工具的准确率。

适用场景

  • 需要保留文档原有的层级结构、目录、章节等信息,并对文本和图表进行精细化处理的场景。
  • 数据源多样(Word、PPT、PDF、扫描件),且对最终提取精度要求较高。
  • 团队可以投入一些时间精力,编写、整合比较完整的抽取工具链。

 


工具选择

链接:https://lightpdf.cn/api-pricing

如果数量不大,一个月会员 30 块就够了。

如果很大,就需要 API,89 块可以识别 500 张图。

识别效果,还可以,有格式保留:

在这里插入图片描述
识别后:

一、最常用的快捷键:
F5刷新	DELETE射除	TAB改变焦点
CTRL.C复制	CTRL+X剪切	CTRL+V粘贴
CTRL"全选	CTRL+Z撤精	CTRL+S 碗
ALT+F4关闭	CTRL+Y恢复	ALT+TAB 切换
CTRL+F5强制刷新	CTRL+W关闭	CTRL+F杳找
SHIFT+DELETE永久剧除	CTRL+ALT+DEL任务管理	SHIFT+TAB反向切换
CTRL♦空格中英文*!入切换	CTRL+Shrtt输入法切换	CTRL+ESC开始菜单
CTRL.ALT.ZQQ快速提取 消息	CTRL+ALT+AQQ破图工具	CTRL+ENTERQQ 发消息
【窗口】+D显示桌面	【限口】+R打开“运行	r窗口】+L解暮候定
[«11] *E打开“我的电脑”	【窗口】+F搜索文件或文件 夹	[«□] “AB项H切换
cmd…(MD命令提示符

也可以自己部署 Github 的开源项目:

  • https://github.com/Unstructured-IO/unstructured

我发现这个 Unstructured 开源项目,准确率比 付费 OCR 还要高。

Unstructured-IO:

  1. 更像是一个文档处理的全功能工具箱:
    • 可以处理多种格式文档(PDF、Word、Excel、HTML等)
    • 内部集成了多种处理能力(包括但不限于OCR)
    • 提供统一的API接口
  2. 主要优势是:
    • 部署简单(Docker一键部署)
    • API调用方便
    • 处理格式全面
  3. 适用场景:
    • 企业内部搭建统一的文档处理服务
    • 需要处理多种格式混合的场景
    • 对部署和维护要求不高的场景

 


不同格式文件,使用不同工具处理

1. 确认目标

主要目标:如何将不同格式的企业文档(Word/Excel/PPT等)高效转换为适用于RAG或模型微调的结构化数据集?

2. 分析过程(目标-手段分析法)

  1. 如何处理多种格式文档?
    • 问题:如何统一处理不同格式的文件?

    • 解决手段:使用智能分类系统,自动识别文件类型并选择相应处理流程

    • 具体实现:

# 文件处理配置参数
parsing_output = my_lib.add_files(temp_dir,                   # 临时目录路径,存放待处理的文件chunk_size=400,             # 文本块的目标大小(tokens),用于分割长文本max_chunk_size=600,         # 文本块的最大大小限制,防止块过大smart_chunking=1,           # 启用智能分块,会在自然断句处分割文本get_tables=True,            # 是否提取文档中的表格get_images=True             # 是否提取文档中的图片
)对提取的内容(包括文本、表格、图像)及其元数据进行整合,生成一个结构化的 JSON 格式。这个 JSON 文件包含了诸如文本内容、文档源、创建日期、修改日期等信息。该 JSON 格式可以存储丰富的文档信息,便于后续的检索和生成任务。
  1. 如何处理文档中的不同类型内容?
    • 问题:如何提取和处理文本、表格、图片等不同内容?
    • 解决手段:
      • 文本:智能分块(400-600 tokens)
      • 表格:转换为CSV格式
      • 图片:使用OCR技术提取文本
    • 具体实现:
文档格式分类:文本(如 Word):直接提取文本内容。
表格(如 Excel):提取表格数据并存储为 CSV 格式。
图像(如 PPT):使用 OCR(光学字符识别)提取图像中的文本。文档的处理方式根据内容类型分类,文本部分直接提取,表格部分转换为 CSV 格式,图像部分使用 OCR 技术提取文本。对文本进行智能化分块,以便适应模型的输入限制。例如,将每个块限制为 400-600 个 tokens。# 表格处理
extracted_tables = Query(lib).export_all_tables(output_fp=lib.output_path)# OCR处理
lib.run_ocr_on_images(add_to_library=True, chunk_size=400, min_size=10)OCR 用于从图片中提取文本。在处理图像时,会设置一些参数,例如:最小尺寸、实时进度显示等,以确保 OCR 过程的高效性和精度。
  1. 如何保证数据的结构化和关联性?
    • 问题:如何将不同来源的内容整合为统一格式?
    • 解决手段:使用JSON格式存储,包含完整元数据
    • 具体实现:
# JSON输出数据结构
{"block_ID": 0,                    // 文本块唯一ID  "doc_ID": 1,                      // 文档ID"content_type": "text",           // 内容类型"file_type": "docx",             // 文件类型"text_search": "实际文本内容...",  // 文本内容"external_files": "",            // 关联文件"header_text": "",               // 标题文本"modified_date": "",             // 修改日期"created_date": ""               // 创建日期
}
  1. 如何准备训练数据集?
    • 问题:如何将处理后的数据转换为训练集?
    • 解决手段:自动分割训练/测试/验证集
    • 具体实现:
ds = Datasets(library=lib,                   # 输入的文档库实例,包含所有处理后的文档数据testing_split=0.10,            # 测试集占比10%,用于评估模型性能validation_split=0.10,         # 验证集占比10%,用于模型调优,防止过拟合ds_id_mode="random_number"     # 使用随机数作为数据集样本ID的生成方式
)

3. 实现步骤

  1. 环境准备:

    • Python 3.10
    • conda环境
    • 必要依赖安装
  2. 数据处理流程:

    • 文档解压与预处理
    • 内容智能分类
    • 分类处理(文本/表格/图片)
    • JSON格式整合
    • 数据集生成
  3. 数据集创建:

    • 设置分割比例(80/10/10)
    • 设置token限制(100-500)
    • 生成最终数据集

4. 代码封装

效果展示

  • 输入:各种格式的企业文档(Word/Excel/PPT)
  • 过程:自动化处理流程,无需人工干预
  • 方法:智能分类 + 专项处理 + 数据整合
  • 结果:结构化的JSON格式数据集
  • 数字:
    • 文本块大小:400-600 tokens
    • 训练集分割:80/10/10
    • 最小token数:100
    • 最大token数:500

金手指

这个系统的金手指是"智能化处理机制":

  1. 智能分类:自动识别文档类型和内容类型
  2. 专门处理:针对不同类型内容使用最适合的处理方法
  3. 统一输出:所有处理结果都转换为统一的JSON格式

应用案例:

  1. 企业财报自动化处理
  2. 产品文档库建设
  3. 技术文档管理系统
  4. 企业知识库建设
  5. 多语言文档处理

这个框架可以帮助任何需要将非结构化文档转换为结构化数据的场景,特别适合企业级应用。

 


训练 OCR,提升识别准确率

如果是特殊的医疗表格、艺术字体、手写公式,基本上要自己 OCR 模型(YOLOX)训练。

 


相关文章:

大模型数据采集和预处理:把所有数据格式,word、excel、ppt、jpg、pdf、表格等转为数据

大模型数据采集和预处理:把所有数据格式,word、excel、ppt、jpg、pdf、表格等转为数据 文本/图片/表格,分别提取处理工具选择不同格式文件,使用不同工具处理1. 确认目标2. 分析过程(目标-手段分析法)3. 实现步骤4. 代码封装效果展…...

k8s修改存储目录-介绍

k8s修改存储目录-介绍 文章目录 k8s修改存储目录-介绍总结:介绍指定 Docker 或 containerd 镜像和容器存储目录Docker 存储目录containerd 存储目录 指定 Kubelet 的存储目录指定 Pod 和容器存储目录 docker 运行时,迁移目录实操:https://blo…...

【电源专题】为什么测试电源的SW波形上冲振荡之前的0V电位要先来个小的下降

在同步电源的开关节点SW波形测试中,你可能会发现周期性的SW波形在上升前的一小段时间时间内会有一个小小的下跌,这个下跌会低于0V。那么这个下跌是怎么来的呢? 如下所示为某降压转换器的SW开关节点波形: 其展开后可以看到在上升之前有20ns左右的时间,SW电压是下跌…...

常见的反规范化技术

在数据库设计中,数据规范化和反规范化是两种重要的策略,它们在一定程度上存在权衡。规范化通过组织表结构,减少数据冗余,提高数据一致性和降低更新异常,使数据存储更加高效、可靠。然而,过度的规范化会导致…...

Linux中隐藏操作身法

从历史记录中删除指定的命令 假设历史记录中已经包含了一些你不希望记录的命令。这种情况下我们怎么办?很简单。通过下面的命令来删除: history | grep "keyword"例如:history | grep set o history 批量第二条和第四条删除: sed…...

Transformer知识梳理

Transformer知识梳理 文章目录 Transformer知识梳理什么是Transformer?语言模型迁移学习 Transformer结构注意力层原始结构 总结 什么是Transformer? 语言模型 Transformer模型本质上都是预训练语言模型,大部分采用自监督学习(S…...

Nexus Message Transaction Services(MTS)

Nexus 系列交换机遇到以下情形时,可以尝试查看是否是 MTS 消息卡在缓冲区过多,因为 MTS 负责处理模块内以及跨模块(包括跨管理引擎)的各服务之间的消息路由和排队。 • CPU 高 • 命令行无响应、响应慢 • 控制平面中断 • 流量问…...

网络编程基础:连接Java的秘密网络

1 网络编程的重要性 网络编程允许Java应用程序与其他计算机或设备进行通信。这包括从简单的数据传输到复杂的分布式系统和Web服务。 2 Java网络编程的核心类 Java提供了多个类来支持网络编程: InetAddress:表示网络上的IP地址。 URL:表示统…...

uniapp中判断设备类型

全局变量: 在 UniApp 中,你可以通过 uni.getDeviceInfo 获取设备信息,并将设备类型全局存放。通常,这些信息可以存放在 app.vue 的全局变量中,以便在整个应用中访问。 以下是如何在 app.vue 中实现这一功能的完整代码…...

数据可视化分析详解

数据可视化分析是一种通过图形、表格、图标和其他视觉元素来呈现数据的方式,使得数据更易于理解和分析。以下是关于数据可视化分析的一些关键点: 一、定义与目的 数据可视化分析是指利用图形化手段,清晰地有效地传达与沟通信息。它将数据以…...

_使用CLion的Vcpkg安装SDL2,添加至CMakelists时报错,编译报错

语言:C20 编译器:gcc 14.2 摘要:初次使用Vcpkg添加SDL2,出现CMakelists找不到错误、编译缺失main错误、运行失败错误。 CMakelists缺失错误: 使用CLion的Vcpkg安装SDL2时,按照指示把对应代码添加至CMakel…...

QT中Qstring和QByteArray有什么区别?

数据存储内容方面 QString: 主要用于存储和处理Unicode编码的文本字符串。它能够很好地处理包含各种语言字符的文本信息,如中文、日文、韩文等多种语言文字。例如,QString str "你好,世界!";可以方便地存储…...

Viggle AI:支持小孩或者卡通人物吗? [Viggle AI实战教程] – 第2篇

历史文章 Suno AI API接入 - 将AI音乐接入到自己的产品中,支持120并发任务 万物皆能舞,AI让你秒变“舞”林高手 – Viggle AI“舞”所不能 Viggle AI:打造爆款 AI 视频,让照片 “踢” 起足球 Viggle AI:开启3D动画…...

庐山派K230学习日记4 PWM控制

1 本节介绍​ 📝本节您将学习如何通过将K230开发板的GPIO引脚复用为PWM功能并输出PWM信号;实现输出PWM信号及控制板载无源蜂鸣器发出声音。 🏆学习目标 1️⃣如何将GPIO引脚配置为PWM模式,通过40Pin排针中的部分引脚来输出PWM信号…...

Android配件应用默认启动与USB权限申请区别

使用效果: USB配件授权演示 选择USB配件默认打开应用 申请USB配件使用权限...

【车载开发系列】GPIO模式分类

【车载开发系列】GPIO模式分类 这里写目录标题 【车载开发系列】GPIO模式分类一. GPIO概念二. GPIO的模式区分三. GPIO的八大模式1)推挽输出(Output push-pull)2)开漏输出(Output open-drain)3)…...

uniapp--HBuilder开发

提示:本文为学习内容,若有错误,请联系作者,谦虚受教。 文章目录 前言一、下载HBuilder二、添加modbus相关库1.下载nodejs2.下载modbus库3.项目添加modbus库 三、HBuilder相关功能语句1.文件夹说明2.消息信息框3.开关按钮4.选中按钮…...

学习笔记|arduino uno r3|点亮|hello world|Atmega328P|开发板学习:概述

目录 arduino uno r3开发板学习开发板概述重要引脚介绍配置开发环境安装 Arduino IDE 编程环境介绍Arduino 介绍 实操连接选择程序程序代码编译和执行 总结课后练习 arduino uno r3开发板学习 开发板概述 Arduino UNO 是一款基于Atmega328P 的微控制器开发板。它有 14 个数字…...

Go语言的 的注解(Annotations)核心知识

Go语言的注解(Annotations)核心知识 Go语言是一种简洁且高效的编程语言,广泛应用于后端开发、云计算和微服务架构。在探索Go语言的特性时,我们不可忽视一个重要的概念:注解(Annotations)。虽然…...

WinRAR中“自动加密”如何使用?

WinRAR加密大家都不陌生,那么自动加密功能大家熟悉嘛?如何使用自动加密功能?今天介绍详细教程给大家。 打开WinRAR软件之后选择工具栏中的【选项】,点击设置 然后切换到【压缩】选项卡,点击【创建默认配置】&#xff…...

`http_port_t

http_port_t 是 SELinux(Security-Enhanced Linux)中的一种端口类型标签,用于标识哪些端口可以被 HTTP 和 HTTPS 服务使用。SELinux 是一种强制访问控制(MAC)安全模块,它通过定义安全策略来限制进程对系统资…...

C++编程等级认证学习计划

C编程等级认证学习计划 计划目标 在30天内系统学习并掌握C编程等级认证(一至八级)的知识点,为参加认证考试做好充分准备。 前期准备 学习资料收集 准备涵盖C编程一至八级知识点的专业教材,如《C Primer》等。收集相关的在线教…...

c和c++中为什么要防止头文件被重复包含!

在编程中,头文件就像一本工具书,它包含了函数、类、宏、全局变量等的定义和声明,供其他代码文件引用。想象一下,如果你在写一篇文章时,反复引用同一本工具书的内容,会发生什么情况呢? 1. 避免重…...

安的厦小程序开发日志

目录 背景名字由来架构文件目录app.jsonapp.wxsspackage.jsonproject.config.jsindex.wxmlindex.wxssindex.jsindex.jsondetail.wxmldetail.wxssdetail.jsdetail.json参考资料背景 我们正在经历一场价值观的变迁,过去的丈母娘和女朋友总是要求男方要买房,那是因为房子是当下…...

深度评测uni-app x:开启跨平台开发新篇章

文章目录 一、引言1.1 跨平台开发的崛起1.2 uni-app x 初印象 二、uni-app x 核心特性评测2.1 uts 语言:跨平台编程新利器2.2 uvue 渲染引擎:原生渲染新体验2.3 强大的组件和 API 支持2.4 插件生态:拓展无限可能 三、与 uni-app 对比&#xf…...

第06章 重定向与管道

一、概述 在企业生产环境中,如何记录一个程序运行的过程记录或者定时任务执行的结果呢?假设定时任务凌晨执行,我们在白天上班时需要查看执行是否成功要怎么办?就可以使用本章介绍的重定向和管道符号。 二、重定向 2.1 文件描述…...

python中的字典类型数据及其操作

1、字典的定义 映射是一种键(索引)和值(数据)的对应键值对:键是数据索引的扩展字典是键值对的集合,键值对之间无序字典采用大括号{}和dict()创建,键值对用冒号:表示,key…...

『SQLite』表达式操作

摘要:表达式是一个或多个值、运算符和计算值的 SQL 函数的组合。SQL 表达式与公式类似,都写在查询语言中。 基本语法 SELECT column1, column2, columnN FROM table_name WHERE [CONTION | EXPRESSION];布尔表达式 SQLite 的布尔表达式在匹配单个值的…...

PHP7和PHP8的最佳实践

php 7 和 php 8 的最佳实践包括:使用类型提示以避免运行时错误;利用命名空间组织代码并避免命名冲突;采用命名参数、联合类型等新特性增强可读性;用错误处理优雅地处理异常;关注性能优化,如避免全局变量和选…...

Python实现一个简单的 HTTP echo 服务器

一个用来做测试的简单的 HTTP echo 服务器。 from http.server import HTTPServer, BaseHTTPRequestHandler import jsonclass EchoHandler(BaseHTTPRequestHandler):def do_GET(self):# 构造响应数据response_data {path: self.path,method: GET,headers: dict(self.headers…...

字玩FontPlayer开发笔记4 性能优化 首屏加载时间优化

字玩FontPlayer开发笔记4 性能优化 首屏加载时间优化 字玩FontPlayer是笔者开源的一款字体设计工具,使用Vue3 ElementUI开发,源代码: github: https://github.com/HiToysMaker/fontplayer gitee: https://gitee.com/toysmaker/fontplayer …...

NeurIPS 2024 | SHMT:通过潜在扩散模型进行自监督分层化妆转移(阿里,武汉理工)

当前的妆容转移技术面临两个主要挑战: 缺乏成对数据,导致模型训练依赖于低质量的伪配对数据,从而影响妆容的真实感; 不同妆容风格对面部的影响各异,现有方法难以有效处理这种多样性。 今天给大家介绍的方法是由阿里联…...

“知识图谱AI教学辅助系统:点亮智慧学习的新灯塔

嘿,各位教育界的小伙伴们!今天咱们来聊聊一个超级有料的话题——知识图谱AI教学辅助系统。想象一下,如果有一个智能导师能根据你的需求定制专属的学习路径,还能像百科全书一样随时解答疑问,是不是感觉学习变得更高效、…...

STM32-ADC模数转换

定义: ADC(Analog-Digital Converter)模拟-数字转换器 ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量,建立模拟电路到数字电路的桥梁 12位逐次逼近型ADC【表示转化的范围是0-2^12 - 1】,1us转换时间 输…...

Springboot整合MyBatis-Plus

1、整合MyBatis-Plus 1、导入依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.2.0</version></dependency>2、配置 1&#xff09;配置数据源&#xff0c;导…...

分类、聚类与回归的评价指标

在cross_validate或cross_val_score中&#xff0c;参数scoring&#xff0c;与分类、聚类和回归算法的评价指标有关。 3.4.3. The scoring parameter: defining model evaluation rules For the most common use cases, you can designate a scorer object with the scoring pa…...

Day28下 - 大模型微调:酒店评论情感分析

一、前置准备 1. 下载 LLaMA Factory https://github.com/hiyouga/LLaMA-Factory.git 搭建过程详见&#xff1a;https://blog.csdn.net/CSBLOG/article/details/144584581 2. 选择 预训练模型 和 prompt指令模型 预训练阶段在实际工作中&#xff0c;一般是用不上的&#xff…...

企业级Nosql数据库和Redis集群

一、关系数据库和Nosql数据库 关系数据库 定义&#xff1a;关系数据库是建立在关系模型基础上的数据库。它使用表格&#xff08;关系&#xff09;来存储数据&#xff0c;通过行和列的形式组织信息。例如&#xff0c;一个简单的学生信息表可能有 “学号”“姓名”“年龄”“班级…...

代码优化方案

① 引入清晰的中间变量 即如果判断条件很复杂的情况下&#xff0c;最好的方式是引入清晰的中间变量。 isValid val > someConstant; isAllowed condition2 || condition3; isSecure condition4 && !condition5;// 有了描述性变量&#xff0c;我们就不需要再记住…...

C++直接内存管理new和delete

0、前言 C语言定义了两个运算符来分配和释放动态内存。运算符new分配内存&#xff0c;delete释放new分配的内存。 1、new动态内存的分配 1.1、new动态分配和初始化对象 1&#xff09;、new内存分配 在自由的空间分配的内存是无名的&#xff0c;new无法为其分配的对象…...

CPU过剩是什么意思? 有什么对电脑的影响吗?如何确认CPU有没有过剩

CPU 过剩通常是指计算机系统中 CPU 的性能远远超出了当前运行任务的需求。以下从产生原因和对电脑的影响为你详细介绍&#xff1a; 产生原因 硬件升级与软件发展不同步&#xff1a;用户为追求高性能提前升级了 CPU&#xff0c;而当前的软件应用程序在算法和功能上没有太大突破&…...

Git的简单介绍与如何安装Git

文章目录 前言一、初始git1.git是什么2.为什么要使用git(出现的问题)3.git是如何解决问题的 二、git的安装与卸载1.centos系统2.ubuntu系统3.windows 三、搭建git本地环境1.创建git本地仓库2.配置用户信息 总结 前言 本文简单引入git的相关内容。 一、初始git 1.git是什么 g…...

Linux vi/vim 编辑器:功能强大的文本处理工具

Linux vi/vim 编辑器&#xff1a;功能强大的文本处理工具 引言 Linux 系统中的 vi/vim 是一种功能强大的文本编辑器&#xff0c;它广泛应用于程序员、系统管理员和其他需要处理文本文件的用户群体中。vi 是 visual interface 的缩写&#xff0c;而 vim 则是 vi improved 的缩…...

计算机毕业设计Python电商品推荐系统 商品比价系统 电商比价系统 商品可视化 商品爬虫 机器学习 深度学习 京东爬虫 国美爬虫 淘宝爬虫 大数据

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…...

正则表达式 - 使用总结

正则表达式 - 使用总结 正则表达式(Regular Expression,简称Regex)是一种强大的文本处理工具,它允许我们通过特定的模式(pattern)来搜索、匹配和操作字符串。在编程、数据分析和文本处理等领域,正则表达式发挥着非常重要的作用。本文将总结正则表达式的基本概念、使用方…...

性能测试04|JMeter:连接数据库、逻辑控制器、定时器

目录 一、连接数据库 1、使用场景 2、直连数据库的关键配置 3、案例 ​编辑 二、逻辑控制器 1、if控制器 2、循环控制器 3、ForEach控制器 三、定时器 1、同步定时器 2、常数吞吐量定时器&#xff08;用的少&#xff0c;了解即可&#xff09; 3、固定定时器 一、连…...

力扣刷题:二叉树OJ篇(上)

大家好&#xff0c;这里是小编的博客频道 小编的博客&#xff1a;就爱学编程 很高兴在CSDN这个大家庭与大家相识&#xff0c;希望能在这里与大家共同进步&#xff0c;共同收获更好的自己&#xff01;&#xff01;&#xff01; 目录 1.单值二叉树&#xff08;1&#xff09;题目描…...

【跨域】解决SpringBoot和openresty跨域问题

平时后端只需要写一个配置类就可以解决跨域但是最近的新项目死活不行 先说结论 项目中的权限校验(也可以是其他的)拦截器优先级高于跨域拦截器导致跨域处理失效 解决办法 1.在addCorsMappings上增加 Order(value -100)// 跨域优先级最高 2.nginx放行OPTIONS请求 SpringBo…...

下载ffmpeg执行文件

打开网址&#xff1a;Download FFmpeg 按下面步骤操作 解压文件就可以看到ffmpeg的执行文件了&#xff0c;需要通过命令行进行使用&#xff1a; ffmpeg命令行使用参考&#xff1a; ffmpeg 常用命令-CSDN博客...

SQLite 实际案例研究与创新应用

SQLite 作为一种强大而简单的数据库实现&#xff0c;应用于各类场景&#xff0c;从移动应用到物联网设备&#xff0c;再到边缘计算。在本章中&#xff0c;我们将通过几个典型案例&#xff0c;探讨 SQLite 如何在实际中解决复杂问题&#xff0c;并研究其创新应用的可能性。 案例…...