当前位置: 首页 > news >正文

10 类多布局扫描图像数据集:支撑 OCR 精度提升与 VLM 微调,覆盖广告 / 简历 / 论文等场景的计算机视觉训练数据

一、引言与背景

在人工智能与计算机视觉技术深度融合的当下,光学字符识别(OCR)与视觉语言模型(VLM)已成为文档智能处理领域的核心支撑技术,广泛应用于金融票据识别、企业文档管理、学术数据挖掘等诸多场景。然而,现有模型在面对真实世界中多样的文档类型、复杂的排版布局及差异化的图像质量时,往往存在识别精度不足、泛化能力薄弱等问题,其根源在于缺乏能够全面模拟实际应用场景的高质量训练数据集。

本次介绍的“用于OCR和VLM微调的扫描图像数据集”恰好填补了这一缺口。该数据集通过精心筛选与整理,汇聚了多领域、多形态的扫描文档样本,不仅为OCR系统提供了覆盖不同字体、布局与质量的训练素材,更能满足VLM模型对文本与视觉信息协同理解的训练需求,对推动文档智能处理技术的产业化落地与学术研究突破具有重要的实践价值。

二、数据基本信息

1. 数据规模与格式

该数据集以扫描图像为核心载体,涵盖10个主要文档类别,其中仅简历类就包含121个独立文件样本,整体数据规模可满足中小型模型的完整训练与评估需求。图像文件均采用JPG格式存储,单个文件大小介于131.75 kB至738.08 kB之间,兼顾数据质量与存储便利性,便于开发者高效调用与处理。

2. 覆盖领域与类型

数据集全面覆盖日常办公、商业沟通、学术研究等多个核心领域,具体包含广告、电子邮件、表单、信件、备忘录、新闻、笔记、报告、简历、科学论文共10类文档。从非正式的手写笔记到高度专业的科学论文,从结构化的表单数据到创意化的广告设计,实现了对主流文档场景的全维度覆盖。

3. 标注与质量特征

数据集虽未明确提及人工标注的文本内容,但通过对文档类型的精准分类,为模型的分类任务训练提供了天然标签。在图像质量上,样本包含分辨率差异、噪点干扰、扫描伪影等多种真实场景下的质量变化,同时涵盖手写与印刷两种文本形态,部分样本支持多语言文本识别训练,高度贴合实际应用中的数据特征。

三、数据优势

优势维度

具体描述

​场景覆盖全面性​

聚焦10类差异化文档类型,从企业内部的备忘录、简历到公开传播的新闻、广告,再到专业领域的报告、科学论文,完整覆盖个人、企业、学术三大核心场景,可有效避免模型训练的场景局限性。

​布局结构复杂性​

特意纳入多列文本、图文混合、表格嵌套、公式插入等复杂布局样本,如新闻的多栏排版、科学论文的公式与图表组合、表单的结构化字段分布等,充分模拟真实文档中"文本+视觉"的复杂信息呈现方式。

​数据特征真实性​

在图像质量上复刻了扫描、复印、传输过程中常见的画质退化问题;在文本形态上兼顾手写的随意性与印刷的规范性;在格式上包含规则结构化与不规则非结构化样本,使模型训练更贴近实际应用环境。

​适配性强​

在数据组织与样本质量上表现优异,能够快速适配不同科研场景与产业开发需求,降低数据预处理的时间成本与技术难度。

​​获取方式​​:https://dianshudata.com/dataDetail/13648

获取更多高质量数据集,请访问典枢平台:典枢数据交易平台

四、应用场景

1. OCR系统的训练与性能优化

OCR技术的核心需求是实现不同场景下文本的精准识别,而该数据集的多样性特征恰好为OCR系统的全流程优化提供了支撑。在模型训练阶段,开发者可利用数据集中的多字体、多布局样本训练模型对文本位置的定位能力,通过手写与印刷文本的混合训练提升模型对不同书写形态的适配性;在性能评估阶段,可借助数据集中的低分辨率、高噪点样本测试模型的抗干扰能力,通过复杂布局样本验证模型对文本阅读顺序的判断精度。

例如,在金融行业的发票识别场景中,基于该数据集训练的OCR系统可精准识别表单中的金额、发票号码等结构化字段,同时忽略广告元素的干扰;在教育领域的作业批改场景中,能高效区分手写笔记中的关键信息与涂鸦内容。通过该数据集的训练,OCR系统可显著降低实际应用中的识别误差,提升在政务、金融、教育等多行业的落地效果。

2. 视觉语言模型(VLM)的微调与多任务适配

VLM模型的核心能力是实现"图像理解 + 文本分析"的跨模态协同,该数据集通过"文档图像 + 类型标签"的组合形式,为模型的多任务微调提供了优质素材。在文档分类任务中,开发者可利用数据集的10类文档标签训练模型,使其精准区分不同类型的文档,例如在企业文档管理系统中自动将邮件、备忘录、报告归类存储;在信息提取任务中,借助结构化的表单、简历样本训练模型抓取关键字段,如从简历中提取姓名、工作经历、技能证书等信息,从报告中提取核心结论与数据指标。

在智能问答任务中,可基于科学论文、新闻等长文本文档样本微调模型,使其能根据用户问题从图像化文档中定位答案位置并生成文本回复,例如针对科研人员提出的"某篇论文的核心公式是什么",模型可精准识别论文中的公式位置并转化为可编辑文本。此外,该数据集还可用于VLM模型的泛化能力测试,通过未见过的文档类型与布局样本验证模型的跨场景适配性。

五、结尾

该扫描图像数据集以"场景全面、布局复杂、特征真实、适配性强"为核心优势,精准契合OCR系统与VLM模型的训练需求。无论是学术领域对文档智能处理技术的理论研究,还是企业对垂直行业智能文档解决方案的开发,该数据集都能提供高质量的数据支撑。通过其助力,OCR与VLM技术将进一步突破场景适配瓶颈,在智能办公、自动数据录入、学术数据挖掘等领域实现更深度的应用,为各行各业的数字化转型注入新动力。其固定的数据集内容也为模型训练与性能对比提供了稳定、可靠的基准,保障研究与开发结果的可重复性与可比性。

相关文章:

10 类多布局扫描图像数据集:支撑 OCR 精度提升与 VLM 微调,覆盖广告 / 简历 / 论文等场景的计算机视觉训练数据

一、引言与背景 在人工智能与计算机视觉技术深度融合的当下,光学字符识别(OCR)与视觉语言模型(VLM)已成为文档智能处理领域的核心支撑技术,广泛应用于金融票据识别、企业文档管理、学术数据挖掘等诸多场景。然而,现有模型在面对真实世界中多样的文档类型、复杂的排版布局…...

国产化Excel开发组件Spire.XLS教程:C# 轻松将 DataSet 导出到 Excel

在 C# 开发中,DataSet 常用于管理内存中的数据,通常来源于数据库查询或系统集成过程。本文将介绍如何使用 Spire.XLS for .NET 在 C# 中导出 DataSet 到 Excel,包括创建 Excel 文件、将多个 DataTable 分别写入不同工作表、应用格式化,以及处理大数据量导出等场景。在 C# 开…...

Mysql:Docker的Mysql容器加载Levenshtein 距离算法脚本,实现“相似度匹配”

前言MySQL自带的Like函数是“包含匹配”,即查询目标需要包含指定条件字符才会匹配到;而“相似度匹配”是匹配目标与条件字符是否相似,例如:“这是北京大学”与 “北大”就会有相似度,这样就会查出这类数据信息,只不过它的相似度分数值比较低而已。为了实现这个“相似度匹…...

树链剖分

树链剖分介绍 树链剖分是什么?主要用来处理什么问题 树链剖分(Heavy-Light Decomposition, HLD)。1. 树链剖分的定义 树链剖分是一种 把树分解成若干条链 的算法技巧。 在一棵树上,我们把每个节点的“重儿子”挑出来(通常是子树规模最大的儿子),把它和父亲连成 重边,其…...

【2025-09-17】慢慢得到

20:00人的一切都应该是美的,无论面孔,还是衣裳、心灵或思想。——契诃夫连续两天都没能送孩子上学,因为约了客户都是早上9点半开会,所以必须得提前出门。提前的时间刚好碰上何太的上班时间,然后就一起出门了。考虑到在客户现场停车不方使,于是就赠何太的车去到市区再打车…...

Excel处理控件Aspose.Cells教程:如何使用Python在Excel中创建下拉列表

Excel 中的下拉列表是数据验证最实用的功能之一。在本教程中,我们将向您展示如何借助Aspose.Cells使用 Python 在 Excel 中创建下拉列表。Excel 中的下拉列表是数据验证最实用的功能之一。它允许您将用户输入限制为预定义的选项,减少错误并保持数据输入的一致性。无论您将其称…...

STM32的电子钟功能实现

一、系统架构设计 1.1 硬件组成框图 graph TD A[STM32F103C8T6] --> B[OLED0.96] A --> C[按键矩阵] A --> D[蜂鸣器] B --> I2C总线 C --> EXTI中断 1.2 核心模块划分时间管理:SysTick定时器中断(1ms精度) 显示驱动:SSD1306 OLED中文显示 用户交互:4x4矩阵…...

kylin V11安装mysql8.0.41(glibc2.28)

环境:OS:kylin V11mysql:8.0.41 glibc2.28查看系统glibc版本[root@localhost soft]# ldd --versionldd (GNU libc) 2.38Copyright (C) 2023 Free Software Foundation, Inc.This is free software; see the source for copying conditions. There is NOwarranty; not even for…...

__cpuid

__cpuid 是一个内联汇编函数,用于在 C 和 C++ 代码中获取有关 CPU 信息的指令集扩展。 这条指令利用了 x86 和 x86_64 处理器的 CPUID 指令,通过查询处理器支持的功能、型号、 制造商等硬件信息,为开发者提供了对 CPU 的低层访问。 /* x86-64 uses %rbx as the base registe…...

Gitee崛起:国产代码托管平台如何重塑企业研发效能新格局

Gitee崛起:国产代码托管平台如何重塑企业研发效能新格局 在全球数字化转型浪潮下,代码托管平台已从单纯的版本控制工具进化为企业研发效能的核心枢纽。随着国内企业对数据主权、研发自主可控需求的提升,国产代码托管平台正迎来前所未有的发展机遇。在这一背景下,Gitee凭借其…...

字节SQL数据库开发手册

1.前言:SQL在字节跳动数据驱动中的核心地位。2.SQL基础与字节跳动最佳实践。2.1.字节跳动常用SQL语法与规范。2.2.性能优化:高效SQL编写技巧..2.3.窗口函数在复杂分析中的应用。3.SQL在字节跳动核心业务场景的应用..3.1.用户增长分析..3.1.1.案例:用户留存率与活跃度分析..3…...

完整教程:视频上传以及在线播放

完整教程:视频上传以及在线播放pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", monospace !important; fon…...

C++ STL 常用算法

C++ 标准模板库(STL)提供了丰富的算法库(定义在 <algorithm> 头文件中),这些算法多为通用函数模板,可配合容器和迭代器高效操作数据。 1、非修改序列算法 这些算法不会改变它们所操作的容器中的元素。 1.1 find 和 find_iffind(begin, end, value):查找第一个等于…...

Gitee:中国开发者生态的成长引擎与数字化转型的加速器

Gitee:中国开发者生态的成长引擎与数字化转型的加速器 在中国软件产业快速发展的今天,Gitee作为本土领先的代码托管与协作开发平台,正以独特的本土化优势和技术创新,成为推动中国开发者生态繁荣的关键力量。从初创团队到大型企业,Gitee提供的全流程开发解决方案正在重新定…...

【IEEE出版|五邑大学主办|连续四年EI检索】第五届电子信息工程与计算机技术国际学术会议(EIECT 2025)

随着科学技术的高速发展,计算机技术革新日新月异,其智能化、网络化使人们的生活更加便捷。而电子信息工程依托计算机技术,将数据等逻辑数字转化为可解读信息,渗入到社会的方方面面,使电子及信息产品不断创新,让电子信息工程具备更广阔的前景,两者的相互结合也必将成为未…...

tightvnc使用记录

用起来感觉还行,主要是支持XP系统,不知道为什么XP系统的好像有bug,远程桌面很不稳定,我遇到的情况是,业务XP系统放在ESXI上的,XP远程桌面经常不稳定,容易遇到一远程就远程画面一闪而过的情况,实测发现进ESXI把XP系统已登录的用户注销,再mstsc远程就没问题了。 由于XP远…...

高科战神全家软件怎么设置

高科战神全家软件的设置方法主要包括安装拨号助手App、蓝牙连接设备以及拨号操作设置,具体步骤可参考以下详细说明。‌1.高科战神全家软件设置步骤‌‌安装拨号助手App‌。通过安卓手机安装高科战神拨号助手App,建议联系(V信2081003456)获取下载链接。‌‌安装完成后,打开Ap…...

简单数论函数求和题目的一些技巧

\(\sigma (xy)\) 相关 结论:\(\sigma_0(xy) = \sum\limits_{i|x} \sum\limits_{j|y} [\gcd(i, j) = 1]\)\(\sigma_1(xy) = \sum\limits_{i|x} \sum\limits_{j|y} [\gcd(i, j) = 1] \frac {xj} i\)\(\sigma_k(xy) = \sum\limits_{i|x} \sum\limits_{j|y} [\gcd(i, j) = 1] (\fr…...

c# grpc

asp.net 程序安装nuget包: Grpc.AspNetCore, Grpc.AspNetCore.Server.Reflection 修改 program 设置:<ItemGroup> <Protobuf Include="**/*.proto" OutputDir="Protos" CompileOutputs="false" GrpcServices="Server" /&…...

win10任务栏频繁卡死、转圈

这一部分是笔者碎碎念,可以直接跳过看下面的解决办法,最近这一段时间,频繁遇到win10任务栏卡死,不断转圈,非常影响工作效率。 心想最近是不是安装了什么软件,是什么软件服务导致的吗,去msconfig禁用了非系统服务后还是这样,又尝试卸载了最近的一部分Windows系统更新,依…...

Typora Markdown 编辑快捷键大全(优化补充版)

Typora Markdown 编辑快捷键大全(优化补充版) 说明 本文档基于历史对话内容整理,补充了使用场景说明、操作细节及实用技巧,覆盖 Typora 中 Markdown 编辑的核心快捷键(Windows/Linux 与 Mac 版本对应),适用于日常文档编辑、笔记整理等场景,可直接保存为 Markdown 文件或…...

第二届数字经济与计算机科学国际学术会议(DECS 2025)

第二届数字经济与计算机科学国际学术会议(DECS 2025) 2025 2nd International Conference on Digital Economy and Computer Science 第二届数字经济与计算机科学国际学术会议(DECS 2025)将于2025年10月17日至10月19日在中国武汉召开。本次会议旨在汇聚来自全球的学者、研究…...

文件摆渡系统案例分享:医院如何构建高效内外网文件交换通道

文件摆渡系统对于医院来说,是尤为重要的一种传输工具,大部分医院都是用网闸做的内外网隔离,文件摆渡系统的核心目的是在保障医疗数据安全的前提下,实现内部业务系统与外部网络之间的高效、合规文件传输。本文中,我们就介绍一家三甲医院的内外网文件摆渡建设案例。建设背景…...

淘天一面

6.请介绍一下线程池的一些核心参数。 7.你说到拒绝策略,请举几个拒绝策略的例子。 8.我看你之前用过ES引擎,请问你怎么理解ES搜索引擎里面的倒排索引和正排索引? 9.一般什么情况下会用正排索引? 10.悲观锁和乐观锁在思想上有什么区别? 11.你之前在线上有没有遇到过内存泄漏…...

利用小波变换对跳频信号进行参数估计

跳频信号是一种扩频通信技术,其载波频率在多个频点之间按照伪随机序列跳变。小波变换因其良好的时频局部化特性,非常适合分析这类非平稳信号。 跳频信号模型 跳频信号可以表示为: \[s(t) = A \exp\left[j(2\pi f_n t + \phi_n)\right], \quad t \in [t_n, t_{n+1}] \]其中:…...

【Qt】Window环境下搭建Qt6、MSVC2022开发环境(无需提前安装Visual Studio) - 实践

【Qt】Window环境下搭建Qt6、MSVC2022开发环境(无需提前安装Visual Studio) - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &…...

编写测试用例技巧

编写测试用例技巧 一、测试用例来源 1、公司里就有现成模板 (用例模板) 2、自己设计用例模板 3、导出用例管理工具的模板 (例如:禅道) 二、查看用例模板 三、用例模板中内容 必填: 用例编号、用例标题、前置条件、用例步骤、预期结果、优先级 非必填:用例类型、功能模块…...

牛客刷题-Day1

动态规划1:线性dp、背包问题,区间 https://ac.nowcoder.com/acm/contest/24213?from=acdiscuss牛客刷题-Day1 今日题目:\(1001-1005\) 1003 可爱の星空 题目描述 “当你看向她时,有细碎星辰落入你的眼睛,真好。”——小可爱 在一个繁星闪烁的夜晚,卿念和清宇一起躺在郊外…...

TENGJUN防水TYPE-C 16PIN连接器技术解析:从结构设计到认证标准的全面解读 - 实践

TENGJUN防水TYPE-C 16PIN连接器技术解析:从结构设计到认证标准的全面解读 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &quo…...

第三届人工智能与自动化控制国际学术会议(AIAC 2025)

第三届人工智能与自动化控制国际学术会议(AIAC 2025) 2025 3rd International Conference on Artificial Intelligence and Automation Control 第三届人工智能与自动化控制国际学术会议(AIAC 2025)将于2025年10月15日-17日在法国巴黎召开。 随着技术的迅猛发展,人工智能与…...

图纸安全外发平台全解析

内容概要 图纸安全外发平台是一个专为解决企业图纸外发难题而设计的系统。简单来说,图纸安全外发平台是什么?它就是一个集数据加密、访问控制于一体的在线平台,旨在保障设计图纸在传输过程中的安全性。其中,像Ftrans B2B企业间⽂件安全交换系统这样的专业平台,更是以其高效…...

webshell流量 - voasem

菜刀、蚁剑、冰蝎、哥斯拉是常见的webshell管理工具。 在攻防演练中,了解其常见webshell管理工具的流量特征对防守方来说十分重要。常见的webshell也在不断发展以绕过安全设备waf的检测,其流量特征也在不断演变,我们应该与时俱进的进行了解分析。 简单的来说,菜刀和蚁剑采用…...

软件测试分类

(属于软件测试基础知识) (了解) 开发模型: 1.敏捷开发模型: 这是一种新的模型, 前面的几种都是属于传统型。它能适应快速需求变化,交付周期短,轻量级的开发模式。 2.增量开发模式: 项目被划分为一系列的增量,每一个增量都交付整个项目需求中的一部分功能。需求按优先…...

Linux下显卡驱动简单测试

Linux下默认的OpenGL测试程序就是glxgears, 这个软件包含在mesa-utils软件包中;不过此软件默认打开垂直同步,帧数会被限制于60, 测试性能被限制。 所以, 在运行时如下:> vblank_mode =0 glxgears [return] 即可, 然后就可以看到释放的性能。...

大模型三阶段训练方法(LLaMa Factory)

https://blog.csdn.net/2401_85373691/article/details/144685682Rust编程语言群 1036955113 java新手自学群 626070845 java/springboot/hadoop/JVM 群 4915800 Hadoop/mongodb(搭建/开发/运维)Q群481975850GOLang Q1群:6848027 GOLang Q2群:450509103 GOLang Q3群:43617313…...

算法与数据结构 8 - 线性筛求一般积性函数

引言 昨天和同学做 LOJ #124. 除数函数求和 1,推出了线性筛求一般积性函数的方法,现在写一写。 前置知识 积性函数:对任意互质整数 \(p,q\),\(f(p)\times f(q)=f(pq)\) 的函数。 完全积性函数:对任意整数 \(p,q\),\(f(p)\times f(q)=f(pq)\) 的函数。 线性筛:一种 \(O(n…...

SpringMVC使用jasypt加密配置文件 - Commissar

1、引入jasypt依赖库: <!-- Jasypt核心库 --><dependency> <groupId>org.jasypt</groupId> <artifactId>jasypt</artifactId> <version>1.9.3</version></dependency> 2、修改配置 spring.jdbc.username=ENC(…...

三行Python代码实现深度学习推理:Infery全面解析

Infery是一个Python运行时引擎,通过统一API支持多框架深度学习模型推理,仅需三行代码即可完成模型加载、预测和基准测试,大幅降低环境配置和部署复杂度。Infery — 仅用3行Python代码运行深度学习推理 想象一下,通过一个友好而强大的API即可掌握所有框架的力量——这正是In…...

基于Python+Vue开发的口腔牙科预约管理系统源码+运行步骤

项目简介该项目是基于Python+Vue开发的口腔牙科预约管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的口腔牙科诊所预约管理系统项目,大学生可以在…...

网页禁止复制

网页禁止复制网页禁止复制, 我想复制网页的文字内容,有什么办法 当网页禁止复制文字时,可以通过以下多种方法来实现文字内容的复制:使用浏览器开发者工具关闭 JavaScript:在 Chrome 浏览器中,按下 F12 或 Ctrl+Shift+I 调出开发者工具,切换到 “Console”(控制台),输入…...

混元开源之力:spring-ai-hunyuan 项目功能升级与实战体验

今天咱们继续聊聊 spring-ai-hunyuan 这个项目。上次我们兼容了 spring-ai 的 1.0.0 正式版本之后,就暂时放了一阵子,没怎么动。最近倒是收到不少小伙伴反馈,说混元的思考链功能为什么不返回结果。其实,混元官方那边提供的兼容 OpenAI 的方案,本质上就是帮大家能快速接入,…...

ECT-OS-JiuHuaShan 框架实现元推理,是人类文明的金种子

ECT-OS-JiuHuaShan/https://orcid.org/0009-0006-8591-1891▮ 推理就绪:基于自然辩证法数学形式化系统启动因果律算符 论断是文明级的历史洞见。“金种子”这一比喻,精准地揭示了 ECT-OS-JiuHuaShan 框架在人类文明演进史中的本体论地位——它并非寻常的科技成果,而是文明跃…...

MATLAB实现连续投影算法

SPA是一种经典的特征变量选择算法,广泛应用于光谱分析(如近红外、红外光谱)中。其主要目的是从高度共线性的光谱数据中,选择出一组数量最少、信息量最大、且冗余度最低的特征波长变量,从而简化模型并改善预测性能。 一、 算法核心思想 SPA通过一系列的投影操作,从一个初始…...

拓展坞相关问题

拓展坞相关问题 1. 耳机没声音打卡 VMWare 虚拟机 腾讯会议语音暂时解决方式:重新插拔耳机...

PS辉光眩光特效插件 BBTools Glow Glare 2 V2.4.3 For Photoshop

一键为图像添加专业级辉光与眩光,非破坏性编辑,内置多种预设,支持Photoshop 2025/2024,适合摄影、电商、UI、海报等创意场景快速出片。 核心亮点 非破坏编辑:生成独立图层,原图零损伤,随时二次调整辉光+眩光双效:智能识别高光区域,光束、镜头炫光一键生成实时滑块:强…...

内外网文件摆渡工具怎么选的实用指南

内容概要 在现代企业运营中,选择合适的内外网文件摆渡工具是确保数据安全流转的关键第一步。本实用指南从实际业务场景出发,帮助您系统性地评估工具的核心性能,包括安全性、传输效率和操作便捷性等基本要素。例如,在探讨“内外网文件摆渡工具怎么选”时,我们会对比分析不同…...

深入解析:第 9 篇:深入浅出学 Java 语言(JDK8 版)—— 吃透泛型机制,筑牢 Java 类型安全防线

深入解析:第 9 篇:深入浅出学 Java 语言(JDK8 版)—— 吃透泛型机制,筑牢 Java 类型安全防线pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mon…...

鸿蒙应用开发从入门到实战(八):ArkTS自定义组件语法

ArkUI除系统预置的组件外,还支持自定义组件。使用自定义组件,可使代码的结构更加清晰,并且能提高代码的复用性。**大家好,我是潘Sir,持续分享IT技术,帮你少走弯路。《鸿蒙应用开发从入门到项目实战》系列文章持续更新中,陆续更新AI+编程、企业级项目实战等原创内容、欢迎…...

剑指offer-31、整数中1出现的次数

题⽬描述 求出 1~13 的整数中1出现的次数,并算出 100~1300 的整数中 1 出现的次数?为此他特别数了⼀下 1~13 中包含 1 的数字有 1、10、11、12、13 因此共出现 6 次,但是对于后⾯问题他就没辙了。 ACMer 希望你们帮帮他,并把问题更加普遍化,可以很快的求出任意⾮负整数区间…...

动态黑名单的运作机制与实时防护策略

在数字化浪潮席卷全球的今天,移动应用已成为我们生活与工作的核心载体。然而,繁荣的背后,黑灰产的阴影如影随形。 群控设备批量注册、模拟器多开脚本薅羊毛、自动化程序模拟用户行为进行欺诈引流等等。这些攻击手段日益规模化、专业化、隐蔽化,给企业带来了巨大的经济损失和…...