当前位置: 首页 > news >正文

文本数据处理

文本数据处理

一、数据转换与错误处理

(一)运维中的数据转换问题

在计算机审计及各类数据处理场景中,数据转换是关键步骤,涉及将被审计单位或其他来源的数据有效装载到目标数据库,并明确标示各表及字段含义与关系。然而,此过程易出现转换数据错误,因为数据在系统间转移时,格式、编码或结构可能改变,导致数据含义及关系出错。例如,某公司 ERP 系统与审计软件间日期格式转换不当,就会造成数据错误解读,影响审计准确性。

(二)常见数据转换错误类型

  • 命名错误:原端数据源标识符与目的数据源保留字冲突,如 CRM 系统的“order date”字段在 ERP 系统中为保留字,需重新命名避免冲突。
  • 格式错误:同一种数据类型在不同系统可能有不同表示方法和语义差异,如 Excel 日期格式与 SQL 数据库期望格式不一致,需编写转换脚本统一格式。
  • 结构错误:不同数据库的数据定义模型不同,如关系模型和层次模型转换时,需重新定义实体、属性和联系,防止信息丢失。
  • 类型错误:不同数据库同一种数据类型存在精度差异,在转换时要综合考虑数据类型及其精度,确定合适映射关系。

(三)数据错误处理方法

  • 数据输入错误:人工数据收集、记录或输入过程中产生失误,导致数据集中出现异常值,影响后续分析,如调查问卷年龄数据录入错误。
  • 测量误差:使用不准确测量工具或方法,使数据偏离实际值,如物理实验中校准不准确的温度计记录的温度数据。
  • 数据处理错误:数据分析过程中因操作不当产生异常值,如数据清洗时错误删除重要数据点或使用错误公式进行统计计算。

在数据转换环节增加数据检验步骤至关重要。以员工工资数据集为例,若发现负数工资记录(明显不合理),处理方法如下:

  • 若错误数据量少,可直接删除,如少数几条负数工资记录可能是输入错误,删除不影响整体分析。
  • 可替换错误数据,用均值、中位数或众数代替,如计算员工所在部门平均工资替换错误工资值。
  • 若错误数据量多,将错误数据和正常数据分开处理,为异常值单独建立模型,与正常值模型结果合并,避免异常值对整体分析结果产生过大影响。

二、数据质量评估

数据质量是保证数据应用效果的基础,涉及多个维度评估指标:

  • 完整性:数据集应包含所有预期信息项,无遗漏。评估时查看数据统计中的记录数和唯一值情况,如销售数据集中订单号字段存在大量重复或缺失,说明完整性有问题。
  • 一致性:数据集中相同信息项在不同记录或数据源间应保持相同表示和含义,多数数据有标准编码、规则或格式要求,检验时看其是否符合既定标准,如客户信息系统中性别字段应遵循统一编码规则。
  • 准确性:数据记录信息应准确无误,不存在异常或错误,常见错误包括乱码、格式错误、逻辑错误等,准确的数据是数据质量的核心要求之一。
  • 及时性:数据应在最短时间内采集、处理和更新,以满足应用需求,如电商平台商品库存信息需实时更新,否则可能导致消费者下单后发现商品已售罄的情况。

在进行数据质量评估时,应根据具体应用场景和需求,对各项评估指标进行选择和权重分配,以全面、准确地衡量数据质量,为后续的数据应用提供可靠保障。

三、审计数据处理

审计数据处理包括数据查询、审计抽样、统计分析和数据分析等方法:

  • 数据查询:审计人员依据经验和审计分析模型,使用审计软件中的查询命令分析采集的电子数据,或通过运行各种查询命令以特定格式检测被审计单位数据,是常用方法之一。
  • 审计抽样:从审计对象总体中选取一定数量样本进行测试,根据样本测试结果推断总体特征,在面向数据的计算机审计中发挥重要作用。
  • 统计分析:目的是探索被审计数据内在的数量规律性,以发现异常现象,快速寻找审计突破口,常用方法包括一般统计、分层分析和分类分析,通常与其他审计数据处理方法配合使用。
  • 数据分析:根据字段数据值分布情况、出现频率等对字段进行分析,先不考虑具体业务,对分析出的可疑数据结合业务进行审计,有助于发现隐藏信息。

审计数据直接影响审计结果的准确性和效率性,国内外都重视审计数据处理,不断研究与开发电子数据审计软件,为审计数据的采集、处理与分析提供保障。在 Kettle 中,可通过日志和审计功能存储日志及转换步骤级别的日志信息,对日志进行事件细节审计,提供完整质量指标和信息统计,助力审计工作的开展和审计质量的提升。

四、中文分词算法

(一)中文分词的挑战与MMSEG算法

中文分词与英文等拉丁语系语言不同,中文没有明显单词分界线,因此中文分词算法需先确定基本单位(即单词)。MMSEG 分词算法是解决中文分词问题的一种有效方法,由 Hosein 提出,其基本思路是依据词典在待分析句子中寻找对应词,从句子两头同时开始找词,以更快找到最合适的分法,并根据上下文判断词的用法。该算法使用的词典主要有汉字字典、中文单位词语词典和自定义词典:

  • 汉字字典:包含众多汉字,每个字有读音、意思及用法示例,字按一定顺序排列,如部首、笔画数或拼音字母顺序。
  • 中文单位词语:通过分词和词性标注将中文文本切分成最小有意义单位(词语),并标注词性。
  • 自定义词典:类似于个人词汇本,用于存放新词或专业术语,方便电脑识别其拼写和用法,提高分词准确性,尤其在处理特定领域文本时作用显著。

(二)匹配算法

MMSEG 算法采用简单最大匹配和复杂最大匹配两种算法:

  • 简单最大匹配算法:从待分词文本左边开始,列出所有可能分词结果,但存在从左到右依次匹配可能忽略更合适分词方式的问题。例如对“国际化大都市”的分词,可能会出现多种不太准确的划分情况。
  • 复杂最大匹配算法:从给定文本中选择起始点,每次向后扩展三个字符形成词组,不断重复此过程至文本末尾,然后根据词库中词的频率、长度等标准确定最优分词结果。如对“研究大数据”的分词,会尝试多种组合以找到最优方式。

(三)歧义消除规则

MMSEG 算法根据汉语组词习惯制定了四种解决词义混淆的规则:

  • 规则一:备选词组合的最大匹配规则:从句子开头尽量找最长词,在词典中查找,找到则画出该词,对剩余部分重复操作,若找不到则缩短词长再试,若最终仍无法找到,则将单字作为词。此方法处理长词速度快,但可能在处理模棱两可的词时出现分错情况。
  • 规则二:备选词组合的平均词长最大规则:基于较长词往往能提供更多信息的原理,通过词语长度寻找线索,帮助确定更合适的分词组合。
  • 规则三:备选词组合的词长变化最小规则:类似于人们说话时尽量使每个词长度变化不突兀,让电脑处理后的语言更接近日常说话习惯,减少出错机会,提高分词的合理性和可读性。
  • 规则四:单字词频率最高规则:在备选词组合中,统计一个字的词出现的频率,可通过计算每个单字词出现次数的自然对数并求和,选择总和最大的词作为频率最高的词,以此确定更优的分词结果。

(四)常用中文分词工具

  • Jiba 分词:是常用的中文分词工具,用 Python 编写,具有精确模式、全模式和搜索引擎模式三种模式,适用于不同的应用场景,能满足多样化的分词需求。
  • NLTK(自然语言工具包):由斯坦福大学自然语言处理小组开发的开源文本分析工具,包含分词器、命名实体识别、词性标注和句法分析器等,有助于更好地分析中文文本,特别适合自然语言处理研究和教学工作,为相关领域的学术研究和实践应用提供了有力支持。
  • Solex:清华大学自然语言处理实验室开发的中文词法分析工具包,能实现分词和词性标注,具有能力强、准确率高、速度快的优点,在中文文本处理中表现出色,可有效提升分词和词性标注的质量与效率。
  • NOPIER 分词系统:前身为 ICTCLES 词法分析系统,由北京理工大学张华平博士提供,经过十多年发展,功能丰富,性能强大,能够应对复杂的中文文本分词任务,为专业的文本处理工作提供了可靠的技术手段。
  • snownlp:用 Python 编写的中文文本分词库,不仅能进行分词和词性标注,还具备情感分析、文本分类、转成拼音、繁简转换、提取关键词和摘要、计算文本相似度、统计词频和逆向文档频率等多种功能,功能全面,适用于多种自然语言处理任务,为中文文本的深入分析和挖掘提供了便利。

中文分词算法在自然语言处理和数据挖掘中具有重要地位,不同的分词算法和工具各有特点和优势,在实际应用中,需根据具体需求选择合适的方法和工具,以实现准确、高效的中文文本分词,为后续的文本分析、信息检索、情感分析等任务奠定基础。

五、文本分词基础概念

文本分词是将文本数据拆分成有意义的小单位(通常是单词)的过程。在中文中,由于单词间无空格,需借助特定技巧实现分词,而英文则通过空格分隔单词,使电脑更易识别。例如,英文句子“i am a teacher”能直接通过空格识别单词,而中文句子“我是一名教师”需确定“教师”为一个词,这就是分词算法的任务。

分词算法以一段文字为输入,通过切分和过滤,输出拆分后的单词。其基本原理多采用统计方法,利用标准语料库中的例子进行学习和分析。以“大数据将带来什么”为例,期望电脑能正确分词,而不是错误划分,这就需要通过数学模型学习和预测单词间关系,找到最优分词方式,使电脑更好地理解文本。这种技术在搜索引擎、语音识别等领域广泛应用,如在搜索引擎中,准确的分词有助于提高搜索结果的准确性和相关性,让用户更快找到所需信息;在语音识别中,能使电脑更准确地将语音转换为文字,提升交互体验。

(一)语言模型与算法

  • N - gram 模型:根据前面几个词预测下一个词出现概率,如通过“今天”预测后续可能出现的词,用于分析单词组合规律,在文本处理中可辅助确定更合理的分词结果,提高文本理解的准确性和连贯性。
  • 维特比算法:考虑分词仅与前一个分词相关,采用动态规划算法解决最优分词问题。就像依据一串神秘脚印(单词序列),通过一步步排除,找到最有可能留下脚印的嫌疑人(最合理的单词序列),该算法高效且能避免检查所有可能情况,快速确定最优解,提升分词效率和准确性。

(二)语料库

语料库是装满各种文本的巨大语言材料仓库,包含书本文字、日常对话等,以电子形式保存,便于研究和分析语言。构建语料库需遵循代表性、结构性、平衡性、规模性和原数据等原则:

  • 代表性:语料应从特定范围随机挑选,能代表该范围内大多数情况,确保语料库能反映真实语言使用的多样性和普遍性,如不能仅收集某一特定主题的文本,而应涵盖多种领域和主题的内容。
  • 结构性:搜集的语言材料需是电脑可读的电子形式,且有组织、有条理,每个材料有代码及相关信息,如类型、大小、取值范围等,并保证完整,以便于系统地分析和利用语料库中的数据,提高语言研究的效率和准确性。
  • 平衡性:考虑学科领域、时间年代、文章风格、地方特色、发表文章的报纸杂志以及使用资料的人的年龄、性别、文化水平、经历等因素,选取一个或几个重要因素进行平衡,通常学科、时间、风格和地方等因素用得较多,使语料库能更全面、客观地反映语言的实际使用情况,避免因某些因素的过度偏重而导致语料库的偏差。
  • 规模性:大量文字材料对语言研究有益,但随着材料增多,垃圾材料也会增加,且达到一定数量后,其作用并非线性增长,因此需根据实际情况确定合适的材料量,以在保证研究效果的前提下,提高资源利用效率,避免资源浪费和数据冗余。
  • 原数据:对研究语料库至关重要,能帮助明确语料的时间、来源、作者、文本特征等信息,还可用于区分和比较不同小语料库,记录版权、加工过程和管理信息等,为语料库的有效管理和合理利用提供重要依据,确保语料库的质量和可靠性。

在实际应用中,虽然可通过数据预处理技术自行整理文本信息构建语料库,但考虑到上述原则以及搭建语料库的复杂性和人力消耗,通常会选择开源数据集,不过在特定商业目的下,若找不到合适的开源数据,也可能需要自行制作语料库,以满足特定的研究和应用需求。

六、中文分词方法分类

(一)基于字符串匹配的分词方法

基于字符串匹配的分词方法,又称机械分词方法,是将句子与词典比对,找到匹配的词串进行切分。根据扫描方式分为正向匹配和逆向匹配,正向匹配从文本开头向后扫描,逆向匹配从文本末尾向前扫描;根据长度优先匹配原则分为最大匹配和最小匹配,最大匹配优先找最长词,最小匹配优先找最短词;根据与词性标注结合方式分为单纯分词方法和分词与词性标注相结合的一体化方法,单纯分词只关注词汇分割,一体化方法同时进行词性标注以更好理解语义。

实际使用的分词系统多以机械分词为初步手段,并结合其他语言信息提高切分准确率。常用的机械分词法有正向最大匹配法、逆向最大匹配法和最少切分法:

  • 正向最大匹配法:从文本最左边开始,取连续字符在词汇库中查找匹配词,若能匹配则画出该词,否则缩短字符串继续尝试,直到找到匹配词或字符串缩短为一个字。
  • 逆向最大匹配法:从句子右边开始向左扫描,每次尽量匹配最长词,遇到不能匹配时,从稍左位置继续找下一个词,直至将句子全部分成单个词。逆向匹配法在处理复杂句子时切分精度相对较高,奇异现象较少,例如对“我喜欢吃苹果”的分词,逆向最大匹配法可能比分正向最大匹配法更准确,因此在实际应用中更受青睐。
  • 双向最大匹配法:将正向和逆向最大匹配法结果进行比较,确定正确分词方法,综合两者优势,提高分词准确性和可靠性。

由于汉语单字可单独成词,正向最小匹配和逆向最小匹配法使用较少。

(二)基于理解的分词方法

基于理解的分词方法借助人工智能,让电脑在分词时分析句子结构和意思,利用这些信息解决词语模糊问题,提高分词准确性,更好地理解自然语言,在信息搜索和文本分析等领域有广泛应用。该方法通常包括分词子系统、句法语义子系统和总控部分,各部分协同工作,使电脑像人一样理解句子,从而实现更精准的分词。

(三)基于统计的分词方法

基于统计的分词方法先收集大量已分词文本,运用统计学和机器学习方法研究词语切分规律,训练模型,再用模型处理新文本进行分词。其优势在于能适应不同类型文本,随着训练数据增加,模型性能提升,分词准确率和速度也会提高。目前主要统计模型包括多种,实际应用中,采用统计方法的分词系统通常结合词典匹配词语和统计方法找新词,兼顾匹配分词的速度效率与统计方法识别新词、解决歧义的能力,提高分词的综合效果,为文本数据的深入分析和应用提供有力支持。

相关文章:

文本数据处理

文本数据处理 一、数据转换与错误处理 (一)运维中的数据转换问题 在计算机审计及各类数据处理场景中,数据转换是关键步骤,涉及将被审计单位或其他来源的数据有效装载到目标数据库,并明确标示各表及字段含义与关系。…...

ThinkPHP 8开发环境安装

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《ThinkPHP 8高效构建Web应用 夏磊 编程与应用开发丛书 清华大学出版社》【摘要 书评 试读】- 京东图书 1. 安装PHP8 Windows系统用户可以前往https://windows.php.net/downloads/releases/archives/下载PHP 8.0版本&am…...

php怎么去除数点后面的0

在PHP中,我们可以使用几种方法来去除数字小数点后的0。 方法一:使用intval函数 intval函数可以将一个数字转化为整数,另外,它也可以去除小数点后面的0。 “php $number 123.4500; $number intval($number); echo $number; // 输…...

Database.NET——一款轻量级多数据库客户端工具

文章目录 Database.NET简介下载使用使用场景总结 Database.NET简介 Database.NET 是一个功能强大且易于使用的数据库管理工具,适用于多种数据库系统。它为开发者和数据库管理员提供了一个统一的界面,可以方便地管理和操作不同类型的数据库。 支持的数据…...

Unittest02|TestSuite、TestRunner、HTMLTestRunner、处理excel表数据、邮件接收测试结果

目录 八、测试套件TestSuite和测试运行器TestRunner 1、基本概念 2、创建和使用测试套件 3、 自动发现测试用例、创建测试套件、运行测试 4、生成html的测试报告:HTMLTestRunner 1️⃣导入HTMLTestRunner模块 2️⃣运行测试用例并生成html文件 九、unittest…...

protobuf学习使用

1、概述 protobuf是Google开发的一种语言中立、平台无关、可扩展的序列化结构数据格式。允许定义一次数据结构,然后可以使用各种支持的语言来生成代码,以轻松地读写这些结构到一个二进制流中,如网络传输或文件,Protobuf支持多种编…...

跟我学c++中级篇——C++中的缓存利用

一、缓存 学习过计算机知识的一般都知道缓存这个概念,大约也知道缓存是什么。但是如果是程序员,如何更好的利用缓存,可能就有很多人不太清楚了。其实缓存的目的非常简单,就是了更高效的操作数据。大家都听说过“局部性原理”&…...

Goland 安装与使用

GoLand安装 官方网址: JetBrains GoLand:不只是 Go IDE 1. 进入官网,点击下载: ​ 2. 如下图一步步安装 ​ ​ ​ ​ ​ 3. 如下图一步步安装...

cesium通过经纬度获取3dtiles 得feature信息

找到这里3dtiles的两种访问方式: 1.1 3DTileContent#getFeature 这里涉及3DTile 数据结构,暂不了解3DTile 数据结构,因此暂不使用。 1.2 scene.pick 本次使用 scene表示虚拟场景中所有 3D 图形对象和状态的容器;scene中…...

spring cloud gateway 3

**Spring Cloud Gateway 3** 是 Spring Cloud 生态系统中的一个重要组件,用于构建 API 网关,提供路由、监控、安全等关键功能。以下是关于 Spring Cloud Gateway 3 的详细介绍: ## 1. 什么是 Spring Cloud Gateway? **Spring Clou…...

青少年编程与数学 02-005 移动Web编程基础 03课题、流式布局

青少年编程与数学 02-005 移动Web编程基础 03课题、流式布局 一、流式布局二、网页示例HTML (index.html)CSS (styles.css) 三、精灵图精灵图的工作原理精灵图的优点精灵图的缺点精灵图的适用场景 四、轮播图HTML (index.html)CSS (styles.css)JavaScript (script.js) 课题摘要…...

【数据可视化复习方向】

1.数据可视化就是数据中信息的可视化 2.数据可视化主要从数据中寻找三个方面的信息:模式、关系和异常 3.大数据可视化分类:科学可视化、信息可视化、可视分析学 4.大数据可视化作用:记录信息、分析推理、信息传播与协同 5.可视化流程&…...

Spring Security 6 系列之九 - 集成JWT

之所以想写这一系列,是因为之前工作过程中使用Spring Security,但当时基于spring-boot 2.3.x,其默认的Spring Security是5.3.x。之后新项目升级到了spring-boot 3.3.0,结果一看Spring Security也升级为6.3.0,关键是其风…...

大数据实验三

Python and anaconda 实验三数据预处理和轨迹聚类参考地址: https://www.hifleet.com/wp/communities/data/hangyundashujujishukechengshiyanzhinanshujuyuchulijiguijijuleichixugengxinzhong#post-2212https://www.hifleet.com/wp/communities/data/hangyundas…...

《计算机网络(第7版)-谢希仁》期末考试复习题和答案(总结整理)

目录 前言: 一、选择题。 二、填空题。 三、名词解释。 四、简答题。 前言: 这个自动标题自己带了序号,一开始想全部选项和题号都改过来的,结果一看一百多个全是,懒得改了 一、选择题。 1、广域网覆盖的地理范围…...

学习笔记 --C#基础其他知识点(持续更新)

C#中的同步和异步《一》 以下理解借鉴博客:借鉴博客地址1 异步编程(Asynchronous) 允许任务在后台执行,而不会阻塞调用线程。C#使用async和await关键字 async Task AsynchronousMethod() {// 等待异步操作完成await Task.Delay…...

STM32 高级 谈一下IPV4/默认网关/子网掩码/DNS服务器/MAC

首先可以通过 winr->输入cmd->输入ipconfig 命令可以查看计算机的各种地址 IPV4:是互联网协议第 4 版(Internet Protocol version 4)所使用的地址。它是一个 32 位的二进制数字,通常被分为 4 个 8 位的部分&#xff…...

智能家居实训室中,STC单片机驱动的“互联网+”智能家居系统设计

一、引言 随着经济的快速发展,人们对家居环境的智能化、网络化需求日益增强,智能家居的研究也因此受到了国内外相关机构的广泛关注。STC单片机凭借其卓越的性能和广泛的应用领域,成为了智能家居系统设计的优选方案。作为一种先进的微控制器&…...

esp32学习:用虫洞ESP32S3-EYE开发板快速实现USB摄像头(UVC免驱)

直接上干货:实现一个USB摄像头,免驱UVC设备。 硬件准备: 乐官方推荐的Cam开发板就是乐鑫带摄像头OV2604的esp32-s3-eye,我们虫洞esp32-s3-eye完全兼容这个板子哦,虫洞ESP32-S3-EYE 人脸识别 esp-cam升级 OpenCV LVGL …...

Python 面向对象编程 五(结束)组合

Python 面向对象编程 五(结束)组合 组合 组合 组合是面向对象编程中另一个流行的概念,它与封装也有一定关系。简单地说,组成是指在一个对象中包含一个或多个对象,从而形成一个真实世界的对象。包含其他类对象的类称为…...

基于微信小程序的校园访客登记系统

基于微信小程序的校园访客登记系统 功能列表 用户端功能 注册与登录 :支持用户通过手机号短信验证码注册和登录。个人资料管理 :允许用户编辑和更新个人信息及其密码。站内信消息通知:通知公告。来访预约:提交来访预约支持车牌…...

docker 部署mysql8

在Docker中部署MySQL 8是一个相对简单的过程。以下是基本的步骤: 拉取MySQL 8镜像: 使用Docker命令拉取最新的MySQL 8镜像: docker pull registry.openanolis.cn/openanolis/mysql:8.0.30-8.6创建并运行MySQL容器: 创建并运行MySQ…...

聊一聊 C#前台线程 如何阻塞程序退出

一:背景 1. 讲故事 这篇文章起源于我的 C#内功修炼训练营里的一位朋友提的问题:后台线程的内部是如何运转的 ? ,犹记得C# Via CLR这本书中 Jeffery 就聊到了他曾经给别人解决一个程序无法退出的bug,最后发现是有一个 Backgrond…...

【编译原理】往年题汇总(山东大学软件学院用)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀编译原理_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前言 2. …...

【原创学习笔记】近期项目中使用的西门子V20变频器总结(上篇)

现场V20 22kW变频器如图所示 进线分别为L1,L2,L3,PE线,出现分别为U,V,W接电机 在西门子官网查询手册后,查询可知可以通过多种方式控制变频器,比如:面板(BOP)控制,端子(NPN/PNP&…...

IndexOf Apache Web For Liunx索引服务器部署及应用

Apache HTTP Server 是一款广泛使用的开源网页服务器软件,它支持多种协议,包括 HTTP、HTTPS、FTP 等 IndexOf 功能通常指的是在一个目录中自动生成一个索引页面的能力,这个页面会列出该目录下所有的文件和子目录。比如网上经常看到的下图展现的效果,那么接下来我们就讲一下…...

Pytorch | 利用PI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击

Pytorch | 利用PI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集PI-FGSM介绍背景和动机算法原理算法流程 PI-FGSM代码实现PI-FGSM算法实现攻击效果 代码汇总pifgsm.pytrain.pyadvtest.py 之前已经针对CIFAR10训练了多种分类器: Pytorch | 从零构建AlexN…...

Casino Royale靶场wp

0x00 下载安装 https://download.vulnhub.com/casinoroyale/CasinoRoyale.ova 导入vmware启动 0x01 主机信息收集 0x02目录扫描 index.php 获取到一个域名 修改本地hosts 添加一行 路径:C:\Windows\System32\drivers\etc 192.168.2.20 casino-royale.local 点击…...

c/c++ 无法跳转定义

背景 对于嵌入式开发离不开交叉编译工作,采用vccode远程到虚拟机开发来说,总会遇到一个函数跳转问题。下面针对运用开发如何设置vscode保证函数能正确跳转大函数定义。 一、安装c/c插件 安装C/C Extension Pack插件,这插件包含有几个插件。…...

4.5 数据表的外连接

本次课程我们将继续的学习数据表的连接。因为数据表的连接是分为内连接和外连接的。内连接的语法,还有一些练习,我们都是学习到了。那么本次课程咱们就开始学习数据表的外连接语法。首先我来解释一下为什么要使用外连接这种语法。咱们首先看一条记录&…...

请购单一直提示需求部门不能为空无法提交

终于发现了它的逻辑。用户很多次反馈,提交请购单时,提示需求部门不能为空,既使选择了需求部门,保存时,神奇的是会清空掉部门的信息,提交时就会有错误提示出来。 原因:光选择单头上的需求部门是…...

Jenkins基础教程

Jenkins介绍 Jenkins 是一款开源的持续集成(CI)和持续交付(CD)工具,在软件开发和自动化部署流程中发挥着关键作用。 1.背景和起源 它最初是由 Sun Microsystems 公司的一名工程师开发的 Hudson 项目,后来…...

如何配置 Java 环境变量:设置 JAVA_HOME 和 PATH

目录 一、什么是 Java 环境变量? 二、配置 Java 环境变量 1. 下载并安装 JDK 2. 配置 JAVA_HOME Windows 系统 Linux / macOS 系统 3. 配置 PATH Windows 系统 Linux / macOS 系统 4. 验证配置 三、常见问题与解决方案 1. 无法识别 java 或 javac 命令 …...

深入解析 Pytest 钩子函数及二次开发过程

关注开源优测不迷路 大数据测试过程、策略及挑战 测试框架原理,构建成功的基石 在自动化测试工作之前,你应该知道的10条建议 在自动化测试中,重要的不是工具 在 Pytest 测试框架中,钩子函数(Hooks)是一种强…...

http 请求总结get

关于get请求传递body的问题 错误代码 有400 , 415 等情况 <!doctype html><html lang"zh"><head><title>HTTP Status 400 – 错误的请求</title><style type"text/css">body {font-family:Tahoma,Arial,sans-seri…...

漏洞扫描:网络安全的 “体检” 与 “防护指南”

在当今数字化时代&#xff0c;网络安全如同守护城堡的坚固城墙&#xff0c;而漏洞扫描则是检查城墙是否存在缝隙与薄弱环节的重要手段。那么&#xff0c;究竟什么是漏洞扫描&#xff1f;又该如何进行呢&#xff1f; 什么是漏洞扫描&#xff1f; 漏洞扫描是一种安全检测过程&a…...

《Vue进阶教程》第二十七课:实现侦听对象

往期内容&#xff1a; 《Vue进阶教程》第十六课&#xff1a;深入完善响应式系统之单例模式 《Vue进阶教程》第十七课&#xff1a;支持分支切换 《Vue进阶教程》第十八课&#xff1a;避免死循环 《Vue进阶教程》第十九课&#xff1a;computed初步实现 《Vue进阶教程》第二十…...

【Linux 网络 (五)】Tcp/Udp协议

Linux 网络 一前言二、Udp协议1&#xff09;、Udp协议特点2&#xff09;、Udp协议格式3&#xff09;、Udp报文封装和解包过程4&#xff09;、UDP的缓冲区 三、TCP协议1&#xff09;、TCP协议特点2&#xff09;、TCP协议格式1、4位首部长度、源端口、目的端口2、16位窗口大小3、…...

算法工程化工程师

算法工程化工程师是一种结合算法研究与工程开发能力的技术职位&#xff0c;主要职责是将算法从理论研究到实际落地&#xff0c;应用到各种工业或商业场景中。以下是关于这个职位的一些核心内容&#xff1a; 核心职责&#xff1a; 算法实现与优化&#xff1a; 将数学模型或算法…...

信息系统管理师试题-转型升级

1.3.转型升级 战略转型升级是对组织的长期发展方向、运行模式、组织战略、组织方式、资源配置方式、祖师文化等进行全方位升级变革。下列对战略转型升级的描述错误的是&#xff08;&#xff09; A大多数组织的转型主要是战略转型 B组织转型升级首先要解决的是战略选择问题 C组织…...

mysql三种读取模式(普通、流式、游标)

在与MySQL数据库交互时&#xff0c;数据的读取方式有多种选择&#xff0c;包括流式读取、游标读取和普通读取。每种方式都有其独特的原理、优势和劣势。本文将对这三种读取方式进行详细介绍&#xff0c; 1. 普通读取 介绍 普通读取是指通过JDBC的Statement或PreparedStateme…...

月子会所ERP管理云平台 GetData.ashx SQL注入致RCE漏洞复现

0x01 产品简介 月子会所ERP管理云平台是武汉金同方科技有限公司专为为母婴服务行业提供信息化解决方案,是结合行业顶级月子中心相关企业需求开发的一套综合性管理软件。该系统全面管控月子中心经营过程中的各个环节,提高总店及分店月子中心管理水平,规范月子中心从业人员操作…...

Ubuntu22.10/22.04 autoinstall--OK

第一步:建立ubuntu22.04 jammy apt本地源(见本博主对应栏) --------------------------------------------------------------------------------------- ubuntu22.04 grub配置: menuentry Ubuntu22.04-autoinstall(UEFI) --id UBUNTU22.04-autoinstall { echo "…...

操作系统之同步与互斥的基本概念

1. 同步的基本概念 定义&#xff1a;同步是指在多个并发执行的进程或线程之间协调其行为&#xff0c;以使它们能够正确地相互合作。在计算机科学中&#xff0c;同步通常指对共享资源进行访问控制&#xff0c;以避免竞争条件和死锁等问题。 实现方式&#xff1a;为了实现同步&a…...

【ANGULAR网站开发】初始环境搭建

1. 初始化angular项目 1.1 创建angular项目 需要安装npm和nodejs&#xff0c;这边不在重新安装 直接安装最新版本的angular npm install -g angular/cli安装指定大版本的angular npm install -g angular/cli181.2 启动angular 使用idea启动 控制台启动 ng serve启动成功…...

[青少年CTF练习平台]Lihua‘s for

下载附件之后直接IDA启动 查看dword_403040指向的内容&#xff0c;全是数据&#xff0c;提取出来 分析完成写脚本 flag "" temdata [0x00000066, 0x0000006D, 0x00000063, 0x00000064, 0x0000007F, 0x00000064, 0x00000032, 0x00000036, 0x0000006A, 0x000000…...

WebRTC服务质量(12)- Pacer机制(04) 向Pacer中插入数据

WebRTC服务质量&#xff08;01&#xff09;- Qos概述 WebRTC服务质量&#xff08;02&#xff09;- RTP协议 WebRTC服务质量&#xff08;03&#xff09;- RTCP协议 WebRTC服务质量&#xff08;04&#xff09;- 重传机制&#xff08;01) RTX NACK概述 WebRTC服务质量&#xff08;…...

css文字折行以及双端对齐实现方式

使用flex布局后&#xff0c;文字超出容器部分不会自动折行了。实现代码如下&#xff1a; <el-row><el-col :span"24"><span class"label">姓名</span><span class"content">{{name}}</span></el-col>…...

AI智能养站神器-SEO助理原创文章批量生成发布工具

很多站长最头疼的就是网站每天的内容更新&#xff0c;因为不知道写什么&#xff0c;采集被人的文章又会被定义为抄袭&#xff0c;而且现在伪原创已经没有多大的效果了&#xff0c;所以今天给大家分享的就是一款AI智能养战神器-SEO助理原创文章批量生成发布工具。 这款工具支持…...

python数据分析之爬虫基础:selenium详细讲解

目录 1、selenium介绍 2、selenium的作用&#xff1a; 3、配置浏览器驱动环境及selenium安装 4、selenium基本语法 4.1、selenium元素的定位 4.2、selenium元素的信息 4.3、selenium元素的交互 5、Phantomjs介绍 6、chrome handless模式 1、selenium介绍 &#xff08;1…...