当前位置：首页 > news >正文

深度学习笔记之BERT(三)RoBERTa

news 来源：原创 2025/7/14 14:09:00

深度学习笔记之RoBERTa

引言
- 回顾：BERT的预训练策略
- RoBERTa训练过程分析
- - 静态掩码与动态掩码的比较
  - 模型输入模式与下一句预测
  - 使用大批量进行训练
  - 使用Byte-pair Encoding作为子词词元化算法
  - 更大的数据集和更多的训练步骤
- RoBERTa配置

引言

本节将介绍一种基于 $\text{BERT}$ 改进优化的预训练方法—— $\text{RoBERTa}$ 。

回顾：BERT的预训练策略

$\text{BERT}$ 的预训练策略包含两个：

掩码语言模型训练 $(\text{Masked Language Model,MLM})$ ：将句子中一部分词语进行掩码标记，即使用 $[\text{MASK}]$ 对被掩码的词语进行替换。并将掩码部分的长度控制在总句子长度的 $15$ %。对于一个已被预期处理的示例句子：
$[[\text{CLS}],Paris,is,a,beautiful,city,[\text{SEP}],I,love,Paris]$
掩码标记后的结果示例为：
$[[\text{CLS}],Paris,is,a,[\text{MASK}],city,[\text{SEP}],I,love,[\text{MASK}]]$
即便在 $\text{BERT}$ 中使用80-10-10规则对 $\text{BERT}$ 的预训练进行泛化，但实际上它依然是静态掩码：这些工作均是在数据预处理部分执行的，在训练过程中，每个 $[\text{MASK}]$ 部分在句子中的位置是固定的。
下句预测 $(\text{Next Sentence Prediction,NSP})$ ：样本集是由两个连接的文档片段 $\text{Segment-1,Segment-2}$ 组成，并以 $50$ %的概率：
- 在同一文档中连续采样；
- 不同的文档中采样；
并对采样结果 $\text{Segment-1,Segment-2}$ 对应的如下格式中：
$[[\text{CLS}],\text{Segment-1},\text{[SEP]},\text{Segment-2},\text{[SEP]}]$
$[\text{CLS}]$ 对应的 $\text{BERT}$ 输出 $\mathcal R_{\text{[CLS]}}$ 使用 $\text{Softmax}$ 进行二分类(有关联/无关联)任务。

RoBERTa训练过程分析

静态掩码与动态掩码的比较

对于 $\text{BERT}$ 这种现象， $\text{RoBERTa}$ 先采用复制数据的方法进行补救：

将一个句子复制 $10$ 份，并将 $10$ 个句子进行随机掩码标记：
$\begin{aligned} & \mathcal S_1:[[\text{CLS}],Paris,is,a,[\text{MASK}],city,[\text{SEP}],I,love,[\text{MASK}]] \\ & \mathcal S_2:[[\text{CLS}],Paris,[\text{MASK}],a,beautiful,city,[\text{SEP}],I,love,Paris] \\ & \quad \vdots \\ & \mathcal S_{10}:[[\text{CLS}],[\text{MASK}],is,a,beautiful,[\text{MASK}],[\text{SEP}],I,love,Paris] \end{aligned}$
对模型进行 $\text{40 Epoch}$ 的全数据遍历训练，在每个 $\text{Epoch}$ 训练中，句子被掩盖标记都不同：
$\begin{aligned} & \text{Epoch 1:} \quad \mathcal S_1 \\ & \text{Epoch 2:} \quad \mathcal S_2 \\ & \quad \vdots \\ & \text{Epoch 10:} \quad \mathcal S_{10} \\ & \text{Epoch 11:} \quad \mathcal S_{1} \\ & \text{Epoch 12:} \quad \mathcal S_{2} \\ & \quad \vdots \\ & \text{Epoch 40:} \quad \mathcal S_{10} \\ \end{aligned}$
这相当于每一种 $\text{MASK}$ 模式被执行了 $4$ 次。虽然这种方法起到很好的泛化作用，但其本质上依然是静态掩码。

而动态掩码并没有在预处理阶段对数据进行 $\text{MASK}$ ，而是将数据导入模型过程中进行随机 $\text{MASK}$ 。这与上面复制数据的方法相比，它的泛化性更强。因为尤其在训练的 $\text{Epoch}$ 较大时，静态掩码由于会使同一份掩码结果训练多次，导致在训练过程中机械地记住这个规律。

下面是原文中静态掩码与动态掩码在同一任务中的对比情况。在一些任务中，动态掩码的效果略优于静态掩码。
静态vs动态

模型输入模式与下一句预测

$\text{BERT}$ 中的 $\text{NSP}$ 任务旨在句子层面有更优秀的理解，因此 $\text{RoBERTa}$ 针对 $\text{NSP}$ 任务设计了几种训练格式，来验证 $\text{NSP}$ 策略是否有效：

$\text{Segment-pair +NSP:}$ 原始 $\text{BERT}$ 使用的模式，其中每个段落 $(\text{Segment})$ 中可能包含多个句子 $(\text{Sentence})$ ，但 $\text{Token}$ 总长度小于 $512$ 。
$\text{Sentence-pair + NSP:}$ 将输入段落对改为句子对，正负样本的采样方式分别是从文档中连续采样和文档中单独采样。由于输入句子对 $\text{Token}$ 长度明显小于 $512$ ，因而通过增加 $\text{Batch size}$ 使 $\text{Token}$ 总量与 $\text{Segment-pair}$ 相似，并保留了 $\text{NSP}$ 策略。
$\text{Full-sentence:}$ 从一个/多个文档中采样出连续的完整句子， $\text{Token}$ 总长度不超过 $512$ ，并且允许超出文档边界。超出文档边界是指：当采样达到一个文档的末尾时，可以从下一个文档中继续进行采样作为该输入的一部分，但需要在文档之间加入一个额外分隔符，并且该实验删除了 $\text{NSP}$ 策略。
$\text{Doc-sentence:}$ 与 $\text{Full-sentence}$ 采样方式相似，但是不允许超出文档边界。相比于 $\text{Full-sentence}$ ，它的 $\text{Token}$ 长度有可能偏少，因此同样通过增加 $\text{Batch size}$ 使 $\text{Token}$ 总量与 $\text{Full-sentence}$ 相似，并同样删除了 $\text{NSP}$ 策略。

下面是原文对四种训练格式在若干任务中的效果：
4-method

比较使用 $\text{NSP}$ 策略的 $\text{Segment-pair}$ 和 $\text{Sentence-pair}$ 格式，发现使用 $\text{Segment}$ 效果明显由于 $\text{Sentence}$ ，原因可能是模型很难从单句中学习到长依赖关系。
对使用 $\text{NSP}$ 策略和未使用 $\text{NSP}$ 的角度进行比较，发现：删除 $\text{NSP}$ 策略能够略微提高下游任务的性能
$\text{Doc-sentence}$ 略优于 $\text{Full-sentence}$ 。但由于 $\text{Doc-sentence}$ 长度不固定，导致 $\text{Batch size}$ 存在变化，因而后续实验均使用 $\text{Full-sentence}$ 格式进行比较。

使用大批量进行训练

原始 $\text{BERT}$ 使用 $\text{Batch size=256}$ 进行训练，训练步骤数量为 $\text{1M}$ 。在保持总计算量基本不变的情况下，将 $\text{Batch size}$ 由 $256$ 扩展至 $\text{2K,8K}$ ；对应训练步骤缩减至 $\text{125K,31K}$ ；并相应地调整学习率 $(\text{lr})$ ：
large batch size
可以发现： $\text{Batch size}$ 为 $\text{2K}$ 时表现效果最好。但考虑到并行更容易，作者均选择 $\text{8K}$ 作为后续实验的 $\text{Batch size}$ 。

使用Byte-pair Encoding作为子词词元化算法

$\text{RoBERTa}$ 并没有使用 $\text{Unicode}$ 作为子词次元 $(\text{Subword Unit})$ ，而是使用 $\text{Bytes}$ 进行替代。这种方式可以编码任何输入文本，并且不会引入任何 $\text{Unknown}$ 标记，这会使 $\text{Vocab size}$ 变得更大，参数更多 $(30\text{K} \Rightarrow 50\text{K})$ 。

以句子： $\text{It was a great day}$ 为例，对应 $\text{RoBERTa}$ 模型的标记结果如下：
$[\text{it},\dot{\text{G}}\text{was},\dot{\text{G}}\text{a},\dot{\text{G}}\text{great},\dot{\text{G}\text{day}}]$
其中 $\dot{\text{G}}$ 表示一个空格， $\text{RoBERTa}$ 词元分析其将所有空格替换为 $\dot{\text{G}}$ 字符。再以一个句子为例： $\text{I had a sudden epiphany}$ (我灵光一闪)：
$[\text{I},\dot{\text{G}}\text{had},\dot{\text{G}}\text{a},\dot{\text{G}}\text{sudden},\dot{\text{G}}\text{ep},\text{iphany}]$
这种标注结果是因为：未从词表中找到单词 $\text{epiphany}$ ，从而将其拆解未 $\text{ep}$ 和 $\text{iphany}$ 两部分。

更大的数据集和更多的训练步骤

$\text{RoBERTa}$ 延用了 $\text{BERT-large}$ 结构 $(\text{L=24,A=16,H=1024})$ ，在 $\text{Batch size}$ 固定为 $\text{8K}$ 的情况下，作者进行一系列对比实验：
有点降维打击的意思~数据量大意味着信息更丰富，效果好也在情理之中~
more data more steps
可以发现：

即便没有增加数据， $\text{RoBERTa}$ 依旧比 $\text{BERT-large}$ 结果优秀。当然总计算量增加了很多 $(\text{Batch size=8K,steps:31K} \Rightarrow 100\text{K})$ ，但这并没有带来过拟合的问题。
在训练数据基础上加上 $\text{additional Data}$ 效果进一步提升；
训练过程很稳定：即便 $\text{steps=500K}$ ，依然没有出现过拟合的现象。

RoBERTa配置

综合上面的比对结果，作者给出 $\text{RoBERTa}$ 的基本配置：

动态掩码；
策略： $\text{Full-sentence without NSP}$ ；
更大的 $\text{Batch size}$ ；
使用更大 $\text{Vocab size}$ ，字节级别的 $\text{Byte-pair Encoding}$ 进行训练
训练过程中使用更多的 $\text{steps}$ 和 $\text{additional Data}$ ；

在 $\text{GLUE,SQuAD,RACE}$ 等任务中的表现结果如下：

$\text{GLUE}$
$\text{SQuAD}$
$\text{RACE}$

$\text{Reference}$ ：
论文链接
《BERT基础教程——Transformer大规模实战》

深度学习笔记之BERT(三)RoBERTa

深度学习笔记之RoBERTa 引言回顾：BERT的预训练策略RoBERTa训练过程分析静态掩码与动态掩码的比较模型输入模式与下一句预测使用大批量进行训练使用Byte-pair Encoding作为子词词元化算法更大的数据集和更多的训练步骤 RoBERTa配置引言本节将介绍一种基于 BERT \t…...

编程日记 2025/7/14 14:09:00

windows docker 入门

这个教程将指导你如何安装Docker、运行第一个容器以及理解一些基本概念。第一步：安装Docker Desktop for Windows 系统要求： Windows 10 64位版本（专业版、企业版或教育版）。启用Hyper-V和Windows Subsystem for Linux (WSL 2)。…...

编程日记 2025/7/12 23:47:07

【软考速通笔记】系统架构设计师③——信息安全技术基础知识

文章目录一、前言二、信息安全基础知识2.1 信息安全的基本要求2.2 信息安全的范围2.3 网络安全表现2.4 安全措施包括三、信息安全系统的组成框架3.1 技术体系：3.2 组织机构体系：3.3 管理体系四、信息加解密技术4.1 对称密钥加密算法4.2 非对称密钥加密…...

编程日记 2025/7/14 21:45:30

Spring Boot整合Redis Stack构建本地向量数据库相似性查询

Spring Boot整合Redis Stack构建本地向量数据库相似性查询在微服务架构中，数据的高效存储与快速查询是至关重要的。Redis作为一个高性能的内存数据结构存储系统，不仅可以用作缓存、消息代理，还可以扩展为向量数据库，实现高效的相…...

编程日记 2025/7/12 14:08:48

设计模式-装饰者模式

背景有一个咖啡馆有单品咖啡：意大利浓咖啡、美式咖啡、无因咖啡调料：牛奶、巧克力点单时需要点一个单品咖啡，可以选择加调料或者不加。最后计算价格。较好的传统思路： 创建一个抽象的咖啡类，其中有各个调…...

编程日记 2025/7/3 18:15:18

.NetCore 过滤器和拦截器的区别

Asp.NET Core 中的过滤器（Filter）和拦截器（Interceptor）是两个不同的概念，但它们在某些方面有相似之处，也有明显的区别。 🔑过滤器（Filter） 过滤器是Asp.NET Core中用于…...

编程日记 2025/7/14 18:17:51

uniapp实现APP版本升级

App.vue 直接上代码 <script>export default {methods: {//APP 版本升级Urlupload() {// #ifdef APP-PLUSplus.runtime.getProperty(plus.runtime.appid, (info) > {// 版本号变量持久化存储getApp().globalData.version info.version;this.ToLoadUpdate(info.versi…...

编程日记 2025/7/14 22:30:46

c语言的qsort函数理解与使用

介绍：qsort 函数是 C 标准库中用于排序的快速排序算法函数。它的用法非常灵活，可以对任意类型的元素进行排序，只要提供了比较函数即可。 qsort 函数原型及参数解释： void qsort ( void* base, //指向要排序的数组的首元素…...

编程日记 2025/7/14 22:10:52

k8s集群增加nfs-subdir-external-provisioner存储类

文章目录前言一、版本信息二、本机安装nfs组件包三、下载nfs-subdir-external-provisioner配置文件并进行配置1.下载文件2.修改配置三、进行部署备注：关于镜像无法拉取问题的处理前言手里的一台服务器搭建一个单点的k8s集群，然后在本机上使用nfs-su…...

编程日记 2025/7/14 22:39:44

IT成长之路-ubuntu驱动篇

历时3天的蹂躏，总结驱动安装全面教程。步骤一、安装gcc、g和make包 #脚本更新 sudo apt-get update #编译gcc sudo apt-get install gcc #编译g sudo apt-get install g #编译make sudo apt-get install make 注意： gcc、g版本可能会导致显卡驱动安…...

编程日记 2025/7/14 22:09:38

AI大模型如何赋能电商行业，引领变革

目录 1.概述 1.1. 购物推荐系统 1.2. 会员分类与客户细分 1.3. 动态商品定价 1.4. 库存和供应链管理 1.5. 客户服务与体验 1.6. 内容生成与管理 2.AI技术在电商中的创新应用 2.1.淘宝 2.2.京东 2.3.华为 2.4.小米 3.AI技术在提高电商平台销售效率方面发挥的作用 …...

编程日记 2025/7/14 8:12:50

QT6学习第四天感受QT的文件编译

QT6学习第四天感受QT的文件编译使用纯代码编写程序新建工程使用其他编辑器纯代码编写程序并在命令行运行使用 .ui 表单文件生成界面使用自定义 C 窗口类使用现成的QT Designer界面类使用纯代码编写程序我们知道QT Creator中可以用拖拽的方式在 .ui 文件上布局&#xff0c…...

编程日记 2025/7/14 20:12:56

地平线 bev_cft_efficientnetb3 参考算法-v1.2.1

01 概述在自动驾驶感知算法中 BEV 感知成为热点话题，BEV 感知可以弥补 2D 感知的缺陷构建 3D “世界”，更有利于下游任务和特征融合。地平线集成了基于 bev 的纯视觉算法，目前已支持 ipm-based 、lss-based、 transformer-based&#xff…...

编程日记 2025/7/14 21:35:43

【linux】shell脚本

文章目录 1. jar包启动脚本1.1 方式一1.2 方式二 2. 进程关闭脚本3. 操作mysql4. impala建表语句提取5. 监控磁盘存量6. 清日志脚本7. 替换tomcat的启动端口8. 将一行数据按照空格依次读取 1. jar包启动脚本 1.1 方式一 #!/bin/sh RESOURCE_NAME/usr/local/applications/scre…...

编程日记 2025/7/14 21:42:25

构建一个去中心化的零售生态参与者的商业模型

在数字化和去中心化技术快速发展的背景下，传统零售行业正迎来革命性的转型。去中心化零售生态不仅让消费者、商家和内容创作者在同一平台上共同参与价值的创造和分配，还推动了零售体验、数据控制和社会互动的彻底变革。本文将探讨如何构建一个去中心化的…...

编程日记 2025/7/14 21:55:18

Spring Boot开发实战：从入门到构建高效应用

Spring Boot 是 Java 开发者构建微服务、Web 应用和后端服务的首选框架之一。其凭借开箱即用的特性、大量的自动化配置和灵活的扩展性，极大简化了开发流程。本文将以实战为核心，从基础到高级，全面探讨 Spring Boot 的应用开发。一、Spring B…...

编程日记 2025/7/14 22:08:04

MyBatis（mybatis_plus）中TypeHandler的使用教程

MyBatis（mybatis_plus）中TypeHandler的使用教程一.TypeHandler作用及其使用场景在我们平常开发操作数据库时，查询、插入数据等操作行为，有时会报数据类型不匹配异常，就可以得知数据的类型是不唯一的必然是多种不同…...

编程日记 2025/7/14 6:53:28

【C++】IO库（三）：string流

8.3 string 流 sstream 头文件定义了三个类型来支持内存 IO，这些类型可以向 string 写入数据，也可以从 string 读取数据，就像 string 是一个 IO 流一样。 istringstream 从 string 读数据；ostringstream 向 string 写入数据&…...

编程日记 2025/7/13 21:20:58

C# 反射详解

反射是C#中的一个强大特性，允许程序在运行时检查和操作类型和对象的信息。通过反射，你可以获取类型的属性、方法、构造函数等信息，并可以动态创建对象、调用方法或访问属性，甚至可以实现某些框架或库的核心功能。反射的基本概念…...

编程日记 2025/7/14 10:12:38

量化交易系统开发-实时行情自动化交易-8.量化交易服务平台（一）

19年创业做过一年的量化交易但没有成功，作为交易系统的开发人员积累了一些经验，最近想重新研究交易系统，一边整理一边写出来一些思考供大家参考，也希望跟做量化的朋友有更多的交流和合作。接下来会对于收集整理的33个量化交易服…...

编程日记 2025/7/12 18:04:47

【开发商城系统】

在广西开发商城系统，可以按照以下步骤进行： 确定项目需求：与客户沟通，了解商城系统所需的功能和特性，并确定项目的预算和时间限制。进行市场调研：了解广西地区的电商市场情况，包括竞争对手、消…...

编程日记 2025/7/14 8:40:17

C++设计模式-享元模式

动机(Motivation) 在软件系统采用纯粹对象方案的问题在于大量细粒度的对象会很快充斥在系统中，从而带来很高的运行时代价——主要指内存需求方面的代价。如何在避免大量细粒度对象问题的同时，让外部客户程序仍然能够透明地使用面向对象的方式来进行操作…...

编程日记 2025/7/14 17:00:42

Spark——安装步骤详细教程

1、安装步骤 1、上传 cd /opt/modules 2、解压 tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs 3、重命名 cd /opt/installs mv spark-3.1.2-bin-hadoop3.2 spark-local 4、创建软链接 ln -s spark-local spark 5、配置环境变量： vi /etc/prof…...

编程日记 2025/7/14 22:41:27

摆烂仙君传——深度学习秘境奇缘

第一章：深度学习秘境在修仙界与科技交织的边缘，八荒六合九天无上摆烂仙君在其高科技修炼室中感应到一股神秘的召唤。这股力量似乎与他的灵魂产生了共鸣，引导他前往传说中的深度学习秘境。在那里，古老的仙法与前沿的算法交织&…...

编程日记 2025/7/13 15:38:54

C++设计模式：桥接模式（Bridge）

什么是桥接模式？ 桥接模式（Bridge Pattern）是一个用来解耦的设计模式，它将抽象层和实现层分离开，让它们可以独立变化。用最简单的话来说，就是让你能够改变抽象的功能和具体的实现，而不需要修改…...

编程日记 2025/7/14 22:20:26

c++源码阅读__smart_ptr__正文阅读

文章目录简介源码解析1. 引用计数的实现方式2. deleter静态方法的赋值时间节点3.make_smart的实现方式与好处4. 几种构造函数4.1 空构造函数4.2 接收指针的构造函数4.3 接收指针和删除方法的构造函数 , 以及auto进行模板lambda的编写4.4 拷贝构造函数4.5 赋值运算符 5. rele…...

编程日记 2025/7/14 22:17:06

halcon3D 1:1切片轮廓投影技术，透过像素距离，知实际物体的尺寸

首先说做个什么事儿对一个物体的横截面进行1:1或者1:10的投影，也就是说世界物体1mm的话，投影到image中占1个或者10个像素值，这样，就可以透过直接计算image中的像素距离，知道实际物体的尺寸用一张图说明是这样的。物…...

编程日记 2025/7/14 22:13:41

npm库xss依赖的使用方法和vue3 中Web富文本编辑器 wangeditor 使用xss库解决 XSS 攻击的方法

npm库xss依赖的使用方法和vue3 中Web富文本编辑器 wangeditor 使用xss库解决 XSS 攻击的方法 1. npm库xss依赖的使用方法1.1 xss库定义1.2 xss库功能 2. vue3 中 wangeditor 使用xss库解决 XSS 攻击的方法和示例2.1 在终端执行如下命令安装 xss 依赖2.2 在使用 wangeditor 的地…...

编程日记 2025/7/13 6:59:34

计算机网络实验七 NAT配置实验

一、实验目的通过本实验理解网络地址转换的原理和技术，掌握扩展NAT/NAPT设计、配置和测试。二、实验原理 NAT配置实验的原理主要基于网络地址转换（NAT）技术，该技术用于将内部私有网络地址转换为外部公有网络地址，从…...

编程日记 2025/7/14 0:02:58

UI设计-色彩、层级、字体、边距（一）

一.色彩：色彩可以影响人的心理与行动，具有不同的象征意义；有冷暖，轻重，软硬等等。 1.色彩情绪：最直观的视觉感受一个活动的页面所用的颜色必须要与其内容相适应，让人看起来舒服。有时我们会不…...

编程日记 2025/7/9 10:06:13

【网络安全】

黑客入侵什么是黑客入侵？ “黑客”是一个外来词，是英语单词hacker的中文音译。最初，“黑客”只是一个褒义词，指的是那些尽力挖掘计算机程序最大潜力的点脑精英，他们讨论软件黑客的技巧和态度，以及共享文化…...

编程日记 2025/7/14 21:14:20

c++趣味编程玩转物联网：基于树莓派Pico控制有源蜂鸣器

有源蜂鸣器是一种简单高效的声音输出设备，广泛应用于电子报警器、玩具、计时器等领域。在本项目中，我们结合树莓派Pico开发板，通过C代码控制有源蜂鸣器发出“滴滴”声，并解析其中涉及的关键技术点和硬件知识。一、项目概述 1. 项…...

编程日记 2025/7/14 22:26:54

【MySQL】MySQL从入门到放弃

文章目录声明MYSQL一,架构1.1.网络连接层数据库连接池 1.2.系统服务层1.2.1.SQL接口1.2.2.存储过程1.2.3.触发器1.2.4.解析器1.2.5.优化器1.2.6.缓存,缓冲 1.3.存储引擎层1.4.文件系统层1.4.1.日志模块1.4.2.数据模块二,SQL 执行2.1.执行流程2.2.刷盘2.3.返回三.库表设计3.1…...

编程日记 2025/7/14 20:55:56

redis-cluster集群搭建

集群节点信息 192.168.222.131:46379 主要节点1 192.168.222.131:46380 从节点1 192.168.222.131:46381 从节点2192.168.222.132:46379 主要节点2 192.168.222.132:46380 从节点1 192.168.222.132:46381 从节点2192.168.222.133:46379 主要节点3 192.168.222.133:46380 从节点…...

编程日记 2025/7/14 21:59:43

C语言解决空瓶换水问题：高效算法与实现

标题：C语言解决空瓶换水问题：高效算法与实现一、问题描述在一个饮料促销活动中，你可以通过空瓶换水的方式免费获得更多的水：3个空瓶可以换1瓶水。喝完这瓶水后，空瓶会再次变为空瓶。假设你最初拥有一定数量的空瓶&a…...

编程日记 2025/7/14 21:58:57

单例模式入门

单例模式是一种创建型设计模式， 让你能够保证一个类只有一个实例， 并提供一个访问该实例的全局节点。它的运作方式是这样的： 如果你创建了一个对象， 同时过一会儿后你决定再创建一个新对象， 此时你会获得之前已创建的…...

编程日记 2025/7/14 1:46:03

MongoDB快速入门

1 MongoDB 1.1 MongoDB 概念 1.1.1 什么是 MongoDB MongoDB 是在2007年由DoubleClick公司的几位核心成员开发出的一款分布式文档数据库，由C语言编写。目的是为了解决数据大量增长的时候系统的可扩展性和敏捷性。MongoDB要比传统的关系型数据库简单很多。在Mo…...

编程日记 2025/7/9 7:45:15

c语言中的extern是什么

在C语言中，extern 是一个关键字，用于声明变量或函数的外部链接。它告诉编译器该变量或函数的定义在其他文件中，编译器在编译当前文件时并不需要知道变量或函数的具体定义，而是将它们视作外部引用。 1. 变量的 extern 声明当你在…...

编程日记 2025/7/9 10:24:53

CTF之密码学（摩斯密码）

一、历史背景摩尔斯电码发明于1837年，是一种早期的数字化通信形式。它最初由艾尔菲德维尔和摩尔斯等人构思，通过点、划和中间的停顿，把各个字元以及标点符号彼此独立地发送出去。这种标识不同符号的方案后来被放入摩尔斯的专利中&#xff0…...

编程日记 2025/7/13 2:35:44

Flink 任务启动脚本-V2（包括ck启动）

#!/bin/bash#crontab时设置，如果依赖其他环境变量配置，可以在脚本执行一下环境变量脚本 source /etc/profile# 进入脚本目录 curdirdirname "$0" curdircd "$curdir"; pwd echo "进入启动脚本目录 $curdir"# 定义应用程序…...

编程日记 2025/7/13 9:23:36

16：00面试，16：08就出来了，问的问题有点变态。。。

从小厂出来，没想到在另一家公司又寄了。到这家公司开始上班，加班是每天必不可少的，看在钱给的比较多的份上，就不太计较了。没想到8月一纸通知，所有人不准加班，加班费不仅没有了，薪资还要降40%…...

编程日记 2025/7/9 2:54:55

selinux和防火墙

SElinux 1、selinux简介 SELinux是Security-Enhanced Linux的缩写，意思是安全强化的linux。 SELinux 主要由美国国家安全局（NSA）开发，当初开发的目的是为了避免资源的误用。 SELinux是对程序、文件等权限设置依据的一个内核模块。…...

编程日记 2025/7/10 18:37:00

Android 13 Aosp Settings Android Studio版本

Android 13 Aosp Settings Android Studio版本 Settings相关源码 Settings https://android.googlesource.com/platform/packages/apps/Settings/+/refs/heads/android13-release SettingsIntelligence https://android.googlesource.com/platform/packages/apps/SettingsIn…...

编程日记 2025/7/12 16:36:20