当前位置: 首页 > news >正文

【NLP】35. 构建高质量标注数据

如何构建高质量标注数据?大语言模型背后的那只“看不见的手”

在讨论大语言模型(LLM)性能突破时,人们总是聚焦在模型参数、结构设计和训练技巧上。但真正懂行的人都知道——再好的模型也离不开一手好数据,尤其是那些“有监督”的数据。而这其中,标注数据扮演着至关重要的角色。

本篇博客将深入解析:标注数据从哪来,怎么做,做得好有什么标准,以及如何以工程化方式规模化生产高质量标注数据,帮助大模型实现真正的能力跃升。


一、真实数据 vs 人工构造:从源头开始选材

在构建标注集时,第一步并不是开始打标签,而是决定“标什么”。这其实是一个设计任务。

✅ 真实数据的优势与挑战:

  • 覆盖真实语言现象,有“语感”;

  • 包含复杂语义、歧义和上下文;

  • 但问题是:

    • 稀有结构难以覆盖(比如特殊疑问句、罕见表达);
    • 原始语料存在结构混乱、语义偏见等问题。

✅ 人工构造数据的风险:

  • 可以覆盖特殊语言结构和任务边缘案例;
  • 但也容易陷入模式化、模板化,导致模型“学到表面模式”,而非“真正理解”。

📌 最优解:双源融合

用真实数据构建基本“语言习惯”,再用合成数据进行任务补充、边界覆盖。


二、标注前的数据预处理:为标注员扫清道路

想象一下,你在 Excel 表格中标注几千条文本,而文本却全是 HTML 源码、乱码段落或未分句句群。那一定是噩梦。

所以,预处理是标注前最重要的准备工作,包括:

  • ✅ HTML 正文抽取(如使用 Trafilatura);
  • ✅ 语言检测与筛选(FastText 可作为工具);
  • ✅ 编码与标点标准化(防止段落错乱);
  • ✅ 句子切分与初步分词(提升可读性);
  • ✅ 自动预测辅助标注(如词性标注、NER 初筛结果)。

这些操作虽然不“标签化”,但能显著提高后续标注效率与质量。


三、从零标还是模型先标?两种标注范式的取舍

现代标注流程中,人类和模型协作已经成为趋势,但仍有两种基本模式:

✍️ 完全人工标注(From Scratch)

适用于小数据集、初始任务探索或无法使用预训练模型的任务:

  • ✅ 干净无污染;
  • ❌ 成本高、效率低;
  • ❌ 易受个人理解影响,产生不一致。

🤖 模型预标 + 人工校对(Pre-labeling + Edit)

适用于规模化生产标注数据,流程如下:

  1. 使用已有模型(如BERT、SpaCy)先做一轮预测;
  2. 人工对预测结果进行“批量修正”;
  3. 将修正行为反馈回模型。

📌 推荐策略:

“模型先标,人类校验”,再反哺模型优化。

🧪 示例:医疗意图识别任务

原始语句:这几天一直头晕,感觉心跳很快,是否是心律失常?
预标输出:
[这几天一直头晕] — 症状_描述  
[心跳很快] — 症状_描述  
[是否是心律失常] — 疾病_怀疑人工修正:合并两个症状段,调整关系为并列。

四、构建一套“能落地”的标注指南

标注指南不是说明书,而是**“团队语义认知的一致性锚点”**。

一个高质量的指南必须具备:

  1. 清晰的标签定义(标签含义、适用条件);
  2. 边界说明(两个标签如何区分);
  3. 正反示例配对(什么该标、什么不该标);
  4. 多轮修订机制(不是写好就不动,要不断迭代)。

📌 高质量指南 = 降低歧义 + 减少争议 + 提高一致性


五、试点标注:正片开始前的“彩排”

在正式铺开标注工作之前,一定要进行Pilot 标注试点实验。流程建议如下:

🧪 试点执行建议:

  1. 抽取 100 条样本;

  2. 让多位标注员独立标注;

  3. 统计一致性指标(Cohen’s Kappa、Fleiss’ Kappa);

  4. 组织审查会议:

    • 统计出现最多的误解点;
    • 汇总疑难样本;
    • 针对性修改指南或训练内容。

📌 试点阶段的目标:

不在于“标多少”,而是确保“能否一起正确标”。


六、标注者也需要“系统训练”

再好的工具和指南,也敌不过“理解偏差”。一个标注项目必须配备一套完整的培训流程,包括:

  1. 任务与背景介绍(包括使用场景);
  2. 阅读标注指南并参加测验
  3. 实操练习样本 + 标准答案比对
  4. 讲解错因分析 + 标注策略讨论
  5. 一致性测试(Kappa)打分过关
  6. 持续抽样 + 反馈机制保持稳定质量

📌 专业标注 ≠ 懂中文,而是懂得“怎么标+为何这样标+团队怎么标”

好的,以下是这篇博客的后半部分,继续聚焦于标注系统的工程化流程、冲突处理机制、困难样本设计以及 Prompt 标注的新范式,结构与风格与前半部分完全一致,可直接拼接使用。


七、走向规模化:全面标注阶段的质量控制机制

一旦完成试点标注,就进入数据构建的主战场——全量标注阶段。这一阶段的最大挑战是:

如何保持数万条标注数据的一致性与质量?

✅ 多人冗余标注(Redundant Labeling)

  • 每条样本由 2–3 位标注者独立处理;
  • 系统记录冲突样本,送入人工裁定流程;
  • 可计算一致性指标(如 Fleiss’ Kappa)判断任务难度与团队对齐情况。

✅ 抽样质检机制

  • 每周抽取新标注数据的子集(如 1–5%);
  • 团队共同评审“高误差”样本,识别潜在标签滥用或理解偏差;
  • 将问题样本反馈到培训机制与标注指南中。

✅ 动态修订指南

  • 将真实数据中出现的“模糊边界”案例及时纳入;
  • 明确分类原则;
  • 补充“反例说明”防止误标。

📌 数据量变大,靠制度维护质量,而非依赖个体经验。


八、一致性指标与冲突处理机制

即使团队训练有素,不同标注者之间的理解差异仍然不可避免。因此需要建立一套“冲突识别与裁定”机制。

📏 一致性指标工具箱:

指标适用场景
Cohen’s Kappa两人标注一致性计算
Fleiss’ Kappa多人标注一致性
Krippendorff’s Alpha多标签、多类型任务更适用

指标含义并非“准确率”,而是“是否高于随机一致水平”。

  • Kappa > 0.80:高度一致

  • 0.60–0.80:基本可靠

  • < 0.60:需校准标注方式或指南

⚖️ 裁定机制(Adjudication):

  1. 系统收集冲突样本;
  2. 高级标注员或专家复查,记录最终标签与理由;
  3. 冲突高发样本类型纳入“错误典型库”作为培训素材。

📌 冲突不是坏事,是“语义界限”的信号。


九、识别与采集“困难样本”(Hard Cases)

训练模型最怕的不是数据少,而是数据太“简单”——模型轻松学会套路,却在边界条件一败涂地。

💡 如何构建困难样本?

  1. 模型置信度低的预测结果

    • 可通过 entropy、softmax gap 判断;
    • 置信度低但正确 or 置信度高却错误 = 价值样本。
  2. 标注者冲突频繁样本

    • 人都意见不一,往往是“语义模糊”的边界例子。
  3. 任务反例构造

    • 人工设定看似合理却不符标签的“诱惑样本”;
    • 如自然语言推理中的“假设似乎成立,但并无明确信息支持”。

📌 困难样本是评估泛化能力的试金石,也适合用于对抗训练。


十、Prompt 也需要被“系统化标注”

随着大模型使用从“训练模型”转向“提示工程”,Prompt 本身也成为关键数据。

但一个好 Prompt 到底应该怎么定义?

✅ 好 Prompt 的五维标准:

维度描述
清晰性指令是否明确、逻辑完整
对齐度是否与任务目标一致
鲁棒性换种说法模型是否还能理解
输出可控性是否能生成统一、规范的输出格式
适应性(泛化)不仅适用于示例,也适用于其他输入

🧪 替代案例:Prompt 质量标注

任务:意图分类
输入句子:我想查询一下账单
候选 Prompt:

A. 这句话属于以下哪类:咨询 / 抱怨 / 表扬 / 请求
B. 你能看出这句话的情绪倾向吗?
C. 请判断句子是关于“账单查询”还是“支付失败”?

标注员对每条 Prompt 的质量进行 1–5 分打分,依据上面 5 个维度。

📌 Prompt 本质上是“模型的输入设计语言”,系统标注它是为了让设计 Prompt 这件事更系统化、可评估、可迁移。


十一、从 Prompt 到任务结构设计:打造通用任务语言

Prompt 标注不是“调句子”,而是在建立一种“任务定义语言”,我们可以将其组织为结构化数据:

{"instruction": "请从以下类别中选择最匹配的意图","input": "我想查一下我的账单","choices": ["查询", "投诉", "建议"],"output_format": "中文标签"
}

结构化的 Prompt 定义可以:

  • 用于数据生成;
  • 用于模型训练;
  • 用于评估 A/B Prompt 效果;
  • 用于多语言迁移。

📌 Prompt 工程的终点不是写出一句完美提示,而是形成一个任务模板语言(Task Template Language)


十二、结语:你不是在标数据,你在定义智能的边界

从网页抽取、数据清洗、指南编写、冲突裁定,到 Prompt 工程与平台化协同,标注系统不仅仅是“数据准备的一环”。

它是一个人工智能系统的语义支柱训练杠杆边界定义器

✅ 标注不是成本,是投资

  • 投资的是数据质量;
  • 收获的是模型能力。

✅ 标注不是辅助,是决定性资源

  • 模型能力 ≈ 数据覆盖 + 标注清晰度 + 表达一致性;
  • 没有标注系统,Prompt tuning 也不过是“猜”。

如果你正在构建自己的语言模型训练体系,或者希望将你的模型真正“用起来”,请不要忽略标注系统的作用。

你不是在标注文本,你是在教机器看懂世界。

相关文章:

【NLP】35. 构建高质量标注数据

如何构建高质量标注数据&#xff1f;大语言模型背后的那只“看不见的手” 在讨论大语言模型&#xff08;LLM&#xff09;性能突破时&#xff0c;人们总是聚焦在模型参数、结构设计和训练技巧上。但真正懂行的人都知道——再好的模型也离不开一手好数据&#xff0c;尤其是那些“…...

2024CCPC吉林省赛长春邀请赛 Java 做题记录

目录 I. The Easiest Problem G. Platform Game L. Recharge E. Connected Components I. The Easiest Problem 签到题 直接输出 21 即可 // github https://github.com/Dddddduo // github https://github.com/Dddddduo/acm-java-algorithm // github https://github.com/…...

黑马程序员C++2024新版笔记 第三章 数组

1.数组定义 数组是一批相同类型的元素&#xff08;element&#xff09;的集合组成的数据结构。 声明语法&#xff1a; <数据类型> <数组名> [<数组长度>] int v[6] // 声明了可以存放6个int数字的数组 数组的每个元素有编号&#xff0c;称之为下标索引…...

Golang的网络安全策略实践

Golang的网络安全策略实践 一、理解网络安全的重要性 当今的网络环境中&#xff0c;安全问题日益突出&#xff0c;各种类型的攻击如雨后春笋般涌现&#xff0c;给个人和组织的信息资产造成了严重威胁。因此&#xff0c;制定和实施有效的网络安全策略至关重要。 二、Golang在网络…...

SAP学习笔记 - 开发13 - CAP 之 添加数据库支持(Sqlite)

上一章学习了CAP开发准备&#xff0c;添加Service。 SAP学习笔记 - 开发12 - CAP 之 开发准备&#xff0c;添加服务-CSDN博客 本章继续学习CAP开发 - 添加数据库支持&#xff08;Sqlite&#xff09;。 目录 1&#xff0c;数据库准备 - H2 内存数据库 - Sqlite数据库 a&…...

DRIVEGPT4: 通过大语言模型实现可解释的端到端自动驾驶

《DriveGPT4: Interpretable End-to-End Autonomous Driving via Large Language Model》 2024年10月发表&#xff0c;来自香港大学、浙江大学、华为和悉尼大学。 多模态大型语言模型&#xff08;MLLM&#xff09;已成为研究界关注的一个突出领域&#xff0c;因为它们擅长处理…...

LLM最后怎么输出值 解码语言模型:从权重到概率的奥秘

LM Head Weights&#xff08;语言模型头部权重&#xff09;&#xff1a;左侧的“LM Head Weights”表示语言模型头部的权重矩阵&#xff0c;它是模型参数的一部分。权重矩阵与输入数据进行运算。Logits&#xff08;未归一化对数概率&#xff09;&#xff1a;经过与LM Head Weig…...

Better Faster Large Language Models via Multi-token Prediction 原理

目录 模型结构&#xff1a; Memory-efficient implementation&#xff1a; 实验&#xff1a; 1. 在大规模模型上效果显著&#xff1a; 2. 在不同类型任务上的效果&#xff1a; 为什么MLP对效果有提升的几点猜测&#xff1a; 1. 并非所有token对生成质量的影响相同 2. 关…...

【NLP】34. 数据专题:如何打造高质量训练数据集

构建大语言模型的秘密武器&#xff1a;如何打造高质量训练数据集&#xff1f; 在大语言模型&#xff08;LLM&#xff09;如 GPT、BERT、T5 爆发式发展的背后&#xff0c;我们常常关注模型架构的演化&#xff0c;却忽视了一个更基础也更关键的问题&#xff1a;训练数据从哪里来…...

uniapp 微信小程序 获取openId

嗨&#xff0c;我是小路。今天主要和大家分享的主题是“uniapp 微信小程序 获取openId”。 一、主要属性 1.uni.login 二、实例代码 1、前端代码 uni.login({provider: weixin,success: (res) > {uni.showLoading({title: 登录中...,mask: true})let code res.…...

企业标准信息公共服务平台已开放标准通编辑器访问入口

标准通 数字化标准编辑器 专业、高效、便捷 企业标准信息公共服务平台 近日&#xff0c;企业标准信息公共服务平台已开放标准通编辑器访问入口&#xff0c;可进入官网指定版块使用&#xff01; 核心功能亮点 解决企业痛点 传统标准编制&#xff0c;需反复核对格式、逐条…...

小米MUJIA智能音频眼镜来袭

智能眼镜赛道风云再起&#xff0c;小米新力作MIJIA智能音频眼镜2正式亮相&#xff0c;引发市场热议。 这款产品在设计和功能上都有显著提升&#xff0c;为用户带来更舒适便捷的佩戴体验&#xff0c;同时也标志着小米在智能眼镜领域的持续深耕。 轻薄设计&#xff0c;舒适体验 …...

Node.js 实战八:服务部署方案对比与实践

你开发好了接口&#xff0c;准备上线&#xff0c;然后开始犹豫&#xff1a; “直接 node app.js 启就行了吗&#xff1f;” “要不要用 PM2&#xff1f;听说 Docker 更稳&#xff1f;” “Serverless 是不是就不用管服务器了&#xff1f;” 部署是从“能运行”到“能长久运行”…...

地下水安全监测实施方案

一、方案目标 本方案的核心目标在于构建一个全方位、科学严谨且高效运转的地下水监测体系&#xff0c;旨在实现对地下水资源全方位的动态监测、科学化的管理和有效的保护。监测的具体目标涵盖了地下水位、流量以及水质等多个关键性指标&#xff0c;通过精准的数据采集和分析&am…...

HTTP由浅入深

概述 超文本传输协议&#xff08;HTTP, Hypertext Transfer Protocol&#xff09; 是一种用于传输超媒体文档&#xff08;例如 HTML&#xff09;的应用层协议。它最初被设计用于 Web 浏览器与 Web 服务器之间的通信&#xff0c;但也广泛应用于其他客户端与服务器的交互。 HTT…...

Conda 环境下安装 GCC 和 glibc (crypt.h) 教程

Conda 环境下安装 GCC 和 glibc (crypt.h) 教程 由于运行Low-Light Image Enhancement via Structure Modeling and Guidance原始论文代码&#xff0c;发现服务器的gcc版本太老&#xff0c;没法运行。同时缺少libxcrypt (crypt.h)&#xff0c;不得不询问gpt进行解答。发现可以…...

C++面试3——const关键字的核心概念、典型场景和易错陷阱

const关键字的核心概念、典型场景和易错陷阱 一、const本质&#xff1a;类型系统的守护者 1. 与#define的本质差异 维度#defineconst编译阶段预处理替换编译器类型检查作用域无作用域&#xff08;全局污染&#xff09;遵循块作用域调试可见性符号消失保留符号信息类型安全无类…...

超小多模态视觉语言模型MiniMind-V 训练

简述 MiniMind-V 是一个超适合初学者的项目&#xff0c;让你用普通电脑就能训一个能看图说话的 AI。训练过程就像教小孩&#xff1a;先准备好图文材料&#xff08;数据集&#xff09;&#xff0c;教它基础知识&#xff08;预训练&#xff09;&#xff0c;再教具体技能&#xf…...

深入理解仿函数(Functors):从概念到实践

文章目录 1. 什么是仿函数&#xff1f;2. 仿函数与普通函数的区别3. 标准库中的仿函数4. 仿函数的优势4.1 状态保持4.2 可定制性4.3 性能优势 5. 现代C中的仿函数5.1 Lambda表达式5.2 通用仿函数 6. 仿函数的高级应用&#xff08;使用C2020标准库及以上版本&#xff09;6.1 函数…...

第二届parloo杯的RSA_Quartic_Quandary

&#xff08;害&#xff0c;还是太菜了&#xff0c;上去秒了一道题之后就动不了了&#xff0c;今晚做个记录&#xff0c;一点点的往回拾起吧&#xff09; # from Crypto.Util.number import getPrime, bytes_to_long # import math # # FLAG b************** # # # def gene…...

团队氛围紧张,如何提升工作积极性?

当团队氛围长期处于紧张状态时&#xff0c;员工的积极性、创造力和凝聚力会显著下降。要有效提升工作积极性&#xff0c;应从建设心理安全环境、优化管理沟通方式、提升认可与激励机制、加强情感联结与归属感等方面系统改善。其中&#xff0c;建设心理安全环境是最重要的基础&a…...

vuex的基本使用

个人简介 &#x1f468;‍&#x1f4bb;‍个人主页&#xff1a; 魔术师 &#x1f4d6;学习方向&#xff1a; 主攻前端方向&#xff0c;正逐渐往全栈发展 &#x1f6b4;个人状态&#xff1a; 研发工程师&#xff0c;现效力于政务服务网事业 &#x1f1e8;&#x1f1f3;人生格言&…...

chrome因使用selenium无图模式导致不再加载图片问题解决

因为使用了selenium的无图模式访问chrome的本地用户数据导致正常使用chrome访问网页时图片不加载。现在页面出现验证码&#xff0c;验证码显示不了。 第一步&#xff1a;关闭所有chrome 第二步&#xff1a;找到Perferences文件 文件的目录为&#xff1a;C:\Users\用户名\AppDa…...

并发编程(5)

抛异常时会释放锁。 当线程在 synchronized 块内部抛出异常时&#xff0c;会自动释放对象锁。 public class ExceptionUnlockDemo {private static final Object lock new Object();public static void main(String[] args) {Thread t1 new Thread(() -> {synchronized …...

自己拥有一台服务器可以做哪些事情

上大学时候&#xff0c;买了自己的第一台服务器在HoRain Cloud上&#xff0c;结果没有好好利用&#xff0c;刚工作时候&#xff0c;又买了一台HoRain Cloud服务器&#xff0c;就想着好好利用。 可以搭建一些学习环境&#xff0c;比如说数据库&#xff0c;gitlab什么的 …...

Node.js聊天室开发:从零到上线的完整指南

为让你全面了解Node.js聊天室开发&#xff0c;我会先介绍开发背景与技术栈&#xff0c;再按搭建项目、实现核心功能、部署上线的流程展开&#xff0c;还会分享优化思路。 Node.js聊天室开发实战&#xff1a;从入门到上线 在即时通讯日益普及的今天&#xff0c;基于Node.js搭建…...

Unity 如何使用Timeline预览、播放特效

在使用unity制作和拟合动画时&#xff0c;我们常用到Timeline&#xff0c;前后拖动滑轨&#xff0c;预览动画正放倒放非常方便。如果我们想对特效也进行这个操作&#xff0c;可以使用下文的步骤。 至此&#xff0c;恭喜你又解锁了一个新的技巧。如果我的分享对你有帮助&#xf…...

实物工厂零件画图案例(下)

文章目录 总练习模块文章索引气动顶针轴直线轴承座法兰盘平皮带中空传动轴减速机V带轮减速机箱体 简介&#xff1a;点击此处可以下载该文章的案例模型&#xff0c;加上这篇文章总共有七篇文章是用来练习solidworks软件应用与建模思路的&#xff0c;大概有30多个案例模型&#x…...

esp32课设记录(五)整个项目开源github

我把该项目开源到了github&#xff1a;https://github.com/whyovo/ESP32_course_project 以下是readme文档&#xff1a; ESP32 课设 项目概述 这是一个基于ESP32的课设&#xff0c;实现了多种功能模式的集成&#xff0c;包括信息显示、图片展示、MQTT通信、摩尔斯电码处理以…...

力扣每日一题5-19

class Solution { public String triangleType(int[] nums) { Arrays.sort(nums); if (nums[0] nums[1] < nums[2]) return “none”; if (nums[0] nums[1] && nums[1] nums[2]) return “equilateral”; if (nums[0] nums[1] || nums[1] nums[2]) return “is…...

CI/CD 深度实践:灰度发布、监控体系与回滚机制详解

CI/CD 深度实践&#xff1a;灰度发布、监控体系与回滚机制详解 一、引言 在现代软件开发中&#xff0c;持续集成与持续交付&#xff08;CI/CD&#xff09;是加快交付速度、提升质量的关键。面对复杂的分布式系统和海量用户&#xff0c;如何安全、快速地发布新版本&#xff0c…...

【日常笔记】wps如何将值转换成东西南北等风向汉字

在WPS表格中&#xff0c;若要将数值&#xff08;如角度值&#xff09;转换成“东、南、西、北”等风向汉字&#xff0c;可通过以下步骤结合自定义函数或条件判断实现&#xff1a; 一、wps如何将值转换 方法一&#xff1a;使用LOOKUP函数&#xff08;简化公式&#xff09;&…...

RabbitMQ的简介

三个概念 生产者&#xff1a;生产消息的服务消息代理&#xff1a;消息中间件&#xff0c;如RabbitMQ消费者&#xff1a;获取使用消息的服务 消息队列到达消费者的两种形式 队列&#xff08;queue&#xff09;:点对点消息通信&#xff08;point-to-point&#xff09; 消息进入队…...

中职大数据实验室解决方案分享

第1部分概述 1.1政策背景 2021年3月&#xff0c;教育部印发《职业教育专业目录(2021年)》&#xff0c;共设置19个专业大类、97个专业类、1349个专业。新版《目录》聚焦推进数字化升级改造&#xff0c;构建未来技术技能&#xff0c;优化和加强了5G、人工智能、大数据、云计算、…...

阿里云web端直播(前端部分)

阿里云&#xff1a;Web播放器快速接入_视频点播(VOD)-阿里云帮助中心 import Aliplayer from aliyun-aliplayerimport aliyun-aliplayer/build/skins/default/aliplayer-min.css<div id"J_prismPlayer" style"width: 300px; height: 300px;" />var …...

从虚拟仿真到行业实训再到具身智能--华清远见嵌入式物联网人工智能全链路教学方案

2025年5月23-25日&#xff0c;第63届中国高等教育博览会&#xff08;高博会&#xff09;将在长春中铁东北亚国际博览中心举办。作为国内高等教育领域规模大、影响力广的综合性展会&#xff0c;高博会始终聚焦教育科技前沿&#xff0c;吸引全国高校管理者、一线教师、教育科技企…...

阿里云国际站与国内站:局势推进中的多维差异

在当今数字化浪潮席卷全球&#xff0c;云计算成为企业与开发者关键助力的局势下&#xff0c;阿里云作为行业翘楚&#xff0c;其国际站与国内站备受关注。两者虽同宗同源&#xff0c;却在诸多方面存在着显著差异&#xff0c;这些差异犹如隐藏在幕后的齿轮&#xff0c;悄然影响着…...

Docker项目部署深度解析:从基础命令到复杂项目部署

Docker项目部署深度解析&#xff1a;从基础命令到复杂项目部署 注&#xff1a;根据黑马程序员javawebAI视频课程总结&#xff1a; 视频地址 详细讲义地址 一、传统部署困境与Docker破局之道 在传统Linux部署场景中&#xff0c;新手常被三大难题困扰&#xff1a; 命令记忆负…...

reserve学习笔记(花指令)

这是闲来无事逛博客时看到的一篇相关文章&#xff0c;觉得挺有意思。 定义 首先花指令其实就是没有用的指令&#xff08;垃圾指令&#xff09;&#xff0c;它穿插在真正的代码中&#xff0c;会导致反编译时出现问题&#xff0c;从而会影响我们的静态分析 分类以及讲解 花指…...

docker运行Redis

创建目录 mkdir -p /home/jie/docker/redis/{conf,data,logs}添加权限 chmod -R 777 /home/jie/docker/redis创建配置文件 cat > /home/jie/docker/redis/conf/redis.conf << EOF # 基本配置 bind 0.0.0.0 protected-mode yes port 6379# 安全配置 密码是root require…...

Django 项目中,将所有数据表注册到 Django 后台管理系统

在 Django 项目中,将所有数据表注册到 Django 后台管理系统中需要为每个模型(Model)创建一个对应的 ModelAdmin 类,并在 admin.py 文件中注册这些模型。以下是一个详细的步骤指南: 确保你的模型已定义 首先,确保你已经在 models.py 文件中定义了所有的数据模型。例如:py…...

pyspark测试样例

from pyspark.sql import SparkSession from pyspark.sql.functions import col, lit, concat 创建 SparkSession spark SparkSession.builder.appName(“SparkSQLExample”).getOrCreate() 创建 DataFrame&#xff08;可以是从 CSV、JSON 等文件读取&#xff09; data […...

Python学习笔记--使用Django操作mysql

注意&#xff1a;本笔记基于python 3.12&#xff0c;不同版本命令会有些许差别&#xff01;&#xff01;&#xff01; Django 模型 Django 对各种数据库提供了很好的支持&#xff0c;包括&#xff1a;PostgreSQL、MySQL、SQLite、Oracle。 Django 为这些数据库提供了统一的调…...

HarmonyOS Next应用分层架构下组件封装开发实践

基于鸿蒙应用分层架构的ArkUI组件封装实践 在鸿蒙应用开发中&#xff0c;合理利用 ArkUI 组件进行封装&#xff0c;可以实现代码复用&#xff0c;提升开发效率。本文将结合鸿蒙应用分层架构的特点&#xff0c;详细探讨几个典型的 ArkUI 组件封装场景及其实现方案。 华为鸿蒙应…...

全能视频处理工具介绍说明

软件介绍 本文介绍的软件是FFmpeg小白助手&#xff0c;它是一款视频处理工具。 使用便捷性 这款FFmpeg小白助手无需安装&#xff0c;解压出来就能够直接投入使用。 主要功能概述 该工具主要具备格式转换、文件裁剪、文件压缩、文件合并这四大功能。 格式转换能力 软件支持…...

CSS实现过多的文本进行省略号显示

单行文本省略 .ellipsis {white-space: nowrap; /* 禁止换行 */overflow: hidden; /* 溢出内容隐藏 */text-overflow: ellipsis; /* 溢出部分显示为省略号 */width: 200px; /* 必须设置宽度 */ } 多行文本省略&#xff08;跨浏览器方案&#xff09…...

十三、Hive 行列转换

作者&#xff1a;IvanCodes 日期&#xff1a;2025年5月19日 专栏&#xff1a;Hive教程 在Hive中&#xff0c;数据的形态转换是数据清洗、分析和报表制作中的核心环节。行列转换尤为关键&#xff0c;它能将数据从一种组织形式变为另一种&#xff0c;以适应不同的业务洞察需求。本…...

Django之验证码功能

验证码功能 目录 1.绘制验证码 2.在登录页面里面实现验证码的功能 3.代码展示集合 这篇文章, 内容不是很多, 不过验证码, 是在网页里面比较常见的功能, 所有我们还是要掌握它&#xff01;&#xff01;&#xff01; 一、绘制验证码 绘制验证码, 我们需要用到图像, 然后在…...

代码随想录算法训练营 Day51 图论Ⅱ岛屿问题Ⅰ

图论 题目 99. 岛屿数量 使用 DFS 实现方法 判断岛屿方法 1. 遍历图&#xff0c;若遍历到了陆地 grid[i][j] 1 并且陆地没有被访问&#xff0c;在这个陆地的基础上进行 DFS 方法&#xff0c;或者是 BFS 方法 2. 对陆地进行 DFS 的时候时刻注意以访问的元素添加访问标记 //…...

Python Django 的 ORM 编程思想及使用步骤

目录 一、ORM 编程思想概述​ 二、Python 中使用 ORM 的主要优势​ 2.1 简化数据库操作​ 2.2 提高开发效率​ 2.3 减少错误​ 2.4 增强代码的可维护性​ 2.5 降低耦合性​ 三、Django 中使用 ORM 的详细步骤​ 3.1 创建应用模块​ 3.2 配置数据库信息​ 3.3 确定数…...