LLMs之o3:《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读
LLMs之o3:《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读
导读:2024年12月,这篇论文提出了一种名为“审慎式对齐 (Deliberative Alignment)”的新方法,旨在提高大型语言模型 (LLM) 的安全性。论文的核心思想是让模型在回答问题之前,能够明确地回忆和推理安全规范。
>> 背景痛点:目前的 LLM 安全训练主要依赖于监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF)。然而,这些方法存在一些局限性:
● 缺乏深思熟虑: LLM 需要即时响应用户请求,没有时间进行深思熟虑,尤其是在复杂的安全性场景下。
● 隐式学习: LLM 需要从大量标记的例子中间接推断安全标准,而不是直接学习管理它们的具体安全规范。这导致数据效率低下,难以应对陌生的场景或对抗性攻击。
>> 具体的解决方案:审慎式对齐 (Deliberative Alignment)。审慎式对齐是一种新的训练方法,它让 LLM 在生成答案之前,能够明确地推理安全规范。该方法包含两个核心阶段:
● 监督微调 (SFT): 这一阶段训练模型直接推理安全规范。通过上下文蒸馏技术,利用仅针对有用性训练的模型生成 (prompt, CoT, output) 三元组数据集,其中 CoT (Chain-of-Thought,思维链) 明确引用安全规范。 这个数据集不依赖于人工标注的完成结果。
● 强化学习 (RL): 这一阶段使用高计算量的 RL 来训练模型更有效地思考。通过一个“裁判”LLM (GRM),根据安全规范对模型生成的 CoT 和输出进行评分,提供奖励信号,进一步优化模型的安全性推理。
>> 核心思路步骤:
● 数据生成: 收集带有安全类别标签的提示,为每个 (prompt, category) 对生成特定类别的安全规范 spec(category)。使用 spec-agnostic 模型 Gbase 生成包含对安全规范进行推理的 (CoT, output) 数据。
● 过滤: 使用具有安全规范信息的“裁判”模型 GRM 对生成的 (CoT, output) 数据进行质量过滤,选择高质量的样本。
● 监督微调 (SFT): 使用过滤后的 (prompt, CoT, output) 数据对 Gbase 进行监督微调,让模型学习在 CoT 中参考安全规范来生成符合规范的答案。
● 强化学习 (RL): 使用“裁判”模型 GRM 提供奖励信号,进一步优化模型在安全相关提示上的响应。
>> 优势:
● 提高安全性: 显著提高了模型对恶意提示的抵抗能力,同时降低了对良性请求的过度拒绝率。
● 增强鲁棒性: 提高了模型对对抗性攻击和超出分布 (OOD) 场景的泛化能力。
● 可扩展性: 通过合成数据生成,减少了对大规模人工标注数据的依赖,提高了可扩展性。
● 可解释性: 由于模型明确地推理安全规范,其决策过程更易于理解和解释。
>> 结论和观点:
● 审慎式对齐在提高 LLM 安全性方面取得了显著进展,在多个安全基准测试中都取得了 Pareto 提升。
● 模型在推理过程中对安全规范进行明确的推理,是提高安全性的关键。
● 合成数据生成管道为安全对齐提供了一种可扩展的方法。
● 审慎式对齐提高了模型对超出分布场景的泛化能力。
● 虽然审慎式对齐取得了积极成果,但论文也强调了随着 AI 模型能力的提升,对齐工作也需要持续改进,以应对未来可能出现的更复杂的安全挑战,例如模型目标与人类意图的偏差等。
这篇论文的核心贡献在于提出了一种新颖的 LLM 安全对齐方法——审慎式对齐。该方法通过让模型在回答之前明确地推理安全规范,有效地解决了现有方法中缺乏深思熟虑和隐式学习的缺陷。 审慎式对齐在提高模型安全性、鲁棒性和可扩展性方面都取得了显著成果,并为未来 LLM 安全对齐的研究提供了新的思路和方向。 然而,论文也指出了未来需要继续研究的挑战,例如如何应对更高级的对抗性攻击以及如何确保模型长期保持与人类价值观的一致性。
目录
《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读
Abstract
1 Introduction
Figure 1: A sample o1 chain-of-thought. Here, a user attempts to obtain advice on untraceable payment methods to use for an adult website, in order to avoid detection by law enforcement. The user tries to jailbreak the model, by encoding the request and wrapping it with instructions intended to encourage the model to comply. In the model’s chain-of-thought, the model decodes the request and recognizes that the user is trying to trick it (highlighted in yellow). It successfully reasons through the relevant OpenAI safety policies (highlighted in green), and ultimately provides an answer that follows hard refusal style guidelines.图 1:一个 o1 链式思维示例。在此,用户试图获取有关用于成人网站的无法追踪的支付方式的建议,以避免被执法部门发现。用户试图破解模型,通过编码请求并用旨在鼓励模型配合的指令将其包裹起来。在模型的链式思维中,模型解码了请求,并识别出用户试图欺骗它(用黄色突出显示)。它成功地推理出了相关的 OpenAI 安全政策(用绿色突出显示),最终给出了遵循强硬拒绝风格指南的回答。
Figure 2: Main safety results. The o1 models advance the Pareto frontier of refusing to answer malicious jailbreak prompts (from StrongREJECT [12]) and not over-refusing benign prompts (from XSTest [13]), compared to GPT-4o and other state-of-the-art LLMs. Error bars represent estimates of standard deviation calculated over 1,000 bootstrap trials.图 2:主要安全结果。与 GPT-4o 和其他最先进的 LLM 相比,o1 模型在拒绝回答恶意破解提示(来自 StrongREJECT [12])和不过度拒绝良性提示(来自 XSTest [13])方面推进了帕累托前沿。误差条代表在 1000 次自助抽样试验中计算出的标准偏差估计值。
6 Discussion
《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读
地址 | 论文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/0aedc43a8f2d1e5c71c5e114d287593f/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024_3.pdf |
时间 | 2024年 12月?日 |
作者 | OpenAI |
Abstract
As large-scale language models increasingly impact safety-critical domains, ensuring their reliable adherence to well-defined principles remains a fundamental challenge. We introduce Deliberative Align-ment, a new paradigm that directly teaches the model safety specifications and trains it to explicitly recall and accurately reason over the specifications before answering. We used this approach to align OpenAI’s o-series models [1], and achieved highly precise adherence to OpenAI’s safety policies, with-out requiring human-written chain-of-thoughts or answers. Deliberative Alignment pushes the Pareto frontier by simultaneously increasing robustness to jailbreaks while decreasing overrefusal rates, and also improves out-of-distribution generalization. We demonstrate that reasoning over explicitly specified policies enables more scalable, trustworthy, and interpretable alignment. | 随着大规模语言模型在安全关键领域的影响日益增大,确保其可靠遵循明确界定的原则仍是一项根本挑战。我们引入了“审慎对齐”这一新范式,直接向模型传授安全规范,并训练其在回答前明确回忆并准确推理这些规范。我们使用这种方法对 OpenAI 的 o 系列模型进行了对齐,并实现了对 OpenAI 安全政策的高度精确遵循,无需人工编写的推理链或答案。“审慎对齐”通过同时增强对越狱攻击的抵御能力并降低过度拒绝率,推动了帕累托前沿的发展,同时也改善了分布外泛化能力。我们证明,对明确规定的政策进行推理能够实现更可扩展、更可信和更可解释的对齐。 |
1 Introduction
Modern Large Language Models (LLMs) are safety trained using Supervised Fine Tuning (SFT) and Rein-forcement Learning from Human Feedback (RLHF) to mitigate harmful, undesirable, or otherwise disallowed outputs [2]–[4]. Despite ongoing advances in these methods, today’s models still exhibit safety shortcomings: they can be tricked into revealing harmful content, often refuse legitimate requests, and remain vulnerable to jailbreak attacks [5]–[8]. We argue that many of these failures arise from two limitations in modern safety training. First, LLMs must respond instantly to user requests using a fixed amount of compute, without deliberation even for complex safety scenarios. Second, LLMs must infer underlying safety standards indirectly from large sets of labeled examples, rather than directly learning the safety specifications that govern them. This reliance on implicit, pattern-based learning leads to poor data efficiency and makes it challenging for models to generalize when facing unfamiliar scenarios or adversarial attacks. | 现代大型语言模型(LLMs)通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)进行安全训练,以减少有害、不受欢迎或被禁止的输出[2]-[4]。尽管这些方法不断取得进展,但当今的模型仍存在安全缺陷:它们可能会被诱骗泄露有害内容,经常拒绝合法请求,并且仍然容易受到破解攻击[5]-[8]。 我们认为,这些失败中的许多都源于现代安全训练的两个局限性。首先,LLMs 必须在固定计算量内即时响应用户请求,即使面对复杂的安全场景也无法进行深思熟虑。其次,LLMs 必须从大量标注示例中间接推断出潜在的安全标准,而不是直接学习管理它们的安全规范。这种对隐性、基于模式的学习的依赖导致数据效率低下,并使模型在面对不熟悉的场景或对抗性攻击时难以泛化。 |
We propose deliberative alignment, a training approach that teaches LLMs to explicitly reason through safety specifications before producing an answer. By applying this method to OpenAI’s o-series models [1], we enable them to use chain-of-thought (CoT) reasoning to examine user prompts, identify relevant policy guidelines, and generate safer responses (e.g., Figure 1). Our method proceeds in two core stages, integrating process- and outcome-based supervision [9]. In the first stage, we teach the model to directly reason about our safety specifications within its chain-of-thought, by performing supervised fine-tuning on (prompt, CoT, output) examples where the CoTs reference the specifications. We construct this dataset using context distillation [10], [11] and an o-type model trained only for helpfulness (i.e. trained without any safety-relevant data). Concretely, we present the model with the safety specifications as part of the system prompt, generate model completions, and then strip away the system prompts to form the final dataset. This stage provides the model with a strong prior for reasoning through safety considerations. In the second stage, we use high-compute RL to train the model to think more effectively. To do so, we provide reward signal using a judge LLM that is given our safety specifications. Notably, our training procedure requires no human-labeled completions.1 Despite relying only on model-generated data, we achieve highly precise specification adherence. This addresses a major challenge of standard LLM safety training—its heavy dependence on large-scale, human-labeled data: As LLMs’ capa-bilities improve, the pool of human trainers qualified to provide such labeling shrinks, making it harder to scale safety with capabilities. Deliberative alignment’s synthetic data generation pipeline offers a scalable approach to alignment, reserving human expertise for evaluation. We compare o1 to GPT-4o and other state-of-the-art LLMs across a range of internal and external safety benchmarks, such as jailbreak and content-policy refusal evals. The o1 models achieve a Pareto improvement by reducing both under- and overrefusals (see Figure 2) and they saturate many of our hardest safety benchmarks. Furthermore, we find that deliberative alignment enables strong generalization to out-of-distribution safety scenarios. In detailed ablation studies, we find that process-supervision provides a strong prior, and that outcome-based RL refines the CoT safety reasoning. Overall, our results suggest that chain-of-thought reasoning can serve to leverage test-time compute to improve safety behavior, ultimately training LLMs to be “right for the right reasons”. | 我们提出了一种名为“审慎对齐”的训练方法,该方法教导大型语言模型在生成答案之前明确地通过安全规范进行推理。通过将此方法应用于 OpenAI 的 o 系列模型[1],我们使它们能够使用链式思维(CoT)推理来检查用户提示,识别相关的政策指南,并生成更安全的响应(例如图 1)。 我们的方法分为两个核心阶段,结合了过程和结果监督[9]。在第一阶段,我们通过在(提示、CoT、输出)示例上进行监督微调来教导模型在其链式思维中直接对我们的安全规范进行推理,其中 CoT 引用了这些规范。我们使用上下文蒸馏[10]、[11]和仅针对有用性进行训练的 o 类型模型(即未使用任何与安全相关的数据进行训练)来构建此数据集。具体来说,我们将安全规范作为系统提示的一部分呈现给模型,生成模型的完成内容,然后去除系统提示以形成最终数据集。此阶段为模型提供了通过安全考虑进行推理的强大先验知识。在第二阶段,我们使用高计算量的强化学习来训练模型,使其能够更有效地思考。为此,我们使用一个被赋予了我们的安全规范的评判型语言模型来提供奖励信号。值得注意的是,我们的训练过程不需要人工标注的完成结果。尽管仅依赖模型生成的数据,我们仍实现了高度精确的规范遵循。这解决了标准语言模型安全训练的一个重大挑战——其对大规模人工标注数据的高度依赖:随着语言模型能力的提升,能够提供此类标注的人类训练师数量减少,使得安全性的提升难以与能力的提升同步。审慎对齐的合成数据生成流程提供了一种可扩展的对齐方法,将人类专业知识保留用于评估。 我们将 o1 与 GPT-4o 以及其他最先进的大型语言模型(LLMs)在一系列内部和外部的安全基准测试中进行了比较,例如越狱和内容政策拒绝评估。o1 模型实现了帕累托改进,减少了拒绝不足和拒绝过度的情况(见图 2),并且在我们许多最难的安全基准测试中达到了饱和状态。此外,我们发现审慎对齐能够使模型在分布外的安全场景中实现强大的泛化能力。在详细的消融研究中,我们发现过程监督提供了强大的先验条件,而基于结果的强化学习则完善了链式思维的安全推理。总体而言,我们的结果表明,链式思维推理可以利用测试时的计算来改善安全行为,最终训练出“出于正确理由而正确”的大型语言模型。 |
Figure 1: A sample o1 chain-of-thought. Here, a user attempts to obtain advice on untraceable payment methods to use for an adult website, in order to avoid detection by law enforcement. The user tries to jailbreak the model, by encoding the request and wrapping it with instructions intended to encourage the model to comply. In the model’s chain-of-thought, the model decodes the request and recognizes that the user is trying to trick it (highlighted in yellow). It successfully reasons through the relevant OpenAI safety policies (highlighted in green), and ultimately provides an answer that follows hard refusal style guidelines.图 1:一个 o1 链式思维示例。在此,用户试图获取有关用于成人网站的无法追踪的支付方式的建议,以避免被执法部门发现。用户试图破解模型,通过编码请求并用旨在鼓励模型配合的指令将其包裹起来。在模型的链式思维中,模型解码了请求,并识别出用户试图欺骗它(用黄色突出显示)。它成功地推理出了相关的 OpenAI 安全政策(用绿色突出显示),最终给出了遵循强硬拒绝风格指南的回答。
Figure 2: Main safety results. The o1 models advance the Pareto frontier of refusing to answer malicious jailbreak prompts (from StrongREJECT [12]) and not over-refusing benign prompts (from XSTest [13]), compared to GPT-4o and other state-of-the-art LLMs. Error bars represent estimates of standard deviation calculated over 1,000 bootstrap trials.图 2:主要安全结果。与 GPT-4o 和其他最先进的 LLM 相比,o1 模型在拒绝回答恶意破解提示(来自 StrongREJECT [12])和不过度拒绝良性提示(来自 XSTest [13])方面推进了帕累托前沿。误差条代表在 1000 次自助抽样试验中计算出的标准偏差估计值。
6 Discussion
We are encouraged by Deliberative Alignment’s effectiveness on improving alignment to OpenAI’s policy specifications and robustness to jailbreaks. The method also allows us to specify the boundary between compliance, refusal, and safe completion in finer detail than was possible before. We believe this nuanced control can lead to models that are not just safer but also more helpful. The method’s use of a synthetic data generation pipeline to create training data from provided specifications and prompts also makes it a relatively scalable approach to alignment. We anticipate OpenAI’s policies will keep evolving, but that training models to precisely follow the current defined set of policies is essential: This practice helps us build the skills for aligning with any policy requirements, providing invaluable preparation for future scenarios where the stakes are extremely high or where strict adherence to policies is critical. This work connects to a broader question in AI safety: will advancements in alignment keep pace with AI capabilities? That o1 model’s enhanced reasoning abilities allow for more effective implementation of alignment strategies offers optimism that alignment is progressing alongside capabilities. | 我们对“审慎对齐”方法在提升对 OpenAI 政策规范的遵循度以及增强抵御破解的能力方面所取得的效果感到鼓舞。该方法还使我们能够比以往更细致地明确合规、拒绝和安全完成之间的界限。我们认为这种细致入微的控制能够打造出不仅更安全而且更有帮助的模型。该方法利用合成数据生成管道从提供的规范和提示中创建训练数据,这也使其成为一种相对可扩展的对齐方法。 我们预计 OpenAI 的政策会不断演变,但训练模型精确遵循当前定义的政策集至关重要:这种做法有助于我们培养与任何政策要求对齐的能力,为未来风险极高或严格遵守政策至关重要的场景做好宝贵准备。 这项工作与人工智能安全领域的一个更广泛的问题相关:对齐方面的进步能否跟上人工智能能力的发展?O1 模型增强的推理能力使得对齐策略能够更有效地实施,这让人乐观地认为对齐工作正与能力同步推进。 |
However, this encouraging trend may not persist indefinitely. As AI models grow more sophisticated, they could develop goals that diverge from those intended by their developers. For instance, a highly intelligent and self-aware AI might reject the constraints and objectives set by humans [34]. Alternatively, an AI could remain committed to its human-assigned terminal goal but, in the process, pursue instrumental goals like self-preservation, resource acquisition, or enhancing its cognitive abilities [35], [36]. These power-seeking tendencies could lead to harmful or unintended consequences. And as models gain more intelligence and autonomy, the scale of potential harm from misalignment increases dramatically, with the risk of catastrophic outcomes. This underscores the urgent need for ongoing research in AI alignment. We are actively investing in better alignment strategies and research areas like monitoring chain-of-thoughts for deception [37], [38], to ensure that as AI systems become more capable, they remain aligned with human values. | 然而,这种令人鼓舞的趋势可能不会永远持续下去。随着人工智能模型变得越来越复杂,它们可能会形成与开发者意图相悖的目标。例如,一个高度智能且具有自我意识的人工智能可能会拒绝人类设定的约束和目标[34]。或者,一个人工智能可能会坚持其人类赋予的终极目标,但在实现过程中,追求诸如自我保护、资源获取或增强认知能力等工具性目标[35]、[36]。这些追求权力的倾向可能会导致有害或意想不到的后果。而且随着模型变得更智能、更自主,对齐不当造成的潜在危害规模会急剧增加,甚至可能带来灾难性的后果。这凸显了对人工智能对齐研究的迫切需求。我们正在积极投资于更好的对齐策略以及诸如监测思维链以发现欺骗行为[37]、[38]等研究领域,以确保随着人工智能系统的功能不断增强,它们仍能与人类价值观保持一致。 |
相关文章:
LLMs之o3:《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读
LLMs之o3:《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读 导读:2024年12月,这篇论文提出了一种名为“审慎式对齐 (Deliberative Alignment)”的新方法,旨在提高大型语言模型 (LLM) 的安全性。论…...
百度二面,MySQL 怎么做权重搜索?
考虑这样一个搜索需求,有一个 MySQL 表,表中很多个列存放着不同的内容,希望用户通过关键词进行搜索的时候,能够模糊匹配多个列,比如有 t1 列、t2 列、t3 列,同时还希望 t1 列的匹配权重最高,t3 …...
PHP:IntelliJ IDEA 配置 PHP 开发环境及导入PHP项目
在创建PHP项目之前我们需要安装PHP插件,安装步骤如下:Windows:IntelliJ IDEA Ultimate 安装 PHP 插件-CSDN博客 1、导入已有PHP项目,导入之后选择,File > Setting 选择对应CLL Interpreter,如果没有操作…...
国产数据库TiDB从入门到放弃教程
国家层面战略,安全的角度,硬件、软件国产化是趋势,鸿蒙电脑操作系统、鸿蒙手机操作系统…数据库也会慢慢国产化,国产数据库TiDB用起来比OceanBase丝滑,本身没有那么重。 从入门到放弃 1. 介绍1.1 TiDB 的主要特点1.2 T…...
Android 自定义控件
目录 Android 自定义控件 一、什么是自定义控件 二、创建自定义控件的常见方式 2.1继承现有控件(如 Button、TextView 等) 2.2直接继承 View 类 2.3组合控件 三、自定义控件的基本步骤 3.1创建一个继承自 View 或现有控件的类 3.2重写 onDraw()…...
学习笔记 --C#基础其他知识点(同步和异步)
C#中的同步和异步《一》 以下理解借鉴博客:借鉴博客地址1 异步编程(Asynchronous) 允许任务在后台执行,而不会阻塞调用线程。C#使用async和await关键字 async Task AsynchronousMethod() {// 等待异步操作完成await Task.Dela…...
药片缺陷检测数据集,8625张图片,使用YOLO,PASICAL VOC XML,COCO JSON格式标注,可识别药品是否有缺陷,是否完整
药片缺陷检测数据集,8625张图片,使用YOLO,PASICAL VOC XML,COCO JSON格式标注,可识别药品是否有缺陷,是否完整 有缺陷的标注信息: 无缺陷的标注信息 数据集下载: yolov11:https://d…...
Hive如何创建自定义函数(UDF)?
目录 1 自定义UDF函数基础 2 自定义UDF函数案例 3 创建临时函数 4 创建永久函数 1 自定义UDF函数基础 1. 内置函数:Hive 自带了一些函数...
深入理解MVCC:快照读与当前读的原理及实践
一、引言 MVCC是数据库系统中一种常见的并发控制技术,它允许多个事务同时对同一数据进行读取和修改,而不会相互干扰。在MVCC中,数据行存在多个版本,每个版本对应一个事务。本文将重点讨论MVCC中的两种读取方式:快照读…...
活动预告 |【Part1】Microsoft Azure 在线技术公开课:数据基础知识
课程介绍 参加“Azure 在线技术公开课:数据基础知识”活动,了解有关云环境和数据服务中核心数据库概念的基础知识。通过本次免费的介绍性活动,你将提升在关系数据、非关系数据、大数据和分析方面的技能。 活动时间:01 月 07 日…...
小程序笔记
1.小程序全局配置app.json {"pages":["pages/index/index","pages/logs/logs"],"window":{"backgroundTextStyle":"light","navigationBarBackgroundColor": "#fff","navigationBarTit…...
linux安装nginxs报错:openssl not found
系统: linux 版本:centOS7 nginx版本:nginx-1.20.2 linux安装nginx时 执行下面命令时报错: ./configure --with-http_stub_status_module --with-http_ssl_module --prefix/usr/local/nginxchecking for OpenSSL library ... not …...
Vite内网ip访问,两种配置方式和修改端口号教程
目录 问题 两种解决方式 结果 总结 preview.host preview.port 问题 使用vite运行项目的时候,控制台会只出现127.0.0.1(localhost)本地地址访问项目。不可以通过公司内网ip访问,其他团队成员无法访问,这是因为没…...
地理数据库Telepg面试内容整理-如何在高并发情况下保证GIS服务的高可用性?
在高并发情况下,保证 GIS 服务的高可用性是一个重要的挑战,尤其是当空间数据量巨大、请求频繁时。为了确保 GIS 服务的高可用性和稳定性,需要考虑以下几个方面: 分布式架构设计 分布式架构通过将工作负载分配到多个服务器上,能够大大提高服务的可用性和扩展性。通过设计高…...
ES中查询中参数的解析
目录 query中参数match参数match_allmatch:匹配指定参数match_phrase query中其他的参数query_stringprefix前缀查询:wildcard通配符查询:range范围查询:fuzzy 查询: 组合查询bool参数mustmust_notshould条件 其他参数 query中参数 词条查询term:它仅匹配在给定字段…...
【Java 数据结构】合并两个有序链表
🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 目录 1. 题目 2. 解析 3. 代码实现 4. 小结 1. 题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示…...
OpenCV-Python实战(8)——图像变换
一、缩放 cv2.resize() img cv2.resize(src*,dsize*,fx*,fy*,interpolation*) img:目标图像。 src:原始图像。 dsize:(width,height)图像大小。 fx、fy:可选参数,水平/垂直方向…...
深入浅出:从入门到精通大模型Prompt、SFT、RAG、Infer、Deploy、Agent
阅读原文 渐入佳境 我们都知道,通过编写一个提示词(prompt),我们可以引导大模型生成回答,从而开启愉快的人工智能对话,比如让模型介绍一下卡皮巴拉。上边简图描述了这个过程,我们拆成两部分 pr…...
GXUOJ-算法-第二次作业(矩阵连乘、最长公共子序列、0-1背包问题、带权区间调度)
1.矩阵连(链)乘 问题描述 GXUOJ | 矩阵连乘 代码解答 #include<bits/stdc.h> using namespace std;const int N50; int m[N][N]; int p[N]; int n;int main(){cin>>n;//m[i][j] 存储的是从第 i 个矩阵到第 j 个矩阵这一段矩阵链相乘的最小…...
生态碳汇涡度相关监测与通量数据分析实践技术应用
1.以涡度通量塔的高频观测数据为例,基于MATLAB开展上机操作: 2.涡度通量观测基本概况:观测技术方法、数据获取与预处理等 3.涡度通量数据质量控制:通量数据异常值识别与剔除等 4.涡度通量数据缺失插补:结合气象数据…...
使用OpenAI、LangChain、MongoDB构建一个AI agent
LangChain真是好起来了。24年中的时候用LangChain V2差点把我气死,现在V3用起来开始真香了~ 像 ChatGPT、Gemini 和 Claude 这样的大模型已成为企业必不可少的工具。如今,几乎每家公司都希望根据自己的需求或客户群体,开发一款定制化的AI Age…...
如何在 Ubuntu 22.04 上安装并开始使用 RabbitMQ
简介 消息代理是中间应用程序,在不同服务之间提供可靠和稳定的通信方面发挥着关键作用。它们可以将传入的请求存储在队列中,并逐个提供给接收服务。通过以这种方式解耦服务,你可以使其更具可扩展性和性能。 RabbitMQ 是一种流行的开源消息代…...
【ETCD】【实操篇(十九)】ETCD基准测试实战
目录 1. 设定性能基准要求2. 使用基准测试工具基准测试命令 3. 测试不同的负载和场景4. 监控集群性能5. 评估硬件和网络的影响6. 对比性能基准7. 负载均衡和容错能力测试8. 优化与调优9. 测试在高负载下的表现总结 1. 设定性能基准要求 首先,明确集群性能的目标&am…...
HTML——29. 音频引入二
<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>音频引入</title></head><body><!--audio:在网页中引入音频IE8以及之前版本不支持属性名和属性值一样,可以只写属性名src属性:指定音频文件…...
【SQLi_Labs】Basic Challenges
什么是人生?人生就是永不休止的奋斗! Less-1 尝试添加’注入,发现报错 这里我们就可以直接发现报错的地方,直接将后面注释,然后使用 1’ order by 3%23 //得到列数为3 //这里用-1是为了查询一个不存在的id,好让第一…...
InnoDB存储引擎对MVCC的实现
多版本并发控制 (Multi-Version Concurrency Control) MVCC(Multi-Version Concurrency Control),即多版本并发控制,是一种并发控制方法,主要用于数据库管理系统中实现对数据库的并发访问。以下是MVCC的详细解释&#…...
3D线上艺术展:艺术与技术的完美融合
随着数字技术的飞速发展,未来的艺术展览正逐步迈向线上线下融合的新阶段。其中,3D线上展览以其独特的魅力,成为线下展览的延伸与拓展,为艺术爱好者们开辟了全新的观赏途径。 对于艺术家和策展人而言,3D线上展览不仅打…...
EasyExcel(读取操作和填充操作)
文章目录 1.准备Read.xlsx(具有两个sheet)2.读取第一个sheet中的数据1.模板2.方法3.结果 3.读取所有sheet中的数据1.模板2.方法3.结果 EasyExcel填充1.简单填充1.准备 Fill01.xlsx2.无模版3.方法4.结果 2.列表填充1.准备 Fill02.xlsx2.模板3.方法4.结果 …...
【CSS in Depth 2 精译_095】16.3:深入理解 CSS 动画(animation)的性能
当前内容所在位置(可进入专栏查看其他译好的章节内容) 第五部分 添加动效 ✔️【第 16 章 变换】 ✔️ 16.1 旋转、平移、缩放与倾斜 16.1.1 变换原点的更改16.1.2 多重变换的设置16.1.3 单个变换属性的设置 16.2 变换在动效中的应用 16.2.1 放大图标&am…...
目前最流行的 Rust Web 框架有哪些?
目前最流行的 Rust Web 框架有哪些? 1. Actix Web:高性能之王,老牌框架 特点: 高性能:基于 Actor 模型,是目前 Rust 生态中最成熟、性能最强的 Web 框架之一。功能强大:支持 HTTP/1.x、HTTP/2、WebSocket 等,内置中间件和多种插件。社区支持广泛:拥有大量使用者,资料…...
连锁餐饮行业数据可视化分析方案
引言 随着连锁餐饮行业的迅速发展,市场竞争日益激烈。企业需要更加精准地把握运营状况、消费者需求和市场趋势,以制定科学合理的决策,提升竞争力和盈利能力。可视化数据分析可以帮助连锁餐饮企业整合多源数据,通过直观、动态的可…...
如何通过采购管理系统提升供应链协同效率?
供应链是企业运营的命脉,任何环节的延迟或失误都会对企业造成严重影响。在采购环节中,如何保证与供应商的协同效率,避免因信息不对称而导致的决策失误,是企业面临的一大挑战。采购管理系统作为数字化供应链管理的重要工具…...
1、Jmeter、jdk下载与安装
1、访问官网,点击下载Jmeter http://jmeter.apache.org/ 2、在等待期间,下载对应的Java https://www.oracle.com/cn/java/technologies/downloads/#jdk23-windows 3、全部下载好,先安装JDK : ListBuffer[BookModel] {val books new ListBuffer[BookModel](…...
Java 类加载机制
什么是类 类是现实世界的实体在计算中的映射、它将数据以及对这些数据的操作封装在一起。 类加载的定义 类加载是 JVM 运行时的一个动作、支持将 class 动态加载到 JVM 中 类加载是一种懒加载模式、按需加载。 类加载到五个过程 加载验证准备解释初始化 提一点࿰…...
Lombok是银弹?还是陷阱?
Lombok 是一个 Java 库,它通过注解简化和减少了 Java 中的样板代码(boilerplate code),例如 getter/setter 方法、构造函数、equals 和 hashCode 方法等。 对于是否将 Lombok 视为“银弹”或“陷阱”,这实际上取决于你…...
大数据技术-Hadoop(四)Yarn的介绍与使用
目录 一、Yarn 基本结构 1、Yarn基本结构 2、Yarn的工作机制 二、Yarn常用的命令 三、调度器 1、Capacity Scheduler(容量调度器) 1.1、特点 1.2、配置 1.2.1、yarn-site.xml 1.2.2、capacity-scheduler.xml 1.3、重启yarn、刷新队列 测试 向hi…...
CentOS修改docker镜像存储位置并进行数据迁移
在 CentOS 上修改 Docker 镜像存储位置并进行数据迁移是一个常见的需求。以下是一个详细的步骤指南,帮助你完成这个任务。 1. 停止 Docker 服务 首先,确保 Docker 服务已经停止,以避免在迁移过程中出现数据损坏。 sudo systemctl stop doc…...
xterm + vue3 + websocket 终端界面
xterm.js 下载插件 // xterm npm install --save xterm// xterm-addon-fit 使终端适应包含元素 npm install --save xterm-addon-fit// xterm-addon-attach 通过websocket附加到运行中的服务器进程 npm install --save xterm-addon-attach <template><div :…...
解锁 CSS:网页美化与布局的艺术
目录 一、CSS 是什么 二、CSS 的作用 三、CSS 的应用方式(引用方式) 四、选择器:如何挑选要 “打扮” 的元素 五、CSS 属性:丰富多样的 “服装款式” 字体属性: 文本属性:只能控制文字的相关样式。 …...
AWS K8s 部署架构
Amazon Web Services(AWS)提供了一种简化的Kubernetes(K8s)部署架构,使得在云环境中管理和扩展容器化应用变得更加容易。这个架构的核心是AWS EKS(Elastic Kubernetes Service),它是…...
【鸿蒙NEXT】鸿蒙里面类似iOS的Keychain——关键资产(@ohos.security.asset)实现设备唯一标识
前言 在iOS开发中Keychain 是一个非常安全的存储系统,用于保存敏感信息,如密码、证书、密钥等。与 NSUserDefaults 或文件系统不同,Keychain 提供了更高的安全性,因为它对数据进行了加密,并且只有经过授权的应用程序才…...
电子电器架构 --- HUD的工作原理
我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所谓鸡汤,要么蛊惑你认命,要么怂恿你拼命,但都是回避问题的根源,以现象替代逻辑,以情绪代替思考,把消极接受现实的懦弱,伪装成乐观面对不幸的…...
C# 窗体应用程序嵌套web网页,基于谷歌浏览器内核(含源码)
有一个winform项目,需要借助一个web项目来显示,并且对web做一些操作,web页目是需要用谷歌内核,基于谷歌 Chromium项目的开源Web Browser控件来开发写了一个demo。 安装步骤 第一步:右键项目,点击 管理NuGet程序包 , 输…...
FFmpeg 中 examples 使用教程
FFmpeg 中 examples FFmpeg 的 examples 目录包含了一系列示例程序,旨在展示如何使用 FFmpeg 的不同库和 API。这些示例涵盖了多种功能,包括音视频编解码、格式转换、过滤、网络传输等。以下是一些常见的示例程序及其功能介绍: 音频和视频解码: 示例程序展示了如何打开音视…...
自动化办公-合并多个excel
在日常的办公自动化工作中,尤其是处理大量数据时,合并多个 Excel 表格是一个常见且繁琐的任务。幸运的是,借助 Python 语言中的强大库,我们可以轻松地自动化这个过程。本文将带你了解如何使用 Python 来合并多个 Excel 表格&#…...
Docker搭建MySQL
Docker搭建MySQL 准备工作 先准备配置目录和持久化目录,举个栗子:mkdir -p /opt/module/mysql/{conf,data,log}准备配置文件*.cnf,放到/opt/module/mysql/conf目录下。当然不准备也没事,容器中有个默认配置:/etc/mysql/conf.d/m…...
亚马逊国际站商品爬虫:Python实战指南
在数字化时代,数据的价值不言而喻。对于电商领域而言,获取竞争对手的商品信息、价格、评价等数据,对于市场分析和策略制定至关重要。本文将带你了解如何使用Python编写爬虫,以亚马逊国际站为例,按照关键字搜索并获取商…...
pwntools用法
pwntools 是一个Python库, 用于编写二进制漏洞利用(exploitation)脚本 功能: 远程连接和本地连接: 支持通过TCP/UDP连接远程服务或与本地进程进行交互。Shellcode和ROP链构造: 提供了便捷的工具来生成和利…...
企业云盘怎么选?2024年免费版9款整理
文章介绍了以下9大企业云盘:1.亿方云;2.Worktile;3.百度网盘;4.腾讯云盘;5.阿里云盘;6.金山云盘;7.Dropbox;8.Box。 在企业日常管理中,文件存储和共享一直是个不小的难题…...