当前位置: 首页 > news >正文

Pythia 使用说明

Pythia 是一个由非营利研究组织 EleutherAI 开发的开源语言模型套件,专注于透明性和可复现性。它是为了推动自然语言处理(NLP)领域的开放研究而设计,尤其在模型训练过程和性能分析方面提供了详尽的文档和数据。


Pythia 的核心特点

  1. 开源透明
    • 完全开源代码、训练数据(基于 The Pile 数据集)和训练日志,支持学术界复现实验。
    • 公开模型训练过程中的中间检查点(checkpoints),便于研究模型演化规律。

  2. 参数规模灵活
    • 提供 70M12B 参数的多个模型版本,涵盖从轻量级到大规模模型的连续增长系列。
    • 例如:pythia-70mpythia-410mpythia-1.4bpythia-2.8b 等。

  3. 基于 GPT 架构
    • 采用类似 GPT-3 的 Transformer Decoder 架构,适用于生成式任务(如文本生成、代码生成)。

  4. 研究友好设计
    • 所有模型均使用相同的数据顺序和超参数训练,便于对比不同参数规模对性能的影响。
    • 提供详细的训练数据分布和偏差分析工具。


为什么 选择 Pythia?

Pythia 被选作基础模型的原因可能包括:

  1. 可扩展性
    • Pythia 的参数规模灵活(如论文中使用的 pythia-410m),适合在有限算力下进行微调。
  2. 代码能力
    • 训练数据 The Pile 包含 GitHub 代码库,使 Pythia 对编程语言(如 C/C++)的语法和语义有较强理解。
  3. 对比学习适配性
    • Pythia 的生成式架构和透明训练过程,便于通过对比学习(contrastive learning)调整嵌入空间,适应二进制-源码的跨模态匹配任务。

Pythia vs. 其他大模型

特性PythiaGPT-3/4BERT
开源程度完全开源(代码+数据+日志)仅 API 封闭访问开源模型,但数据不透明
训练数据The Pile(包含多领域文本)未公开维基百科+书籍
适用任务生成式任务、代码理解通用对话、复杂推理文本分类、语义理解
研究友好性高(提供完整训练轨迹)低(黑盒模型)

应用场景

  1. 学术研究
    • 研究模型缩放定律(scaling laws)、训练动态(training dynamics)。
  2. 代码相关任务
    • 代码补全、漏洞检测、跨语言代码翻译(如二进制-源码匹配)。
  3. 可控文本生成
    • 通过微调实现特定领域的生成(如技术文档、法律文本)。

如何获取和使用?

代码 & 模型下载:GitHub 仓库 EleutherAI/pythia
在线体验:可通过 Hugging Face 的 Model Hub 直接加载预训练模型。

Pythia 的透明性和模块化设计使其成为探索大语言模型内部机制的重要工具,尤其适合需要深度定制的研究场景(如 BinaryAI 的跨格式代码匹配)。

以下是使用 Pythia 对代码生成嵌入(embedding)的详细步骤和示例:


1. 环境准备

安装依赖库
pip install transformers torch
导入模型和工具
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

2. 加载 Pythia 模型和分词器

选择适合的 Pythia 版本(如 pythia-410m):

model_name = "EleutherAI/pythia-410m"  # 也可选其他版本如 pythia-1.4b# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
model.eval()  # 设置为评估模式(禁用dropout等训练层)

3. 预处理代码

代码示例

假设需要处理以下 C 代码:

#include <stdio.h>
int main() {printf("Hello World");return 0;
}
转换为模型输入

添加特殊标记(如 <code></code>)以标识代码边界:

code_snippet = "<code>#include <stdio.h>\nint main() {\n    printf(\"Hello World\");\n    return 0;\n}</code>"

4. 生成 Embedding

分词和编码
inputs = tokenizer(code_snippet,return_tensors="pt",       # 返回 PyTorch 张量max_length=512,            # 截断长度(根据代码长度调整)truncation=True,padding="max_length"       # 填充到最大长度
)
提取隐藏状态(Hidden States)
with torch.no_grad():outputs = model(**inputs, output_hidden_states=True)# 获取最后一层隐藏状态(形状:[batch_size, seq_len, hidden_size])
last_hidden_states = outputs.hidden_states[-1]# 对序列维度取平均,得到句向量(embedding)
code_embedding = last_hidden_states.mean(dim=1).squeeze().numpy()

5. 优化 Embedding 质量(可选)

对比学习微调

如果针对特定任务(如代码相似性匹配),可基于标注数据对 Pythia 进行微调:

from transformers import TrainingArguments, Trainer# 自定义数据集(示例)
train_dataset = [...]  # 包含 (代码1, 代码2, 相似标签) 的数据对# 定义对比损失函数
import torch.nn as nn
class ContrastiveLoss(nn.Module):def __init__(self, margin=1.0):super().__init__()self.margin = margindef forward(self, emb1, emb2, label):distance = torch.norm(emb1 - emb2, dim=1)loss = (1 - label) * distance.pow(2) + label * torch.clamp(self.margin - distance, min=0).pow(2)return loss.mean()# 微调训练
training_args = TrainingArguments(output_dir="./results",per_device_train_batch_size=4,num_train_epochs=3,
)trainer = Trainer(model=model,args=training_args,train_dataset=train_dataset,compute_loss=ContrastiveLoss(),
)
trainer.train()

6. 应用 Embedding

计算代码相似度
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity# 生成两个代码的 embedding
embedding1 = get_embedding(code1)  # 自定义函数封装上述步骤
embedding2 = get_embedding(code2)# 计算余弦相似度
similarity = cosine_similarity([embedding1], [embedding2])[0][0]
print(f"代码相似度:{similarity:.2f}")

关键注意事项

  1. 模型选择
    • 小参数模型(如 pythia-70m)适合快速实验,大模型(如 pythia-2.8b)需更多计算资源。

  2. 代码预处理
    • 去除注释、标准化变量名以提高泛化性。

  3. 长代码处理
    • 若代码超过模型最大长度(如 512 tokens),可分段处理或截断。

  4. 性能优化
    • 使用 GPU 加速(model.to("cuda"))。
    • 启用半精度推理(model.half())。


适用场景

代码克隆检测:通过 embedding 相似度识别重复代码。
漏洞分析:检测与已知漏洞相似的代码模式。
代码搜索:根据自然语言查询匹配代码片段。

通过以上步骤,你可以高效利用 Pythia 生成高质量的代码嵌入,并适配具体任务需求。

使用 Pythia 是否需要 GPU 资源,取决于以下因素:


1. 模型规模

Pythia 提供多个参数规模的版本(70M 到 12B),不同规模的模型对硬件需求差异显著:
小模型(70M~410M)
CPU 勉强可用:可在 CPU 上运行推理(生成文本或提取嵌入),但速度较慢(例如:70M 模型在 CPU 上生成 100 token 约需 10 秒)。
GPU 推荐:使用低端 GPU(如 NVIDIA T4)可显著加速(速度提升 5~10 倍)。
大模型(1.4B~12B)
必须用 GPU:显存需求高(例如 12B 模型需 24GB+ 显存),仅高端 GPU(如 A100、RTX 3090/4090)可支持完整精度推理。
量化技术:通过 8-bit/4-bit 量化可降低显存占用(例如 12B 模型量化后需 12GB 显存),但需要兼容的库(如 bitsandbytes)。


2. 任务类型

推理(Inference)
小模型:可在 CPU 或低端 GPU 上运行,适合单次生成或简单嵌入提取。
大模型:需 GPU,适合高质量生成任务(如代码补全)。
训练/微调(Training/Fine-tuning)
必须用 GPU:即使是 410M 模型,微调时也需要至少 16GB 显存(如 RTX 3090)。
分布式训练:多 GPU 或 TPU 加速(如使用 deepspeed 库)。


3. 优化方法

若资源有限,可通过以下技术降低 GPU 依赖:

  1. 模型量化
    使用 bitsandbytes 库进行 8-bit/4-bit 量化,显存占用减少 50%~75%:
    model = AutoModelForCausalLM.from_pretrained("EleutherAI/pythia-1.4b",load_in_8bit=True,  # 8-bit 量化device_map="auto"   # 自动分配 CPU/GPU
    )
    
  2. 内存卸载(Offloading)
    将部分模型权重卸载到 CPU 内存(牺牲速度换显存):
    model = AutoModelForCausalLM.from_pretrained("EleutherAI/pythia-2.8b",device_map="balanced_low_0"  # 混合 CPU/GPU 加载
    )
    
  3. 轻量级库
    使用 llama.cppmlc-llm 等优化库,在 CPU 上高效运行量化模型。

4. 实际场景建议

场景 1:个人开发者(无 GPU)

推荐模型:70M/160M 版本。
工具:直接通过 CPU 运行,或使用 Google Colab 免费 GPU(T4/K80)。
示例代码(CPU 推理)

from transformers import pipeline
generator = pipeline("text-generation", model="EleutherAI/pythia-70m", device=-1)  # device=-1 表示 CPU
print(generator("def hello_world():"))
场景 2:企业级应用(有 GPU)

推荐模型:1.4B+ 版本。
部署方案:使用 NVIDIA Triton 或 Hugging Face Inference Endpoints 实现高并发推理。


5. 显存需求估算

模型参数FP32 显存FP16 显存8-bit 量化显存
70M280MB140MB70MB
410M1.6GB0.8GB0.4GB
1.4B5.6GB2.8GB1.4GB
12B48GB24GB12GB

结论

小规模任务:可在 CPU 或低端 GPU 上运行 Pythia(如 70M~410M)。
大规模任务:必须依赖 GPU,并需通过量化或分布式技术优化资源。
最佳实践:根据任务需求选择模型规模,优先使用量化或云服务(如 AWS/GCP)弹性扩展资源。

相关文章:

Pythia 使用说明

Pythia 是一个由非营利研究组织 EleutherAI 开发的开源语言模型套件&#xff0c;专注于透明性和可复现性。它是为了推动自然语言处理&#xff08;NLP&#xff09;领域的开放研究而设计&#xff0c;尤其在模型训练过程和性能分析方面提供了详尽的文档和数据。 Pythia 的核心特点…...

python:获取某路径下所有图片的名称

可以使用 Python 的 os 模块或者 pathlib 模块来获取指定路径下所有图片的名称。以下是使用这两种方法实现的代码示例&#xff1a; 使用 os 模块 import osdef get_image_names_os(path):image_extensions (.jpg, .jpeg, .png, .gif, .bmp)image_names []for root, dirs, f…...

一个开源的 VS Code 大模型聊天插件:Light-at

这篇文章是一个开发杂谈。对于有经验的开发者来说&#xff0c;可能这个项目并不算特别复杂或者高技术&#xff0c;只是对我个人来说算一个里程碑&#xff0c;因此写篇杂谈文章记录一下。也许也能给起步者一些参考。 项目地址&#xff1a;https://github.com/HiMeditator/light-…...

图论学习笔记2

请先阅读图论学习笔记 1。 在这篇文章里&#xff0c;我们将继续以前 tarjan 求解的强连通分量和双连通分量&#xff0c;讲解其缩点相关内容。 也会讲解一些特殊的图&#xff1a;基环树与仙人掌图、最小树形图。 缩点 我们知道&#xff0c;将强连通分量、双连通分量缩点之后…...

蓝桥杯备赛---真题训练之15届省赛产品360度展示

题目 介绍 在电子商务网站中&#xff0c;用户可以通过鼠标或手势交互实现 360 度全方位查看产品&#xff0c;提升用户体验。现在需要你设计一个 Pipeline 管道函数&#xff0c;用于控制 360 度展示产品的动画序列&#xff0c;通过管道连接各个动画步骤&#xff0c;使产品以流畅…...

图论:单源最短路(BF算法+迪杰斯特拉算法+spfa算法)

单源最短路 概念 dijkstra实现&#xff08;解决不了负权值&#xff09; P3371 【模板】单源最短路径&#xff08;弱化版&#xff09; - 洛谷 #include<iostream> #include<vector> #include<cstring> using namespace std;typedef pair<int, int> PII…...

嵌入式学习(35)-TTS语音模块FT-VBM-OS支持ModbusRTU

一、概述 FT-TTS-R-01 &#xff08;下简简“模块”&#xff09;是一款可将串口传入的文本信息转成语音播报的控制器。块”可下接收任意字 符或者汉字&#xff0c;并通过 TTS 语音合成功能&#xff0c;清晰、准确、自然的合成并播放音频。该块”还带有 1 路继电器输出&#xff0…...

【Vue-组件】学习笔记

目录 <<回到导览组件1.项目1.1.Vue Cli1.2.项目目录1.3.运行流程1.4.组件的组成1.5.注意事项 2.组件2.1.组件注册2.2.scoped样式冲突2.3.data是一个函数2.4.props详解2.5.data和prop的区别 3.组件通信3.1.父子通信3.1.1.父传子&#xff08;props&#xff09;3.1.2.子传父…...

Github上一些使用技巧(缩写、Issue的Highlight)自用

1. GIthub中的一些缩写 LGTM ! 最近经常看到一些迷之缩写&#xff0c;感觉挺有意思的&#xff0c;但是有时候看到一些没见过的缩写还是有点懵逼&#xff0c;不过缩写确实也是很方便去review&#xff0c;这里就记录汇总一下&#xff1b;顺便加了一些git的基操单词&#xff08;加…...

【团体程序涉及天梯赛】L1~L2实战反思合集(C++)

实战反思汇总记录 仔细审题&#xff0c;想好再写 L1-104 九宫格 - 团体程序设计天梯赛-练习集 易忽略的错误&#xff1a;开始习惯性地看到n就以为是n*n数组了&#xff0c;实际上应该是9*9的固定大小数组&#xff0c;查了半天没查出来 L1-101 别再来这么多猫娘了&#xff01…...

ubuntu下的node.js的安装

安装 node-v22.14.0-linux-x64.tar.xz 的步骤如下&#xff1a; 1. 下载和解压 如果尚未下载文件&#xff0c;可以通过 wget 下载&#xff08;替换为实际下载链接&#xff09;&#xff1a; wget https://nodejs.org/dist/v22.14.0/node-v22.14.0-linux-x64.tar.xz解压文件&…...

VMware-workstation-full-12.5.2 install OS X 10.11.1(15B42).cdr

手把手虚拟机安装苹果操作系统 VMware_workstation_full_12.5.2 unlocker208 Apple Max OS X(M&#xff09;-CSDN博客 vcpu-0:VERIFY vmcore/vmm/main/physMem_monitor.c:1180 FILE: FileCreateDirectoryRetry: Non-retriable error encountered (C:\ProgramData\VMware): Cann…...

Linux下创建svn库 和 svn安装与操作

1.介绍 SVN是Subversion的简称&#xff0c;是一个开放源代码的版本控制系统&#xff0c;相较于RCS、CVS&#xff0c;它采用了分支管理系统&#xff0c;它的设计目标就是取代CVS。适合中小公司的开发人员不多的项目使用,相比git管理工具更简单. 2.安装svn 2.1 国际惯例 首先看…...

React-04React组件状态(state),构造器初始化state以及数据读取,添加点击事件并更改state状态值

1.React组件状态&#xff08;state&#xff09; 组件可以拥有状态&#xff08;state&#xff09;&#xff0c;它是组件数据的私有部分&#xff0c;可以用来管理动态数据。状态仅适用于类组件&#xff0c;或者使用 React 的 Hook 时可以在函数组件中使用。 注意 组件中render方…...

第3课:MCP协议接口定义与开发实践

MCP协议接口开发实战&#xff1a;从标准化设计到跨语言SDK落地 一、引言&#xff1a;为什么接口标准化是多智能体协作的“刚需” 在多智能体系统中&#xff0c;不同语言开发的智能体、异构服务之间的通信效率往往受制于接口兼容性问题。MCP&#xff08;Model Context Protoco…...

Perl语言的WebAssembly

Perl语言的WebAssembly&#xff1a;将古老的语言带入新世纪 引言 在编程语言发展的历史长河中&#xff0c;Perl作为一门早期广泛使用的脚本语言&#xff0c;以其灵活性和丰富的文本处理能力而闻名。然而&#xff0c;随着互联网和Web技术的迅猛发展&#xff0c;许多开发者开始…...

[ISP] ISP 中的 GTM 与 LTM:原理、算法与与 Gamma 校正的对比详解

在现代图像信号处理&#xff08;ISP&#xff09;流水线中&#xff0c;图像增强是提升视觉质量的核心手段之一。尤其是在高动态范围&#xff08;HDR&#xff09;内容、弱光环境或复杂光照条件下&#xff0c;Tone Mapping&#xff08;色调映射&#xff09;技术的引入成为关键。To…...

健身管理小程序|基于java微信开发健身管理小程序的系统设计与实现(源码+数据库+文档)

健身管理小程序目录 基于微信开发健身管理小程序设计与实现 一、前言 二、系统设计 三、系统功能设计 小程序端&#xff1a; 后台 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大厂码…...

批量将文本合并成单个文件,支持按文件夹合并文本文档

我们的文件夹中有零零碎碎的多个小的文本文件&#xff0c;这对我们存档记录是非常不方便&#xff0c;不友好的。如果我们能够将多个小的文本文件合并成一个完整的大的文本文件&#xff0c;那不管是在共享还是在存档起来都更加的方便。今天给大家介绍一下如何批量将多个文本文件…...

ROS云课三分钟-差动移动机器人巡逻报告如何撰写-中等报告

评语&#xff1a; 成绩中等&#xff08;70/100&#xff09;&#xff0c;具体如下&#xff1a; 1. 摘要部分 问题描述&#xff1a; 内容空洞&#xff1a;摘要过于简短&#xff0c;仅简要概述了研究内容和实现方法&#xff0c;未突出研究的创新点或重要性。缺乏细节&#xff1…...

forms实现推箱子小游戏

说明: forms实现推箱子小游戏 效果图&#xff1a; step0:游戏规则 # 推箱子游戏规则说明## &#x1f3af; 游戏目标 - 通过控制角色移动&#xff0c;将所有**棕色箱子(3)**推到**红色目标点(4)**上 - 当所有箱子都变为**绿色(7)**时&#xff0c;即完成当前关卡 - 完成全部关…...

图的储存+图的遍历

图的存储 邻接矩阵 #include <iostream>#include <cstring>using namespace std;const int N 1010;int n, m;int edges[N][N];int main() {memset(edges, -1, sizeof edges);cin >> n >> m; // 读⼊结点个数以及边的个数 for(int i 1; i < m; i)…...

蓝桥杯—数字接龙(dfs+减枝)

一.题目 二.思路 一看就是迷宫问题的变种&#xff0c;从左上角到达右下角&#xff0c;要解决 1.8个方向的方向向量&#xff0c;用dx&#xff0c;dy数组代表方向向量 2.要按照一个规律的数值串进行搜索0&#xff0c;1&#xff0c;2&#xff0c;k-1&#xff0c;0&#xff0c;1…...

Solidity智能合约漏洞类型与解题思路指南

一、常见漏洞类型与通俗解释 1. 重入攻击(Reentrancy) 🌀 通俗解释:就像你去银行取钱,柜台人员先给你钱,然后再记账。你拿到钱后立即又要求取钱,由于账还没记,柜台又给你一次钱,这样循环下去你就能拿走银行所有的钱。 漏洞原理:合约在更新状态前调用外部合约,允许…...

临床 不等于 医学-《分析模式》漫谈52

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 “Analysis Patterns”的第4章“企业财务观察”有这么一句话&#xff1a; An important point about this model——a reflection of its clinical background 2004&#xff08;机械…...

鸿蒙应用开发中的 Stack 布局模式

在鸿蒙(HarmonyOS)应用开发中&#xff0c;Stack 布局模式是一种非常灵活的布局方式&#xff0c;类似于其他开发框架中的 StackPanel 或 AbsoluteLayout。它允许子组件按照层级关系进行堆叠&#xff0c;后添加的组件会覆盖在先添加的组件之上。开发者可以通过设置组件的位置、大…...

仿modou库one thread one loop式并发服务器

源码&#xff1a;田某super/moduo 目录 SERVER模块&#xff1a; Buffer模块&#xff1a; Socket模块&#xff1a; Channel模块&#xff1a; Connection模块&#xff1a; Acceptor模块&#xff1a; TimerQueue模块&#xff1a; Poller模块&#xff1a; EventLoop模块&a…...

【AI学习】初步了解Gradio

Gradio 是一个开源的 Python 库&#xff0c;专注于快速构建交互式 Web 界面&#xff0c;特别适用于机器学习模型、数据科学项目或任意 Python 函数的演示与部署。它通过极简的代码实现前后端一体化&#xff0c;无需前端开发经验即可创建功能丰富的应用。以下是 Gradio 的核心特…...

C++11QT复习 (十四)

文章目录 Day9 数据结构学习笔记&#xff08;2025.04.01&#xff09;一、C基础快速回顾二、STL&#xff08;标准模板库&#xff09;三、常见容器及其对应的数据结构四、容器操作演示1. 基本容器使用2. 异构类型容器 五、迭代器详解特点示例用户自定义结构体访问成员 六、算法库…...

ThreadCache

目录 一、Freelist 二、ThreadCache 三、哈希桶映射规则 一、Freelist 在之前整体框架介绍的时候&#xff0c;我们曾说过ThreadCache是一个哈希桶的结构。每一个桶都要存同一个大小的对象块&#xff08;即最小块的内存&#xff09;。 那么我们使用FreeList来…...

c++中同步和异步,阻塞和非阻塞原理以及机制

在C中&#xff0c;同步与异步、阻塞与非阻塞是并发编程中的重要概念&#xff0c;它们描述了程序在执行任务时的行为模式。理解这些概念对于设计高效、响应良好的并发程序至关重要。下面我将详细介绍这些概念的原理和机制。 1. 同步与异步 同步&#xff08;Synchronous&#x…...

Python项目打包指南:PyInstaller与SeleniumWire的兼容性挑战及解决方案

前言 前段时间做一个内网开发的需求&#xff0c;要求将selenium程序打包成.exe放在内网的win7上运行&#xff0c;在掘金搜了一圈也没有发现相关文章&#xff0c;因此将过程中踩到的坑记录分享一下。 本文涵盖了具体打包操作、不同模块和依赖项的兼容性解决方案&#xff0c;以…...

浅谈微信视频号推荐算法

这次可能会稍微有点干货&#xff0c;但保证不晦涩~ 一、算法推荐的本质&#xff1a;猜你喜欢 vs 社交绑架​ 视频号的推荐系统本质上在做两件事&#xff1a; ​预测你的兴趣​&#xff1a;通过你的浏览、点赞、评论、分享等行为&#xff0c;分析你的偏好。​满足社交需求​&…...

selenium 常用方法

selenium 库的常用方法&#xff1a; 方法说明示例代码webdriver.Chrome()初始化 Chrome 浏览器实例。driver webdriver.Chrome()driver.get(url)访问指定的 URL 地址。driver.get("https://example.com")driver.find_element(By, value)查找第一个匹配的元素。elem…...

springboot中使用async实现异步编程

目录 1.说明 2.实现原理 3.示例 4.总结 1.说明 Async 是 Spring 框架提供的一个注解&#xff0c;用于标记方法为异步执行。被标记的方法将在调用时立即返回&#xff0c;而实际的方法执行将在单独的线程中进行。 Async 注解有一个可选属性&#xff1a;指定要使用的特定线程…...

【2024年蓝桥杯Java B组】省赛真题详细解析

【2024年蓝桥杯Java B组】省赛真题 距离比赛仅剩5天&#xff0c;大多数省份可能完成3-4题即可拿到省奖&#xff0c;2025年想要拿到省奖&#xff0c;需要高效利用时间&#xff0c;重点突破关键知识点和题型。这里以【2024年蓝桥杯Java B组省赛真题】为例&#xff0c;梳理我们最后…...

SQL:DDL(数据定义语言)和DML(数据操作语言)

目录 什么是SQL&#xff1f; 1. DDL&#xff08;Data Definition Language&#xff0c;数据定义语言&#xff09; 2. DML&#xff08;Data Manipulation Language&#xff0c;数据操作语言&#xff09; DDL和DML的区别 什么是SQL&#xff1f; SQL&#xff08;Structured …...

机器学习核心概念、算法分类与应用场景全解析

文章目录 一、基础任务与算法分类1. 分类任务&#xff08;监督学习&#xff09;2. 回归任务&#xff08;监督学习&#xff09;3. 聚类任务&#xff08;无监督学习&#xff09; 二、关键流程与技术细节1. 数据预处理2. 特征工程3. 数据集划分与评估 三、进阶技术1.深度学习2.强化…...

【leetcode】—416.分割等和子集

✏️ 关于专栏&#xff1a;专栏用于记录 LeetCode 中做题与总结 文章目录 分割等和子集▐ 题目描述▐ 题目示例▐ 题目提示▐ 思路&代码方法&#xff1a;动态规划 分割等和子集 ▐ 题目描述 题目链接&#xff1a;分割等和子集 给你一个 只包含正整数 的 非空 数组 nums …...

jemeter 之mysql驱动问题

问题 java.sql.SQLException: No suitable driver found for jdbc:mysql 解决 先把jar放到lib下 检查 JMeter 的 Classpath 在 JMeter 中&#xff0c;JDBC 驱动需要手动添加到 Classpath 中。 打开 JMeter 安装目录下的 bin/jmeter.properties 文件&#xff0c;找到 user.cla…...

隐私计算的崛起:数据安全的未来守护者

在信息技术&#xff08;IT&#xff09;的滚滚浪潮中&#xff0c;一种新兴技术正以惊人速度崭露头角——隐私计算&#xff08;Privacy-Preserving Computation&#xff09;。2025 年&#xff0c;随着数据泄露事件频发、全球隐私法规日益严格&#xff0c;以及企业对数据协作需求的…...

Excel计数、求和、统计、计算类函数

目录 一、计数函数1. COUNT2. COUNTA3. COUNTBLANK4. COUNTIF5. COUNTIFS 二、求和函数1. SUM2. SUMIF3. SUMIFS4. SUMPRODUCT 三、统计函数1. AVERAGE2. AVERAGEA3. AVERAGEIF 函数4. AVERAGEIFS 函数 四、其他常用计算函数1. MAX 与 MIN2. RANK3. MOD4. ROUND5. FLOOR6. INT7…...

解决 Kubernetes 中容器 `CrashLoopBackOff` 问题的实战经验

在 Kubernetes 集群中&#xff0c;容器状态为 CrashLoopBackOff 通常意味着容器启动失败&#xff0c;并且 Kubernetes 正在不断尝试重启它。这种状态表明容器内可能存在严重错误&#xff0c;如应用异常、依赖服务不可用、配置错误等。本文将分享一次实际排障过程&#xff0c;并…...

北师大具身AI的虚拟世界扩展!UNREALZOO:为具身智能打造高逼真度的虚拟世界

作者&#xff1a;Fangwei Zhong, Kui Wu, Churan Wang, Hao Chen, Hai Ci, Zhoujun Li, Yizhou Wang 单位&#xff1a;北京师范大学&#xff0c;北京航空航天大学&#xff0c;北京大学&#xff0c;BIGAI&#xff0c;澳门城市大学&#xff0c;新加坡国立大学 论文标题&#xf…...

2025 年浙江保安员职业资格考试高效备考指南​

浙江以创新活力著称&#xff0c;保安行业也在不断革新。2025 年考试报考条件常规&#xff0c;报名主要通过浙江省保安服务监管信息系统&#xff0c;方便快捷。​ 理论考试在传统知识基础上&#xff0c;加大对智能安防技术应用的考查&#xff0c;如人脸识别系统、智能监控报警系…...

创意设计:动态彩色数学爱心

设计理念 数学之美&#xff1a;使用心形线的数学方程&#xff08;心形曲线&#xff09;生成爱心形状。视觉吸引力&#xff1a;通过 Python 的 colorama 库添加颜色渐变效果。动态感&#xff1a;加入简单的动画&#xff0c;让爱心“跳动”。技术魅力&#xff1a;结合模块化编程…...

C++动态内存管理完全指南:从基础到现代最佳实践

一、动态内存基础原理 1.1 内存分配层次结构 内存类型生命周期分配方式典型使用场景静态存储区程序整个运行期编译器分配全局变量、静态变量栈内存函数作用域自动分配/释放局部变量堆内存手动控制new/malloc分配动态数据结构 1.2 基本内存操作函数 // C风格 void* malloc(s…...

ebpf: CO-RE, BTF, and Libbpf(一)

本文内容主要来源于Learning eBPF&#xff0c;可阅读原文了解更全面的内容。 概述 一个ebpf程序可以在一个kernel版本中编译&#xff0c;而在另外一个kernel版本上运行&#xff0c;即便两个kernel版本中有些结构体有变化。而BTF(BPF Type Format) 是能让ebpf有这种强大兼容性…...

Linux 递归查找并删除目录下的文件

在 Linux 中&#xff0c;可以使用 find 命令递归查找并删除目录下的文件 1、示例命令 find /path/to/directory -type f -name "filename_pattern" -exec rm -f {} 2、参数说明 /path/to/directory&#xff1a;要查找的目标目录type f&#xff1a;表示查找文件&am…...

使用人工智能大模型腾讯元宝,如何快速编写活动记录?

今天我们学习使用人工智能大模型腾讯元宝&#xff0c;如何快速编写活动记录&#xff1f; 手把手学习视频地址https://edu.csdn.net/learn/40402/666457 第一步在腾讯元宝对话框中输入如何协助老师写教研活动记录&#xff0c;通过提问&#xff0c;我们了解了老师写教研活动记录…...