当前位置: 首页 > news >正文

06-机器学习-数据预处理

数据清洗

数据清洗是数据预处理的核心步骤,旨在修正或移除数据集中的错误、不完整、重复或不一致的部分,为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例:


一、数据清洗的核心任务

问题类型表现示例影响
缺失值数值型字段为空(NaN)模型无法处理缺失值,导致训练中断或偏差
异常值年龄=200岁,房价=-100万扭曲统计指标(如均值),降低模型泛化性
重复数据两行记录完全相同导致模型过拟合,降低数据代表性
不一致数据日期格式混乱(2023-09-01 vs 01/09/23)解析错误,特征提取失败

二、数据清洗流程与工具

1. 缺失值处理
  • 检测缺失值

    # 统计每列缺失比例
    missing_ratio = data.isnull().mean() * 100
    print(missing_ratio.sort_values(ascending=False))
    
  • 处理方法

    方法适用场景代码示例
    直接删除缺失比例高(>80%)或无关字段data.dropna(axis=1, thresh=len(data)*0.2)
    均值/中位数填充数值型字段,缺失随机分布data['age'].fillna(data['age'].median(), inplace=True)
    众数填充类别型字段data['gender'].fillna(data['gender'].mode()[0], inplace=True)
    插值法时间序列数据(如温度记录)data['temperature'].interpolate(method='time', inplace=True)
    模型预测填充复杂场景(如多变量关联缺失)使用KNN或随机森林预测缺失值(见下方代码)

    KNN填充示例

    from sklearn.impute import KNNImputer
    imputer = KNNImputer(n_neighbors=5)
    data_filled = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)
    

2. 异常值处理
  • 检测方法

    • 描述性统计:检查最小/最大值是否合理
      print(data.describe())
      
    • 箱线图(Boxplot)
      plt.figure(figsize=(8,4))
      sns.boxplot(x=data['income'])
      plt.title("Income Distribution")
      plt.show()
      
    • Z-Score法(正态分布数据):
      z_scores = (data['value'] - data['value'].mean()) / data['value'].std()
      outliers = data[abs(z_scores) > 3]  # Z>3为异常
      
    • IQR法(非正态分布数据):
      Q1 = data['age'].quantile(0.25)
      Q3 = data['age'].quantile(0.75)
      IQR = Q3 - Q1
      lower_bound = Q1 - 1.5 * IQR
      upper_bound = Q3 + 1.5 * IQR
      
  • 处理方法

    方法代码示例
    删除异常值data = data[(data['age'] >= 0) & (data['age'] <= 100)]
    截断(Winsorize)from scipy.stats.mstats import winsorize<br>data['income'] = winsorize(data['income'], limits=[0.05, 0.05])
    分箱(Binning)data['age_bin'] = pd.cut(data['age'], bins=[0,18,35,60,100])

3. 重复数据处理
  • 检测与删除

    # 检测完全重复的行
    duplicates = data.duplicated()
    print(f"重复行数量: {duplicates.sum()}")# 删除重复行(保留第一个出现值)
    data.drop_duplicates(keep='first', inplace=True)
    
  • 部分重复处理(如用户ID重复但信息不同):

    # 按关键字段去重(如用户ID)
    data.drop_duplicates(subset=['user_id'], keep='last', inplace=True)
    

4. 不一致数据修正
  • 格式统一

    # 日期格式标准化
    data['date'] = pd.to_datetime(data['date'], format='mixed')# 文本大小写统一
    data['category'] = data['category'].str.lower()# 单位统一(如货币转换)
    data['price'] = data['price'].apply(lambda x: x * 6.5 if 'USD' in x else x
    )
    
  • 逻辑校验

    # 检查年龄与出生日期是否一致
    current_year = pd.Timestamp.now().year
    data['calculated_age'] = current_year - data['birth_year']
    invalid_age = data[abs(data['age'] - data['calculated_age']) > 1]
    

三、实战案例:电商订单数据清洗

原始数据问题
import pandas as pd
data = pd.DataFrame({'order_id': [101, 102, 103, 104, 105, 106],'user_id': [1, 2, 2, 3, 4, None],'price': [29.9, 199.0, 199.0, -50.0, 89.9, 120.0],'order_date': ['2023-09-01', '01/09/2023', '2023-09-01', '2023-10-32', None, '2023-09-05']
})
清洗步骤
  1. 处理缺失值

    # 填充user_id缺失值(假设新用户ID为999)
    data['user_id'].fillna(999, inplace=True)# 删除order_date缺失的行
    data.dropna(subset=['order_date'], inplace=True)
    
  2. 修正异常价格

    # 删除价格为负的订单
    data = data[data['price'] > 0]# 截断价格超过200的订单(假设业务上限为200)
    data['price'] = data['price'].clip(upper=200)
    
  3. 标准化日期格式

    # 转换日期并过滤无效日期(如2023-10-32)
    data['order_date'] = pd.to_datetime(data['order_date'], errors='coerce')
    data.dropna(subset=['order_date'], inplace=True)
    
  4. 去重

    # 按user_id和order_date去重(保留最后一条)
    data.drop_duplicates(subset=['user_id', 'order_date'], keep='last', inplace=True)
    
清洗后数据
order_iduser_idpriceorder_date
101129.92023-09-01
1022199.02023-09-01
105489.9NaT(已删除)
106999120.02023-09-05

四、注意事项

  1. 避免过度清洗:保留合理的数据多样性(如正常的价格波动)。
  2. 记录清洗日志:跟踪每一步操作的影响(如删除了多少行数据)。
  3. 业务规则优先:与领域专家确认异常定义(如“用户年龄>100是否合理”)。
  4. 自动化流水线:对持续更新的数据,使用Pipeline封装清洗步骤:
    from sklearn.pipeline import Pipelineclean_pipeline = Pipeline([('fill_na', SimpleImputer(strategy='constant', fill_value=999)),('remove_duplicates', DropDuplicates(subset=['user_id'])),('clip_outliers', ColumnTransformer([('clip', FunctionTransformer(lambda x: x.clip(0, 200)), ['price'])])),
    ])
    

数据变换

以下是对数据变换的更紧凑、更细节化的总结,突出核心要点与实用技巧:


一、标准化/归一化:核心差异

方法公式适用场景异常值敏感度Scikit-learn工具
Z-score z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ数据近似正态分布,线性模型(SVM、回归)StandardScaler
Min-Max x ′ = x − x min ⁡ x max ⁡ − x min ⁡ x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} x=xmaxxminxxmin图像像素、神经网络输入层MinMaxScaler
Robust x ′ = x − median I Q R x' = \frac{x - \text{median}}{IQR} x=IQRxmedian存在异常值,非正态分布RobustScaler

关键技巧

  • 树模型(如随机森林、XGBoost)无需标准化,但对特征组合敏感的模型(FM、NN)需要。
  • 归一化到[-1,1]可能对某些激活函数(如tanh)更友好。

二、非线性变换:快速选择

  1. 对数变换:右偏数据(如收入),用np.log1p避免零值。
  2. Box-Cox变换:需数据严格为正,自动优化λ值(scipy.stats.boxcox)。
  3. 分位数变换:强制数据服从均匀/正态分布(QuantileTransformer)。

示例代码

from sklearn.preprocessing import PowerTransformer
pt = PowerTransformer(method='yeo-johnson')  # 兼容零/负值
X_transformed = pt.fit_transform(X)

三、分类变量编码:场景化方案

方法优点缺点适用模型
One-Hot无顺序假设,兼容所有模型高维稀疏,需处理共线性线性模型、神经网络
Target编码保留类别与目标的关系需防过拟合(如交叉验证)树模型、高基数类别
Embedding低维稠密,捕捉语义相似性需预训练或端到端学习深度学习(NLP/推荐系统)

关键点

  • 高基数类别优先用Target EncodingCatBoost内置处理。
  • 树模型可尝试Label Encoding,但需验证类别顺序是否合理。

四、特征工程:高效操作

  1. 数值特征
    • 交叉特征:加减乘除(如电商中“单价×购买量=总金额”)。
    • 分箱:等频分箱(pd.qcut)或等宽分箱(pd.cut),捕捉非线性。
  2. 时间特征
    • 提取周期性(星期、月份),滑动窗口统计(均值、标准差)。
  3. 文本特征
    • 短文本用TF-IDF,长文本用BERT嵌入,高维稀疏时用TruncatedSVD降维。

代码示例

# 时间特征处理
df['hour'] = df['timestamp'].dt.hour
df['is_weekend'] = df['timestamp'].dt.weekday >= 5

五、降维:选择策略

方法核心思想适用场景注意事项
PCA线性投影最大化方差高维数据可视化/去噪需先标准化,可能丢失非线性信息
t-SNE非线性保留局部结构可视化高维聚类计算代价高,不用于特征输入
UMAP平衡速度与局部/全局结构大规模数据可视化/预处理参数敏感,需调参

经验

  • 输入特征>50时优先用PCA,保留95%方差(n_components=0.95)。
  • 避免对树模型使用降维,可能破坏特征重要性。

六、避坑指南

  1. 数据泄露
    • 所有变换必须仅用训练集统计量!用Pipeline确保流程:
      from sklearn.pipeline import make_pipeline
      pipe = make_pipeline(StandardScaler(), SVM())
      pipe.fit(X_train, y_train)
      
  2. 异常值处理
    • 缩尾处理(np.clip)或中位数填充,避免破坏分布。
  3. 评估验证
    • 对KNN、SVM等敏感模型,对比不同缩放方法的分类边界(如决策边界图)。

七、端到端流程

  1. 输入检查:分布(直方图/Q-Q图)、缺失值、异常值。
  2. 数值特征:缩放→非线性变换→分箱。
  3. 分类特征:编码→嵌入(可选)。
  4. 特征构造:领域知识驱动交叉/聚合。
  5. 输出验证:模型在验证集的表现波动是否<5%。

总结:数据变换需与模型特性深度耦合,通过实验迭代优化。记住:“Garbage in, garbage out”——宁可花80%时间在数据准备,而非调参!


特征工程

特征工程:从原始数据到模型燃料的核心技术

特征工程是机器学习的“炼金术”,旨在将原始数据转化为模型可理解的强特征,直接影响模型性能上限。以下是结构化拆解:


一、核心目标与价值
  • 目标:构造高信息量、低冗余、适配模型的特征。
  • 价值
    • 提升模型准确率(如添加用户历史行为统计特征)
    • 降低计算成本(通过降维/特征选择)
    • 增强可解释性(如分箱后的年龄组代替原始值)

二、特征构造:从原始数据中“挖掘金子”
  1. 时间特征

    • 基础字段:年、月、日、小时、星期几、是否节假日
    • 衍生特征:时间间隔(如上次购买距今的天数)、滑动窗口统计(过去7天均值)
    df['purchase_hour'] = df['timestamp'].dt.hour
    df['days_since_last_purchase'] = (current_date - df['last_purchase_date']).dt.days
    
  2. 交互特征(组合特征)

    • 数值交互:加减乘除(如“单价×数量=总价”)
    • 类别交叉:笛卡尔积(如“地区×产品类型”生成组合标签)
    df['price_per_sqmeter'] = df['total_price'] / df['area']
    
  3. 统计聚合特征

    • 单维度统计:用户历史购买金额的均值、最大值、方差
    • 跨表关联:订单表按用户ID聚合的订单数、退货率
    user_stats = orders.groupby('user_id')['amount'].agg(['mean', 'max'])
    
  4. 文本/图像特征

    • 文本:TF-IDF关键词权重、BERT句向量、情感分析得分
    • 图像:边缘特征、颜色直方图、预训练CNN提取的特征图

三、特征变换:提升模型适配性
  1. 分箱(Binning)

    • 等宽分箱:固定区间宽度(如年龄每10年一档)
    • 等频分箱:保证每箱样本量均衡
    • 模型分箱:使用决策树寻找最优分割点
    df['age_bin'] = pd.cut(df['age'], bins=[0,18,35,60,100], labels=['child', 'young', 'adult', 'senior'])
    
  2. 非线性变换

    • 对数变换:处理右偏分布(np.log1p避免零值)
    • Box-Cox变换:自动优化正态性(仅适用于正值)
    • 分位数变换:强制服从指定分布(如正态、均匀)
  3. 高基数类别处理

    • 目标编码(Target Encoding):用目标变量的统计量(如均值)代替类别
    • 频率编码:使用类别出现频率作为特征值
    • 嵌入编码(Embedding):通过神经网络学习低维表示(如Word2Vec)

四、特征选择:剔除噪声与冗余
方法原理适用场景
过滤法基于统计指标(如方差、卡方检验)快速初筛,计算成本低
包裹法通过模型性能迭代选择特征子集精确但计算代价高(递归特征消除)
嵌入法模型训练中自动选择(如L1正则化)与模型耦合,高效

实用技巧

  • 对树模型,直接使用feature_importances_筛选重要性>阈值特征
  • 对线性模型,结合Lasso回归的系数稀疏性做特征剔除

五、自动化特征工程工具
  1. FeatureTools:自动生成跨表聚合特征(如“用户最近3次登录时间标准差”)
  2. TSFresh:针对时间序列自动提取数百种统计特征(如自相关性、傅里叶变换系数)
  3. AutoFeat:自动构造多项式特征并进行显著性筛选
# FeatureTools示例
import featuretools as ft
es = ft.EntitySet()
es = es.entity_from_dataframe(entity_id='users', dataframe=users_df, index='user_id')
features, feature_defs = ft.dfs(entityset=es, target_entity='users')

六、避坑指南与最佳实践
  1. 避免数据泄露

    • 所有统计量(如Target Encoding的均值)必须仅从训练集计算!
    • 使用Pipeline封装预处理与模型训练:
      from sklearn.pipeline import Pipeline
      pipe = Pipeline([('encoder', TargetEncoder()), ('model', RandomForest())])
      
  2. 领域知识驱动

    • 在电商场景中,构造“商品价格与类目平均价格的比值”可能比单纯价格更有效
    • 在风控场景中,组合“申请时间与工作时段的重叠度”作为特征
  3. 迭代验证

    • 通过AB测试对比不同特征组合的模型性能
    • 监控特征稳定性(如PSI指标)防止线上数据分布偏移

七、终极心法
  • “Less is More”:优先构造10个强特征,而非100个弱特征。
  • “Think Like a Model”:理解模型如何利用特征(如线性模型依赖线性可分性,NN偏好稠密低维输入)。
  • “Data First, Algorithm Second”:特征工程提升的上限远高于调参!

总结:特征工程是融合领域知识、数据直觉与工程技巧的艺术。掌握核心方法后,需在业务场景中反复迭代,才能炼出“模型友好”的金牌特征。


相关文章:

06-机器学习-数据预处理

数据清洗 数据清洗是数据预处理的核心步骤&#xff0c;旨在修正或移除数据集中的错误、不完整、重复或不一致的部分&#xff0c;为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例&#xff1a; 一、数据清洗的核心任务 问题类型表现示例影响缺失值数值…...

《逆向工程核心原理》第三~五章知识整理

查看上一章节内容《逆向工程核心原理》第一~二章知识整理 对应《逆向工程核心原理》第三章到第五章内容 小端序标记法 字节序 多字节数据在计算机内存中存放的字节顺序分为小端序和大端序两大类 大端序与小端序 BYTE b 0x12; WORD w 0x1234; DWORD dw 0x12345678; cha…...

影视文件大数据高速分发方案

在当今的数字时代&#xff0c;影视行业的内容创作和传播方式经历了翻天覆地的变化。随着4K、8K高清视频的普及&#xff0c;以及虚拟现实(VR)和增强现实(AR)技术的发展&#xff0c;影视文件的数据量正以前所未有的速度增长。这就要求行业内的参与者必须拥有高效的大数据传输解决…...

使用朴素贝叶斯对散点数据进行分类

本文将通过一个具体的例子&#xff0c;展示如何使用 Python 和 scikit-learn 库中的 GaussianNB 模型&#xff0c;对二维散点数据进行分类&#xff0c;并可视化分类结果。 1. 数据准备 假设我们有两个类别的二维散点数据&#xff0c;每个类别包含若干个点。我们将这些点分别存…...

pytorch线性回归模型预测房价例子

人工智能例子汇总&#xff1a;AI常见的算法和例子-CSDN博客 import torch import torch.nn as nn import torch.optim as optim import numpy as np# 1. 创建线性回归模型类 class LinearRegressionModel(nn.Module):def __init__(self):super(LinearRegressionModel, self).…...

微信登录模块封装

文章目录 1.资质申请2.combinations-wx-login-starter1.目录结构2.pom.xml 引入okhttp依赖3.WxLoginProperties.java 属性配置4.WxLoginUtil.java 后端通过 code 获取 access_token的工具类5.WxLoginAutoConfiguration.java 自动配置类6.spring.factories 激活自动配置类 3.com…...

C++运算符重载

C的运算符重载&#xff1a;使对象的运算表现得和编译器内置类型一样 以复数类为例&#xff1a; #include <iostream> using namespace std;class CComplex { public:CComplex(int r 0, int i 0): mreal(r), mimage(i){}// 指导编译器怎么做CComplex类对象的加法操作CC…...

pandas(三)Series使用

一、Series基础使用 import pandasd {x:100,y:200,z:300} s1 pandas.Series(d) #将dict转化为Series print(s1)print("") l1 [1, 2, 3] l2 [a, b, c] s2 pandas.Series(l1, indexl2) #list转为Series print(s2)print("") s3 pandas.Series([11…...

PVE 中 Debian 虚拟机崩溃后,硬盘数据怎么恢复

问题 在 PVE 中给 Debian 虚拟机新分配硬盘后&#xff0c;通过 Debian 虚拟机开启 Samba 共享该硬盘。如果这个 Debian 虚拟机崩溃后&#xff0c;怎么恢复 Samba 共享硬盘数据。 方法 开启 Samba 共享相关知识&#xff1a;挂载硬盘和开启Samba共享。 新建一个虚拟机&#xf…...

【大数据技术】案例01:词频统计样例(hadoop+mapreduce+yarn)

词频统计(hadoop+mapreduce+yarn) 搭建完全分布式高可用大数据集群(VMware+CentOS+FinalShell) 搭建完全分布式高可用大数据集群(Hadoop+MapReduce+Yarn) 在阅读本文前,请确保已经阅读过以上两篇文章,成功搭建了Hadoop+MapReduce+Yarn的大数据集群环境。 写在前面 Wo…...

PySPARK带多组参数和标签的SparkSQL批量数据导出到S3的程序

设计一个基于多个带标签SparkSQL模板作为配置文件和多组参数的PySPARK代码程序&#xff0c;实现根据不同的输入参数自动批量地将数据导出为Parquet、CSV和Excel文件到S3上&#xff0c;标签和多个参数&#xff08;以“_”分割&#xff09;为组成导出数据文件名&#xff0c;文件已…...

分享刷题过程中有价值的两道题目

小编在这里先祝大家新的一年里所愿皆得&#xff0c;万事顺意&#xff0c;天天开心&#xff01;&#xff01;&#xff01; 一.水仙花数 题目描述&#xff1a; 求100∼999中的水仙花数。若三位数ABCA^3B^3C^3&#xff0c;则称ABC为水仙花数。例如153&#xff0c;135333112527153&…...

Java篇之继承

目录 一. 继承 1. 为什么需要继承 2. 继承的概念 3. 继承的语法 4. 访问父类成员 4.1 子类中访问父类的成员变量 4.2 子类中访问父类的成员方法 5. super关键字 6. super和this关键字 7. 子类构造方法 8. 代码块的执行顺序 9. protected访问修饰限定符 10. 继承方式…...

7.DP算法

DP 在C中&#xff0c;动态规划&#xff08;Dynamic Programming&#xff0c;DP&#xff09;是一种通过将复杂问题分解为重叠子问题来高效求解的算法设计范式。以下是DP算法的核心要点和实现方法&#xff1a; 一、动态规划的核心思想 重叠子问题&#xff1a;问题可分解为多个重…...

[SAP ABAP] 在ABAP Debugger调试器中设置断点

在命令框输入/H&#xff0c;点击回车以后&#xff0c;调试被激活&#xff0c;点击触发任意事件进入ABAP Debugger调试器界面 点击按钮&#xff0c;可以在Debugger调试器中新增临时断点 我们可以从ABAP命令、方法、功能、表单、异常、消息、源代码等多个维度在Debugger调试器中设…...

使用LLaMA-Factory对AI进行认知的微调

使用LLaMA-Factory对AI进行认知的微调 引言1. 安装LLaMA-Factory1.1. 克隆仓库1.2. 创建虚拟环境1.3. 安装LLaMA-Factory1.4. 验证 2. 准备数据2.1. 创建数据集2.2. 更新数据集信息 3. 启动LLaMA-Factory4. 进行微调4.1. 设置模型4.2. 预览数据集4.3. 设置学习率等参数4.4. 预览…...

2 [GitHub遭遇严重供应链投毒攻击]

近日&#xff0c;有黑客针对 Discord Top.gg 的GitHub 账户发起了供应链攻击&#xff0c;此次攻击导致账户密码、凭证和其他敏感信息被盗&#xff0c;同时也影响到了大量开发人员。 Checkmarx 在一份技术报告中提到&#xff0c;黑客在这次攻击中使用了多种TTP&#xff0c;其中…...

[c语言日寄]C语言类型转换规则详解

【作者主页】siy2333 【专栏介绍】⌈c语言日寄⌋&#xff1a;这是一个专注于C语言刷题的专栏&#xff0c;精选题目&#xff0c;搭配详细题解、拓展算法。从基础语法到复杂算法&#xff0c;题目涉及的知识点全面覆盖&#xff0c;助力你系统提升。无论你是初学者&#xff0c;还是…...

Python魔法函数

在Python中&#xff0c;的确有“魔法函数”&#xff08;Magic Methods&#xff09;这种说法&#xff0c;也被称为特殊方法&#xff08;Special Methods&#xff09;。这些函数的名称以双下划线开始和结束&#xff0c;例如 __init__、__len__ 等。它们为Python提供了一种约定俗成…...

Cypher入门

文章目录 Cypher入门创建数据查询数据matchoptional matchwhere分页with 更新数据删除数据实例&#xff1a;好友推荐 Cypher入门 Cypher是Neo4j的查询语言。 创建数据 在Neo4j中使用create命令创建节点、关系、属性数据。 create (n {name:$value}) return n //创建节点&am…...

excel如何查找一个表的数据在另外一个表是否存在

比如“Sheet1”有“张三”、“李四”“王五”三个人的数据&#xff0c;“Sheet2”只有“张三”、“李四”的数据。我们通过修改“Sheet1”的“民族”或者其他空的列&#xff0c;修改为“Sheet2”的某一列。这样修改后筛选这个修改的列为空的或者为出错的&#xff0c;就能找到两…...

【华为OD-E卷 - 连续出牌数量 100分(python、java、c++、js、c)】

【华为OD-E卷 - 连续出牌数量 100分&#xff08;python、java、c、js、c&#xff09;】 题目 有这么一款单人卡牌游戏&#xff0c;牌面由颜色和数字组成&#xff0c;颜色为红、黄、蓝、绿中的一种&#xff0c;数字为0-9中的一个。游戏开始时玩家从手牌中选取一张卡牌打出&…...

buu-jarvisoj_level0-好久不见30

嘶&#xff0c;我咋觉得这个也是栈溢出呢&#xff0c;找到读取的值&#xff0c;在再找到后门函数...

DeepSeek r1本地安装全指南

环境基本要求 硬件配置 需要本地跑模型&#xff0c;兼顾质量、性能、速度以及满足日常开发需要&#xff0c;我们需要准备以下硬件&#xff1a; CPU&#xff1a;I9内存&#xff1a;128GB硬盘&#xff1a;3-4TB 最新SSD&#xff0c;C盘确保有400GB&#xff0c;其它都可划成D盘…...

【论文笔记】Fast3R:前向并行muti-view重建方法

众所周知&#xff0c;DUSt3R只适合做稀疏视角重建&#xff0c;与sapnn3r的目的类似&#xff0c;这篇文章以并行的方法&#xff0c;扩展了DUSt3R在多视图重建中的能力。 abstract 多视角三维重建仍然是计算机视觉领域的核心挑战&#xff0c;尤其是在需要跨不同视角实现精确且可…...

开源智慧园区管理系统对比其他十种管理软件的优势与应用前景分析

内容概要 在当今数字化快速发展的时代&#xff0c;园区管理软件的选择显得尤为重要。而开源智慧园区管理系统凭借其独特的优势&#xff0c;逐渐成为用户的新宠。与传统管理软件相比&#xff0c;它不仅灵活性高&#xff0c;而且具有更强的可定制性&#xff0c;让各类园区&#…...

第四节 MATLAB变量

每个MATLAB变量可以是数组或者矩阵。 用一个简单的方法指定变量。例如&#xff1a; x 3 % defining x and initializing it with a value MATLAB执行上述语句&#xff0c;并返回以下结果&#xff1a; x 3 上述的例子创建了一个1-1的矩阵名为x和的值存储在其元素中…...

小红的小球染色期望

B-小红的小球染色_牛客周赛 Round 79 题目描述 本题与《F.R小红的小球染色期望》共享题目背景&#xff0c;但是所求内容与范围均不同&#xff0c;我们建议您重新阅读题面。 有 n 个白色小球排成一排。小红每次将随机选择两个相邻的白色小球&#xff0c;将它们染成红色。小红…...

c++井字棋(单人对电脑:1.电脑随机下 2.电脑AI;3.双人对决)

本游戏分两个模式&#xff0c;三种玩法&#xff1a; 每个玩法中的人下棋规则不变&#xff0c;如下&#xff1a; while (1) {/*输入*/int row,col;cout<<"请输入坐标(1索引):\n";cin>>row>>col;/*切换索引*/row--;col--;if(legal(row,col)) {prin…...

Python 原子操作:使用 `atomic` 模块保证线程安全

Python 原子操作:使用 atomic 模块保证线程安全 在多线程编程中,共享数据的访问往往需要考虑线程安全问题。如果多个线程同时修改同一个变量,可能会导致数据竞争,从而产生不可预测的结果。为了解决这个问题,我们可以使用原子操作。原子操作是指不可中断的操作,要么全部执…...

《解锁AI黑科技:数据分类聚类与可视化》

在当今数字化时代&#xff0c;数据如潮水般涌来&#xff0c;如何从海量数据中提取有价值的信息&#xff0c;成为了众多领域面临的关键挑战。人工智能&#xff08;AI&#xff09;技术的崛起&#xff0c;为解决这一难题提供了强大的工具。其中&#xff0c;能够实现数据分类与聚类…...

使用朴素贝叶斯对自定义数据集进行分类

准备自定义数据集 首先&#xff0c;需要一个自定义数据集来进行分类。创建一个简单的二维数据集&#xff0c;其中每个样本有两个特征&#xff0c;并且属于两个类别之一。 import numpy as np import pandas as pd# 创建自定义数据集 np.random.seed(42) num_samples 100# 生…...

《超自然》:科学与灵性融合的自我转变之路

在现代社会中&#xff0c;许多人开始探寻自我成长、身心疗愈与灵性提升的可能性。Bestselling author Dr. Joe Dispenza 的《超自然&#xff1a;普通人如何创造非凡人生》正是在这样的大背景下问世的。书中既融合了量子物理、神经科学和表观遗传学的前沿理论&#xff0c;又吸收…...

学习日记-250202

现在开始要继续写我的日记了......&#xff08;也可以当作笔记吧&#xff09; 一.论文 Prompt Transfer for Dual-Aspect Cross Domain Cognitive Diagnosis 主要内容&#xff1a; 主要是加入prompt提示&#xff0c; 为重叠实体设计个性化的提示&#xff0c;为非重叠实体设计共…...

AI(计算机视觉)自学路线

本文仅用来记录一下自学路线方便日后复习&#xff0c;如果对你自学有帮助的话也很开心o(*&#xffe3;▽&#xffe3;*)ブ B站吴恩达机器学习->B站小土堆pytorch基础学习->opencv相关知识&#xff08;Halcon或者opencv库&#xff09;->四类神经网络&#xff08;这里跟…...

游戏引擎 Unity - Unity 启动(下载 Unity Editor、生成 Unity Personal Edition 许可证)

Unity Unity 首次发布于 2005 年&#xff0c;属于 Unity Technologies Unity 使用的开发技术有&#xff1a;C# Unity 的适用平台&#xff1a;PC、主机、移动设备、VR / AR、Web 等 Unity 的适用领域&#xff1a;开发中等画质中小型项目 Unity 适合初学者或需要快速上手的开…...

第二篇:多模态技术突破——DeepSeek如何重构AI的感知与认知边界

——从跨模态对齐到因果推理的工程化实践 在AI技术从单一模态向多模态跃迁的关键阶段&#xff0c;DeepSeek通过自研的多模态融合框架&#xff0c;在视觉-语言-语音的联合理解与生成领域实现系统性突破。本文将从技术实现层面&#xff0c;解构其跨模态表征学习、动态融合机制与…...

41. 缺失的第一个正数

参考题解&#xff1a;https://leetcode.cn/problems/first-missing-positive/solutions/7703/tong-pai-xu-python-dai-ma-by-liweiwei1419 难点在于时间复杂度控制在O(n)&#xff0c;空间复杂度为常数级。 哈希表时间复杂度符合&#xff0c;但是空间复杂度为O(n) 排序空间复杂…...

DeepSeek R1 简易指南:架构、本地部署和硬件要求

DeepSeek 团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。该研究突破性地采用强化学习&#xff08;Reinforcement Learning&#xff09;作为核心训练范式&#xff0c;在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。 技…...

经典游戏红色警戒2之英语

1. New construction options 部署新的建筑物&#xff08;一般是部署基地车时说的&#xff09;。 2. Loading 等待。&#xff08;正在进行&#xff09; 3. Construction complete 建筑完成。 4. On hold 等待。&#xff08;暂停进行&#xff09; 5. Canceled 取消。 6. Ca…...

Zemax 中带有体素探测器的激光谐振腔

激光谐振腔是激光系统的基本组成部分&#xff0c;在光的放大和相干激光辐射的产生中起着至关重要的作用。 激光腔由两个放置在光学谐振器两端的镜子组成。一个镜子反射率高&#xff08;后镜&#xff09;&#xff0c;而另一个镜子部分透明&#xff08;输出耦合器&#xff09;。…...

猴子吃桃问题

# 猴子吃桃问题&#xff1a;猴子第一天摘下若干个桃子&#xff0c;当即吃了一半&#xff0c;还不瘾&#xff0c;有多吃了一个&#xff0c;第二天早上有将剩下的桃子吃掉一半&#xff0c;又多吃了一个。以后每天早上都吃了前一天剩的一半零一个。到第十天早上想再吃时&#xff0…...

ELECTRA:作为判别器而非生成器的预训练文本编码器

摘要 诸如BERT之类的掩码语言建模&#xff08;MLM&#xff09;预训练方法通过将某些标记替换为[MASK]来破坏输入&#xff0c;然后训练模型以重建原始标记。尽管这些方法在下游自然语言处理&#xff08;NLP&#xff09;任务中表现良好&#xff0c;但它们通常需要大量的计算资源…...

图论——最小生成树

最小生成树 给定一个无向图&#xff0c;在图中选择若干条边把图的所有节点连起来。要求边长之和最小。在图论中&#xff0c;叫做求最小生成树。 prim算法 prim 算法采用的是一种贪心的策略。 每次将离连通部分的最近的点和点对应的边加入的连通部分&#xff0c;连通部分逐渐扩大…...

【Linux-网络】初识计算机网络 Socket套接字 TCP/UDP协议(包含Socket编程实战)

&#x1f3ac; 个人主页&#xff1a;谁在夜里看海. &#x1f4d6; 个人专栏&#xff1a;《C系列》《Linux系列》《算法系列》 ⛰️ 道阻且长&#xff0c;行则将至 目录 &#x1f4da;一、初识计算机网络 &#x1f4d6; 背景 &#x1f4d6; 网络协议 &#x1f516;OSI七层…...

三数之和(15)

15. 三数之和 - 力扣&#xff08;LeetCode&#xff09; 可以一起总结的题目&#xff1a;三角形的最大周长&#xff08;976&#xff09;-CSDN博客 解法&#xff1a; class Solution { public:vector<vector<int>> threeSum(vector<int>& nums) {vector…...

6 Flink 状态管理

6 Flink 状态管理 1. State-Keyed State2. State-Operator State3. Broadcast State 我们前面写的 wordcount 的例子&#xff0c;没有包含状态管理。如果一个task在处理过程中挂掉了&#xff0c;那么它在内存中的状态都会丢失&#xff0c;所有的数据都需要重新计算。从容错和消…...

物联网 STM32【源代码形式-使用以太网】连接OneNet IOT从云产品开发到底层MQTT实现,APP控制 【保姆级零基础搭建】

物联网&#xff08;IoT&#xff09;‌是指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器等装置与技术&#xff0c;实时采集并连接任何需要监控、连接、互动的物体或过程&#xff0c;实现对物品和过程的智能化感知、识别和管理。物联网的核心功能包括数据采集与监…...

elasticsearch8.15 高可用集群搭建(含认证Kibana)

文章目录 1.资源配置2.系统参数优化3.JDK17安装4.下载&安装ES 8.155.生成ES的证书(用于ES节点之间进行安全数据传输)6.修改ES 相关配置文件7.创建es用户并启动8.配置ES的账号和密码(用于ES服务端和客户端)9.下载和安装Kibana10.编辑Kibana配置文件11.启动Kiabana12.访问Kia…...

如何实现滑动网格的功能

文章目录 1 概念介绍2 使用方法3 示例代码 我们在上一章回中介绍了SliverList组件相关的内容&#xff0c;本章回中将介绍SliverGrid组件.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1 概念介绍 我们在本章回中介绍的SliverGrid组件是一种网格类组件&#xff0c;主要用来…...