当前位置: 首页 > news >正文

【数据挖掘】

数据挖掘

  • 目录:
      • 1. 数据转换
      • 2. 属性选择
      • 3. 独立于方案的选择
      • 4. 探索空间
      • 5. 具体方案的选择
      • 6. 离散化数值属性
        • 无监督离散化
        • 基于熵的离散化
        • 其他离散化方法
      • k-means算法
      • 原理
      • 算法步骤
      • 优缺点
        • 优点
        • 缺点
      • 代码示例(使用Python和`scikit-learn`库)
      • 代码解释
      • 确定最优`k`值的方法
        • 基于熵的离散化与基于误差的离散化
      • 7. 离散化属性转化成数值属性
      • 8. 投影
        • 主成分分析(PCA)
        • 随机投影
        • 偏最小二乘回归(PLS)
      • 9. 从文本到属性向量
      • 10. 时间序列
      • 11. 抽样
      • 12. 数据清洗
      • 13. 改进决策树
      • 14. 稳健回归
      • 15. 检测异常
      • 16. 一分类学习
      • 17. 多分类转化成二分类
      • 18. 嵌套二分法

目录:

1. 数据转换

数据转换是对原始数据进行处理,使其更适合模型训练的过程。常见的数据转换方法包括归一化、标准化、对数变换等。

  • 归一化:将数据缩放到 [0, 1] 区间,公式为 x n o r m = x − x m i n x m a x − x m i n x_{norm}=\frac{x - x_{min}}{x_{max}-x_{min}} xnorm=xmaxxminxxmin
  • 标准化:将数据转换为均值为 0,标准差为 1 的分布,公式为 x s t d = x − μ σ x_{std}=\frac{x - \mu}{\sigma} xstd=σxμ,其中 μ \mu μ 是均值, σ \sigma σ 是标准差。

2. 属性选择

属性选择旨在从原始特征中挑选出 最具有代表性和区分度的特征,以减少数据维度,提高模型性能和训练效率。常见方法有过滤法(如方差分析、相关系数)、包装法(如递归特征消除)和嵌入法(如决策树中的特征重要性)

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, chi2iris = load_iris()
X, y = iris.data, iris.target
selector = SelectKBest(score_func=chi2, k=2)
X_new = selector.fit_transform(X, y)

3. 独立于方案的选择

这指的是属性选择过程不依赖于具体的学习算法,而是基于数据本身的特征进行选择。例如,使用方差分析选择方差较大的特征,因为方差大的特征可能包含更多信息。在这里插入图片描述

4. 探索空间

在属性选择中,探索空间是指所有可能的特征子集的集合。搜索算法在这个空间中寻找最优的特征子集。例如,穷举搜索会遍历所有可能的子集,但当特征数量较多时,计算复杂度会非常高。
在这里插入图片描述

5. 具体方案的选择

根据不同的应用场景和数据特点选择合适的属性选择方法。例如,当数据量较大且特征维度高时,过滤法可能更合适;当希望结合特定模型进行特征选择时,包装法或嵌入法更适用。

6. 离散化数值属性

将连续的数值属性转换为离散的类别属性,可降低数据复杂度,提高模型对数据的理解能力。常见方法有无监督离散化和基于熵的离散化等。
在这里插入图片描述

无监督离散化
  • 等宽离散化将属性值的取值范围划分为若干个等宽的区间。例如,将年龄属性划分为 [0, 10)、[10, 20) 等区间。
  • 等频离散化:将属性值划分为若干个区间,使得每个区间内的样本数量大致相等。
基于熵的离散化

基于信息熵来确定最优的划分点,使得划分后的子集信息熵最小。通过不断尝试不同的划分点,选择信息增益最大的划分。

import numpy as npdef entropy(y):classes, counts = np.unique(y, return_counts=True)probabilities = counts / len(y)return -np.sum(probabilities * np.log2(probabilities))def information_gain(X, y, split_point):left_indices = X < split_pointright_indices = X >= split_pointentropy_before = entropy(y)entropy_left = entropy(y[left_indices])entropy_right = entropy(y[right_indices])weight_left = len(y[left_indices]) / len(y)weight_right = len(y[right_indices]) / len(y)entropy_after = weight_left * entropy_left + weight_right * entropy_rightreturn entropy_before - entropy_after# 示例数据
X = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y = np.array([0, 0, 0, 0, 1, 1, 1, 1, 1, 1])# 寻找最佳划分点
best_split = None
best_gain = 0
for split in X:gain = information_gain(X, y, split)if gain > best_gain:best_gain = gainbest_split = splitprint("最佳划分点:", best_split)
其他离散化方法
  • 基于聚类的离散化使用聚类算法(如 K - Means)将属性值聚类,每个簇作为一个离散类别

k-means算法

K-means聚类是一种广泛应用的无监督学习算法,用于将数据集划分为k个不同的簇(类别),使得同一簇内的数据点相似度较高,不同簇之间的数据点相似度较低。以下将从原理、算法步骤、优缺点、代码示例等方面详细介绍K-means聚类。

原理

K-means算法的核心思想是通过迭代的方式寻找k个簇的质心(中心点),并将每个数据点分配到距离最近的质心所在的簇中,然后不断更新质心的位置,直到质心不再发生明显变化或达到最大迭代次数。

算法步骤

  1. 初始化:随机选择k个数据点作为初始质心。
  2. 分配数据点:对于数据集中的每个数据点,计算它与每个质心的距离(通常使用欧氏距离),并将其分配到距离最近的质心所在的簇中。
  3. 更新质心:对于每个簇,计算该簇内所有数据点的均值,将这个均值作为新的质心。
  4. 重复步骤2和3:不断重复分配数据点和更新质心的过程,直到质心不再发生明显变化或达到最大迭代次数。

优缺点

优点
  • 简单易实现:算法原理简单,易于理解和实现。
  • 计算效率高:时间复杂度相对较低,对于大规模数据集具有较好的处理能力。
  • 可扩展性强:可以应用于各种领域,如图像分割、客户细分等。
缺点
  • 需要预先指定kk值的选择对聚类结果影响较大,但在实际应用中很难确定最优的k值。
  • 对初始质心敏感不同的初始质心选择可能会导致不同的聚类结果,甚至可能陷入局部最优解
  • 对噪声和离群点敏感噪声和离群点可能会影响质心的计算,从而影响聚类结果

代码示例(使用Python和scikit-learn库)

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs# 生成示例数据集
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 创建K-means模型并进行聚类
kmeans = KMeans(n_clusters=4, init='k-means++', max_iter=300, n_init=10, random_state=0)
pred_y = kmeans.fit_predict(X)# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=pred_y, s=50, cmap='viridis')
# 绘制质心
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)
plt.title('K-means Clustering')
plt.show()

代码解释

1

. 数据生成:使用make_blobs函数生成一个包含300个样本、4个簇的二维数据集。
2. 创建K-means模型:使用KMeans类创建一个K-means模型,指定簇的数量为4,使用k-means++方法初始化质心,最大迭代次数为300,重复初始化质心的次数为10。
3. 进行聚类:使用fit_predict方法对数据进行聚类,并返回每个数据点所属的簇的标签。
4. 绘制聚类结果:使用plt.scatter函数绘制数据点,根据所属簇的标签进行着色,同时绘制质心。

确定最优k值的方法

  • 手肘法(Elbow Method):计算不同k值下的簇内误差平方和(SSE),随着k值的增加,SSE会逐渐减小。当k值达到某个点后,SSE的下降速度会明显变缓,这个点对应的k值就是最优的k值。
sse = []
for k in range(1, 11):kmeans = KMeans(n_clusters=k, init='k-means++', max_iter=300, n_init=10, random_state=0)kmeans.fit(X)sse.append(kmeans.inertia_)plt.plot(range(1, 11), sse)
plt.title('Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('SSE')
plt.show()
  • 轮廓系数法(Silhouette Coefficient):计算每个样本的轮廓系数,轮廓系数越接近1表示样本聚类效果越好。选择轮廓系数最大的k值作为最优的k值。
from sklearn.metrics import silhouette_scoresilhouette_scores = []
for k in range(2, 11):kmeans = KMeans(n_clusters=k, init='k-means++', max_iter=300, n_init=10, random_state=0)labels = kmeans.fit_predict(X)score = silhouette_score(X, labels)silhouette_scores.append(score)best_k = np.argmax(silhouette_scores) + 2
print("最优的k值:", best_k)
  • 基于决策树的离散化:使用决策树对属性进行划分,每个叶子节点对应一个离散类别。
基于熵的离散化与基于误差的离散化
  • 基于熵的离散化侧重于信息的纯度,通过最大化信息增益来确定划分点。
  • 基于误差的离散化则关注划分后的预测误差,例如最小化均方误差来确定划分点。

7. 离散化属性转化成数值属性

可以使用编码的方式将离散属性转换为数值属性,常见的编码方法有:

  • 独热编码(One - Hot Encoding):为每个离散值创建一个二进制向量,只有对应的值为 1,其余为 0。
from sklearn.preprocessing import OneHotEncoder
import numpy as npX = np.array([['red'], ['green'], ['blue']])
encoder = OneHotEncoder()
X_encoded = encoder.fit_transform(X).toarray()
print(X_encoded)
  • 标签编码(Label Encoding):为每个离散值分配一个唯一的整数。

8. 投影

投影是将高维数据映射到低维空间的过程,目的是减少数据维度,同时保留数据的主要特征。常见的投影方法有主成分分析、随机投影和偏最小二乘回归等。在这里插入图片描述

主成分分析(PCA)

通过线性变换将原始数据转换为一组各维度线性无关的主成分,选取方差最大的前 k 个主成分作为新的特征。

from sklearn.decomposition import PCA
import numpy as npX = np.array([[1, 2], [3, 4], [5, 6]])
pca = PCA(n_components=1)
X_pca = pca.fit_transform(X)
print(X_pca)
随机投影

随机生成一个投影矩阵,将高维数据投影到低维空间。该方法计算速度快,适用于大规模数据

偏最小二乘回归(PLS)

同时考虑自变量和因变量的信息,寻找一组能够最大程度解释自变量和因变量变异的成分进行投影。

9. 从文本到属性向量

将文本数据转换为数值向量,以便机器学习模型处理。常见方法有词袋模型、TF - IDF 模型和词嵌入(如 Word2Vec、GloVe)。

from sklearn.feature_extraction.text import TfidfVectorizercorpus = ['This is the first document.', 'This document is the second document.']
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())

10. 时间序列

时间序列是按时间顺序排列的观测值序列。处理时间序列数据通常涉及到平滑、预测等任务。常见的时间序列模型有 ARIMA、LSTM 等。

11. 抽样

从原始数据集中选取一部分样本作为训练集,常见的抽样方法有随机抽样、分层抽样和欠抽样、过抽样等。欠抽样用于处理类别不平衡问题,减少多数类样本;过抽样则增加少数类样本。

12. 数据清洗

处理数据中的缺失值、异常值和重复值等问题。例如,使用均值、中位数或众数填充缺失值,通过统计方法(如 Z - score)检测和处理异常值。

import pandas as pd
import numpy as npdata = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]})
data_filled = data.fillna(data.mean())
print(data_filled)

13. 改进决策树

可以通过剪枝(预剪枝和后剪枝)、特征选择、集成学习(如随机森林)等方法改进决策树的性能,避免过拟合。

14. 稳健回归

对异常值具有较强鲁棒性的回归方法,如 RANSAC(随机抽样一致性)、Huber 回归等。

15. 检测异常

通过统计方法(如 Z - score、箱线图)、基于模型的方法(如孤立森林、One - Class SVM)等检测数据中的异常值。

from sklearn.ensemble import IsolationForest
import numpy as npX = np.array([[1], [2], [3], [4], [5], [100]])
clf = IsolationForest(contamination=0.1)
clf.fit(X)
predictions = clf.predict(X)
print(predictions)

16. 一分类学习

用于识别属于某一类别的样本,而不需要明确的负类样本。常见的一分类算法有 One - Class SVM、单类高斯模型等

17. 多分类转化成二分类

将多分类问题转化为多个二分类问题进行求解,常见方法有一对一(One - vs - One)和一对其余(One - vs - Rest)。

18. 嵌套二分法

将多分类问题通过一系列的二分类问题逐步分解,每次将类别集合划分为两个子集,直到每个子集只包含一个类别

相关文章:

【数据挖掘】

数据挖掘 目录&#xff1a;1. 数据转换2. 属性选择3. 独立于方案的选择4. 探索空间5. 具体方案的选择6. 离散化数值属性无监督离散化基于熵的离散化其他离散化方法 k-means算法原理算法步骤优缺点优点缺点 代码示例&#xff08;使用Python和scikit-learn库&#xff09;代码解释…...

芝加哥学派(Chicago School):金融与经济学的创新力量(中英双语)

芝加哥学派&#xff1a;金融与经济学的创新力量 在经济学和金融学的历史上&#xff0c;有一个学派的影响力不容忽视&#xff0c;那就是芝加哥学派&#xff08;Chicago School&#xff09;。芝加哥学派不仅在学术界广受推崇&#xff0c;也深刻影响了全球的经济政策和金融市场。…...

web入侵实战分析-常见web攻击类应急处置实验1

场景说明&#xff1a; 某天运维人员发现在/opt/tomcat8/webapps/test/目录下&#xff0c;多出了一个index_bak.jsp这个文件&#xff0c; 并告诉你如下信息 操作系统&#xff1a;ubuntu-16.04业务&#xff1a;测试站点中间件&#xff1a;tomcat开放端口&#xff1a;22&#x…...

.NET SixLabors.ImageSharp v1.0 图像实用程序控制台示例

使用 C# 控制台应用程序示例在 Windows、Linux 和 MacOS 机器上处理图像&#xff0c;包括创建散点图和直方图&#xff0c;以及根据需要旋转图像以便正确显示。 这个小型实用程序库需要将 NuGet SixLabors.ImageSharp包&#xff08;版本 1.0.4&#xff09;添加到.NET Core 3.1/ …...

基于ffmpeg+openGL ES实现的视频编辑工具-字幕添加(六)

在视频编辑领域,字幕的添加是一项极为重要的功能,它能够极大地丰富视频内容,提升观众的观看体验。当我们深入探究如何实现这一功能时,FreeType 开源库成为了强大助力。本文将详细阐述借助 FreeType 库生成字幕数据的过程,以及如何实现字幕的缩放、移动、旋转、颜色修改、对…...

SpringMVC新版本踩坑[已解决]

问题&#xff1a; 在使用最新版本springMVC做项目部署时&#xff0c;浏览器反复500&#xff0c;如下图&#xff1a; 异常描述&#xff1a; 类型异常报告 消息Request processing failed: java.lang.IllegalArgumentException: Name for argument of type [int] not specifie…...

【科研绘图系列】R语言绘制SCI论文图合集

禁止商业或二改转载&#xff0c;仅供自学使用&#xff0c;侵权必究&#xff0c;如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载Load dataFigure 1Fig 1B: functional assays adhensionFIG 1C: Functional assays OPK Figure 2Fig 2C: Settings and function fo…...

间隔连续问题

间隔连续问题 1. 数据结构&#xff1a;某游戏公司记录的用户每日登录数据 表名&#xff1a;game_user 字段名&#xff1a;id&#xff08;用户id&#xff09;、dt&#xff08;日期&#xff09; 2. 需求&#xff1a; ① 创建表 ② 计算每个用户最大的连续登录天数&#xff0c…...

3月营销日历:开启春日盛宴,绽放生活魅力

关键营销节点∶惊蛰、女生节、妇女节、 植树节、315消费者权益日、春分 营销关键词 养生、女生魅力、感恩女性、环保、品质 01.重点关注品类 春季服饰&#xff1a;如轻薄外套、春装等&#xff0c;适合惊蛰后的市场需求&#xff1b; 美妆护肤&#xff1a;妇女节期间&#xf…...

网络工程师 (48)传输层概述

前言 传输层&#xff08;Transport Layer&#xff09;是计算机网络体系结构中的关键层次之一&#xff0c;主要负责在源端和目的端之间提供端到端的数据传输服务。 一、位置与功能 传输层位于OSI&#xff08;开放系统互连&#xff09;参考模型的第四层&#xff0c;介于网络层和应…...

字符串函数和结构题内存对齐

图下为函数使用&#xff1a; #include <ctype.h>int main() {int ret isdigit(Q);printf("%d\n", ret);return 0; }int main() {printf("%c\n", toupper(a));printf("%c\n", tolower(A));return 0; }...

同花顺C++面试题及参考答案

对 C 和 C++ 哪个更熟悉? 在编程语言的学习与实践中,我对 C++ 更为熟悉。C 语言作为一门经典的编程语言,以其高效、灵活和接近硬件的特性,在系统编程、嵌入式开发等领域占据着重要地位。它提供了丰富的底层操作能力,如指针操作、内存管理等,为开发者直接控制计算机资源提…...

Python JSON的深度解析:从基础到应用

Python JSON的深度解析&#xff1a;从基础到应用 flyfish 什么是JSON&#xff1f; JSON&#xff08;JavaScript Object Notation&#xff09;是一种轻量级的数据交换格式。它基于一个子集的JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999…...

创建三个节点

1. 节点克隆 根据教程Hadoop编译安装-CSDN博客将一台机器的hadoop的环境搭建好。 在虚拟机的列表中选中一台机器&#xff0c;右键—>管理—>克隆 填好【虚拟机名称】&#xff0c;选择本地存储位置&#xff0c;点击完成&#xff0c;就节点克隆完成了。 2. 修改IP地址 编…...

滤波器 | 原理 / 分类 / 特征指标 / 设计

注&#xff1a;本文为 “滤波器” 相关文章合辑。 未整理去重。 浅谈滤波器之 —— 啥是滤波器 原创 RF 小木匠 射频学堂 2020 年 03 月 25 日 07:46 滤波器&#xff0c;顾名思义&#xff0c;就是对信号进行选择性过滤&#xff0c;对不需要的信号进行有效滤除。按照其传输信…...

Flutter - 初体验

项目文件目录结构介绍 注&#xff1a;创建 Flutter 项目名称不要包含特殊字符&#xff0c;不要使用驼峰标识 // TODO 开发中运行一个 Flutter 三种启动方式 Run 冷启动从零开始启动Hot Reload 热重载执行 build 方法Hot Restart 热重启重新运行整个 APP 先看效果&#xff0c…...

OSPF(开放路径最短优先)

ospf优先级&#xff1a;内部优先级默认为10&#xff0c;外部优先级默认为150 1.ospf的三张表 &#xff08;1&#xff09;邻居表 <记录邻居状态和关系> &#xff08;2&#xff09;拓扑表 <链路状态数据库> &#xff08;3&#xff09;路由表 <对链路状态数据库进…...

SpringBoot 排除一些包的注入

文章目录 需求一、使用 ComponentScan 需求 在系统迭代的过程中&#xff0c;有一些 Controller 大批量的不再使用&#xff0c;或者有一些接口我们不想再提供给外界 一、使用 ComponentScan SpringBootApplication(scanBasePackages "com.zrb.excludeSomePkg") Comp…...

【Python爬虫(21)】从0到1:Python与MySQL的深度融合

【Python爬虫】专栏简介&#xff1a;本专栏是 Python 爬虫领域的集大成之作&#xff0c;共 100 章节。从 Python 基础语法、爬虫入门知识讲起&#xff0c;深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑&#xff0c;覆盖网页、图片、音频等各类数据爬取&#xff…...

数据结构-----双向链表

一、双向循环列表 head.h #ifndef __head_h__ #define __head_h__ #include <stdio.h> #include <string.h>…...

idea 无法下载源码

作为一个程序猿&#xff0c;难免会跟源码打交道&#xff0c;可是在下载源码有时候&#xff0c;会提示找不到对象&#xff0c;这是什么原因呢&#xff1f;今天我们来解决这个问题。 问题&#xff1a;idea无法下载源码 Cannot download sources Sources not found for:org.sprin…...

计算机网络-OSI七层参考模型与数据封装,网络安全零基础入门到精通实战教程!

目录 一、网络 1、网络的定义 2、网络的分类 3、网络的作用 4、网络的数据传输方式 5、网络的数据通讯方式 二、OSI七层参考模型 1、网络参考模型定义 2、分层的意义 3、分层与功能 4、TCP\IP五层模型 三、参考模型的协议 1、物理层 2、数据链路层 3、网络层 4…...

洛谷 P2234 [HNOI2002] 营业额统计(详解)c++

题目链接&#xff1a;P2234 [HNOI2002] 营业额统计 - 洛谷 1.题目分析 输入输出样例&#xff1a;根据题目知第一天的最小波动值为第一天的营业额&#xff0c;所以第一天的最小波动值是5&#xff0c;算出第二天的最小波动值就说拿前面的数分别减当前的数&#xff0c;并且取一个…...

Go日期时间处理工具Carbon

**注意&#xff1a;**本文大部分内容摘抄自-https://github.com/dromara/carbon/blob/master/README.cn.md使用文档 一、简介 一个轻量级的、易于使用的、语义智能的日期时间处理库&#xff0c;支持链式调用&#xff0c;已被 awesome-go 收录&#xff0c;现已经捐赠给了 drom…...

【Bert】自然语言(Language Model)入门之---Bert

every blog every motto: Although the world is full of suffering&#xff0c; it is full also of the overcoming of it 0. 前言 对bert进行梳理 论文&#xff1a; BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 时间&#xff1a;…...

鸿蒙NEXT开发-网络管理

注意&#xff1a;博主有个鸿蒙专栏&#xff0c;里面从上到下有关于鸿蒙next的教学文档&#xff0c;大家感兴趣可以学习下 如果大家觉得博主文章写的好的话&#xff0c;可以点下关注&#xff0c;博主会一直更新鸿蒙next相关知识 目录 1. 网络管理-应用权限 1.1 概述 1.2 配…...

ceph HEALTH_WARN clock skew detected on mon.f, mon.o, mon.p, mon.q

问题 ceph health detail[WRN] MON_CLOCK_SKEW: clock skew detected on mon.f, mon.o, mon.p, mon.qmon.f clock skew 0.243128s > max 0.05s (latency 0.000836159s)mon.o clock skew 16.249s > max 0.05s (latency 0<...

Web开发技术概述

Web开发技术涵盖了前端和后端开发&#xff0c;以及数据库技术。前端开发包括使用HTML、CSS、JavaScript等原生技术&#xff0c;以及jQuery、Bootstrap、AngularJS、React、Vue等框架。后端开发则涉及ASP.NET、PHP、Python Web&#xff08;Flask、Django&#xff09;、Java Web&…...

级联选择器多选动态加载

一.级联展示 注&#xff1a;因为级联选择器这里是动态加载&#xff0c;因此如果上来选中一级就需要加载出后面三级的全部数据&#xff0c;依然会很卡&#xff0c;因此&#xff0c;和产品协商把一二级多选框去掉了&#xff0c;这样也避免了你选择一级不能实现子级被全部选中的问…...

三、数据治理应用开发整体架构

1.数据治理应用开发整体架构概览 该架构图描绘了一个全面的数据治理应用开发平台&#xff0c;旨在为用户提供从数据调研、治理构建、资产管理到应用开发、运维监控等全生命周期的一体化服务。整体架构呈现出模块化、松耦合的特点&#xff0c;并强调低代码开发和业务中台能力。 …...

【附带脚本】解决notion加载慢问题

问题原因 notion网站的服务器在国外&#xff0c;因为网络问题&#xff08;国际出口带宽限制&#xff09;导致访问速度较慢和域名解析延迟等问题。 解决方案 通过在 hosts 文件中直接指定一个更快的 IP 地址&#xff08;例如国内镜像服务器&#xff09;&#xff0c;可以显著提…...

解锁机器学习核心算法 | 决策树:机器学习中高效分类的利器

引言 前面几篇文章我们学习了机器学习的核心算法线性回归和逻辑回归。这篇文章我们继续学习机器学习的经典算法——决策树&#xff08;Decision Tree&#xff09; 一、决策树算法简介 决策树算法是一种典型的分类方法&#xff0c;也是一种逼近离散函数值的方法。它的核心思想…...

网络原理-HTTP/HTTPS

文章目录 HTTPHTTP 是什么&#xff1f;理解“应用层协议”理解 HTTP 协议的⼯作过程HTTP 协议格式抓包⼯具的使用抓包⼯具的原理抓包结果协议格式总结 HTTP 请求&#xff08;Request&#xff09;认识 URLURL 的基本格式关于URL encode 认识“⽅法”&#xff08;method&#xff…...

仿 Sora 之形,借物理模拟之技绘视频之彩

来自麻省理工学院、斯坦福大学、哥伦比亚大学以及康奈尔大学的研究人员携手开源了一款创新的3D交互视频模型——PhysDreamer&#xff08;以下简称“PD”&#xff09;。PD与OpenAI旗下的Sora相似&#xff0c;能够借助物理模拟技术来生成视频&#xff0c;这意味着PD所生成的视频蕴…...

C#多线程异步连接MySQL与SQLserver数据库

C#多线程异步连接MySQL与SQLserver数据库 一、前言二、多线程异步连接数据库代码2.1代码块2.2代码说明 参考文档 一、前言 当编写代码连接多台设备上的数据库时&#xff0c;如果采用同步逐个连接的方式&#xff0c;在网络畅通的情况下连接速度尚可&#xff0c;但当其中一台设备…...

DeepSeek告别服务器繁忙

原文地址&#xff1a;http://shen.iwiki.fun/2025/02/09/free-deepseek/ 博客地址&#xff1a;http://shen.iwiki.fun 一、申请API 1、硅基流动 免费额度&#xff1a;14元 注&#xff1a;平台 2000 万 Tokens 特指 Qwen2.5-14B-Instruct 模型单价下的数量&#xff0c;实际到账…...

Tomcat下载,安装,配置终极版(2024)

Tomcat下载&#xff0c;安装&#xff0c;配置终极版&#xff08;2024&#xff09; 1. Tomcat下载和安装 进入Apache Tomcat官网&#xff0c;我们可以看到这样一个界面。 现在官网目前最新版是Tomcat11&#xff0c;我用的是Java17&#xff0c;在这里我们选择Tomcat10即可。Tom…...

Docker 部署AnythingLLM

两个指令搞定 1.下载镜像 docker pull mintplexlabs/anythingllm 2.运行容器 export STORAGE_LOCATION$HOME/anythingllm mkdir -p $STORAGE_LOCATION chmod -R 777 $STORAGE_LOCATION touch "$STORAGE_LOCATION/.env" docker run -d -p 3001:3001 \ --cap-add SY…...

uniapp 支付宝小程序自定义顶部导航栏

我是用的是uniapp 的 uni-nav-bar 组件 根据项目需求配置即可 <uni-nav-bar v-if"title" :left-icon"leftIcon" :title"title" :statusBar"true" :fixed"true" clickLeft"goBack":border"false" :ba…...

Python 库自制 Cross-correlation 算法(当采样点已经1 对 1 匹配)

Python 库自制 Cross-correlation 算法 引言正文引言 虽然 Scipy 库中包含了成熟的 Cross-correlation 算法,但是有些时候我们无法使用现成的库进行数据处理。这里介绍如何使用 Python 基础函数自制 Cross-correlation 算法。后续读者可以将该算法转换为其他各类语言。 正文…...

SpringBoot+uniApp日历备忘录小程序系统 附带详细运行指导视频

文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.日历渲染代码&#xff1a;2.保存备忘录代码&#xff1a;3.删除备忘录代码&#xff1a; 一、项目演示 项目演示地址&#xff1a; 视频地址 二、项目介绍 项目描述&#xff1a;这是一个基于SpringBootuniApp框架开…...

【赵渝强老师】Spark RDD的缓存机制

Spark RDD通过persist方法或cache方法可以将计算结果的缓存&#xff0c;但是并不是这两个方法被调用时立即缓存&#xff0c;而是触发后面的action时&#xff0c;该RDD才会被缓存在计算节点的内存中并供后面重用。下面是persist方法或cache方法的函数定义&#xff1a; def pers…...

基于 Spring Boot 的社区居民健康管理系统部署说明书

目录 1 系统概述 2 准备资料 3 系统安装与部署 3.1 数据库部署 3.1.1 MySQL 的部署 3.1.2 Navicat 的部署 3.2 服务器部署 3.3 客户端部署 4 系统配置与优化 5 其他 基于 Spring Boot 的社区居民健康管理系统部署说明书 1 系统概述 本系统主要运用了 Spri…...

《C语言动态顺序表:从内存管理到功能实现》

1.顺序表 1.1 概念 顺序存储的线性表&#xff0c;叫顺序表。 1.2顺序表存放的实现方式 可以使用数组存储数据&#xff0c;可以实现逻辑上相连&#xff0c;物理内存上也相连。也可以使用malloc在堆区申请一片连续的空间&#xff0c;存放数据&#xff0c;实现逻辑上相连&#…...

C++ 程序 return value 1 是什么原因

又是一次deepseek生成C 程序 return value 1 是什么原因 好的&#xff0c;用户问C程序返回值为1是什么原因。首先&#xff0c;我需要回想一下常见的导致程序返回非零值的情况。通常&#xff0c;返回1可能表示程序因为某种错误而终止。但具体原因可能有很多种&#xff0c;需要分…...

《DeepSeek 一站式工作生活 AI 助手》

最近国产AI工具DeepSeek在全球火出圈&#xff0c;登顶多个国家应用商店&#xff0c;下载量一路飙升。这匹AI “黑马” 到底凭什么征服全球用户&#xff1f;让我们全方位解锁DeepSeek——从基础入门到高阶玩法&#xff0c;从实用技巧到隐藏功能。 DeepSeek是一款功能强大的国产A…...

深入探索 DeepSeek 在数据分析与可视化中的应用

在数据驱动的时代&#xff0c;快速且准确地分析和呈现数据对于企业和个人都至关重要。DeepSeek 作为一款先进的人工智能工具&#xff0c;凭借其强大的数据处理和可视化能力&#xff0c;正在革新数据分析的方式。 1. 数据预处理与清洗 在进行数据分析前&#xff0c;数据预处理…...

【Python 学习 / 7】模块与文件操作

文章目录 前言一、导入模块1. 导入整个模块2. 导入模块中的特定函数3. 给模块或函数起别名 二、常用模块1. math 模块2. random 模块3. os 模块4. sys 模块 三、文件处理1. 打开文件2. 读取文件3. 写入文件4. 关闭文件5. 使用 with 语句管理文件 四、日期时间1. datetime 模块获…...

【DeepSeek】Mac m1电脑部署DeepSeek

一、电脑配置 个人电脑配置 二、安装ollama 简介&#xff1a;Ollama 是一个强大的开源框架&#xff0c;是一个为本地运行大型语言模型而设计的工具&#xff0c;它帮助用户快速在本地运行大模型&#xff0c;通过简单的安装指令&#xff0c;可以让用户执行一条命令就在本地运…...

计算机网络抄手 运输层

一、运输层协议概述 1. 进程之间的通信 从通信和信息处理的角度看&#xff0c;运输层向它上面的应用层提供通信服务&#xff0c;它属于面向通信部分的最高层&#xff0c;同时也是用户功能中的最低层。当网络边缘部分的两台主机使用网络核心部分的功能进行端到端的通信时&…...