集成学习(一):从理论到实战(附代码)
一、引言
在机器学习领域,打造一个独立、强大的算法是解决问题的关键。然而,集成学习提供了一种不同的视角:通过组合多个“弱”学习器来创建一个更强大的模型。本文探讨集成学习的思想、方法及其应用。
二、机器学习 vs 集成学习思想
传统机器学习思想
- 打造一个独立、强大的算法:传统的机器学习倾向于开发一种能够解决特定问题的高效算法。
- 单个算法打天下:强调单一算法的能力,试图找到适用于广泛问题的最佳解决方案。
- 个人英雄主义:注重单个算法的性能和能力。
集成学习思想
- 群狼打败猛虎的策略:集成学习采用集体智慧战胜单个强者的策略。
- 管理理念:招募一批二流货色,组合成一个强大的团队,以干掉一流货色。
- 三个臭皮匠顶个诸葛亮:通过结合多个简单的模型(弱评估器),可以构建出比任何单独模型都更强的预测模型。
三、集成学习要素
- 一批弱分类器:这些分类器或回归器各自的表现并不突出,但当它们组合在一起时,能显著提高整体性能。
- 组合策略:如何有效地将这些弱学习器的结果结合起来形成最终预测。
四、集成学习策略
4.1 Voting
思想:数据相同,算法不同,对不同算法的结果,采用多数原则
VotingClassifier
和 VotingRegressor
是集成学习中用于分类和回归任务的两种元估计器(meta-estimators)。它们的基本思想是结合多个不同的模型(通常称为“弱学习器”或基础估计器)的预测结果,以期通过集体决策来提高整体模型的性能。这种策略基于的是“群体智慧”的理念,即多个模型的组合可以比单个模型更准确。
4.1.1 VotingClassifier
VotingClassifier
主要用于分类问题,它可以通过两种主要的方式来进行投票:硬投票(hard voting)和软投票(soft voting)。
-
硬投票(Hard Voting):
- 在硬投票中,每个分类器对输入数据进行分类,并将得票最多的类别作为最终的预测结果。
- 例如,如果有三个分类器分别预测
[0, 1, 1]
,那么最终的预测结果将是1
,因为两个分类器都投了1
。
-
软投票(Soft Voting):
- 软投票需要所有基础分类器都能够输出概率估计(即支持度),然后根据这些概率计算加权平均值,选择具有最高平均概率的类别作为预测结果。
- 这种方法考虑了每个类别的置信度,因此在理论上可能比硬投票更精确。
示例代码
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import VotingClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split# 创建示例数据集
# 这是Scikit-learn中的一个函数,用于生成一个合成的分类数据集。
# n_samples=1000:生成的数据集中包含1000个样本。
# n_features=20:每个样本有20个特征。
# random_state=42:设置随机种子以确保每次运行代码时生成的数据集相同。这对于实验的可重复性非常重要。
# X:形状为 (1000, 20) 的二维数组,表示1000个样本的20个特征。
# y:长度为1000的一维数组,表示每个样本对应的标签(类别)。
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
# 数据集分割
# test_size=0.3:指定测试集占总数据集的比例为30%。因此,70%的数据将被分配给训练集。
# random_state=42:再次设置随机种子,确保每次运行代码时数据集的划分方式相同。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义基础分类器
# LogisticRegression逻辑回归分类器
# multi_class='multinomial':指定使用多项式逻辑回归来处理多分类问题。
# random_state=1:设置随机种子,使得结果具有可重复性。
clf1 = LogisticRegression(multi_class='multinomial', random_state=1)
# RandomForestClassifier:随机森林算法,通过构建多个决策树并汇总它们的预测结果来进行分类。
# n_estimators=50:指定随机森林中决策树的数量为50。
# random_state=1:设置随机种子,使得结果具有可重复性。
clf2 = RandomForestClassifier(n_estimators=50, random_state=1)
# GaussianNB:高斯朴素贝叶斯分类器
clf3 = GaussianNB()# 创建VotingClassifier实例
voting_clf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)], voting='hard') # 或者使用 'soft'# 训练模型
voting_clf.fit(X_train, y_train)# 预测
predictions = voting_clf.predict(X_test)
举一个软投票的例子,并说明投票的过程,使用软投票策略进行预测,并为每个分类器指定不同的权重。
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 生成合成数据集
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义基础分类器
clf1 = LogisticRegression(multi_class='multinomial', random_state=1)
clf2 = RandomForestClassifier(n_estimators=50, random_state=1)
clf3 = GaussianNB()# 创建VotingClassifier实例,设置voting='soft'表示使用软投票,并指定各分类器的权重
voting_clf_soft_weighted = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)
], voting='soft', weights=[2, 1, 1])# 训练模型
voting_clf_soft_weighted.fit(X_train, y_train)# 使用训练好的模型进行预测
y_pred_soft_weighted = voting_clf_soft_weighted.predict(X_test)# 计算并打印准确率
accuracy_soft_weighted = accuracy_score(y_test, y_pred_soft_weighted)
print(f"Soft Voting Classifier with Weights Accuracy: {accuracy_soft_weighted:.4f}")
带权重的软投票的工作原理
在这个例子中,我们为每个分类器指定了不同的权重:
- 逻辑回归 (
LogisticRegression
):权重为2。 - 随机森林 (
RandomForestClassifier
):权重为1。 - 高斯朴素贝叶斯 (
GaussianNB
):权重为1。
这意味着逻辑回归的预测概率将被赋予两倍于其他两个分类器的重要性。
具体步骤如下:
-
预测概率:对于每个测试样本,每个分类器都会输出一个概率向量。
假设我们有一个测试样本
x
,三个分类器对其类别[0, 1, 2]
的预测概率分别为:- 逻辑回归:
[0.2, 0.5, 0.3]
- 随机森林:
[0.3, 0.4, 0.3]
- 高斯朴素贝叶斯:
[0.1, 0.6, 0.3]
- 逻辑回归:
-
加权平均:根据指定的权重,对每个类别的概率进行加权平均。例如,假设权重为
[2, 1, 1]
,则计算方法如下:- 类别0的加权平均概率:
(2 * 0.2 + 1 * 0.3 + 1 * 0.1) / (2 + 1 + 1) = (0.4 + 0.3 + 0.1) / 4 = 0.2
- 类别1的加权平均概率:
(2 * 0.5 + 1 * 0.4 + 1 * 0.6) / 4 = (1.0 + 0.4 + 0.6) / 4 = 0.5
- 类别2的加权平均概率:
(2 * 0.3 + 1 * 0.3 + 1 * 0.3) / 4 = (0.6 + 0.3 + 0.3) / 4 = 0.3
- 类别0的加权平均概率:
-
选择最高概率的类别:根据加权平均后的概率向量,选择具有最高概率的类别作为最终预测结果。在这个例子中,类别1的概率最高(0.5),因此最终预测结果为类别1。
带权重的软投票通过结合多个分类器的概率预测结果并考虑不同分类器的重要性来提高整体模型的准确性。
4.1.2 VotingRegressor
VotingRegressor
则适用于回归任务。它的工作原理与 VotingClassifier
类似,但不是通过投票来决定类别,而是通过对各个基础回归器的预测结果取平均值(或其他聚合方式)来得到最终的预测值。
- 平均法:最简单直接的方法是对所有基础回归器的预测结果求均值作为最终的预测值。
- 加权平均法:可以为每个回归器分配一个权重,然后根据这些权重计算加权平均值。
示例代码:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.ensemble import VotingRegressor
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split# 创建示例数据集
X, y = make_regression(n_samples=1000, n_features=20, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义基础回归器
reg1 = LinearRegression()
reg2 = RandomForestRegressor(n_estimators=50, random_state=1)
reg3 = SVR()# 创建VotingRegressor实例
voting_reg = VotingRegressor(estimators=[('lr', reg1), ('rf', reg2), ('svr', reg3)])# 训练模型
voting_reg.fit(X_train, y_train)# 预测
predictions = voting_reg.predict(X_test)
4.1.3 总结
- VotingClassifier 和 VotingRegressor 提供了一种简单而有效的方法来集成多个模型,以提高预测性能。
- 对于分类任务,可以选择硬投票或软投票;对于回归任务,默认采用的是平均预测值的方法。
- 使用这些集成方法时,重要的是确保所选的基础模型具有一定的多样性,这样可以最大化集成的效果。如果所有模型都非常相似,那么集成可能不会带来显著的性能提升。
4.2 Bagging
- Bootstrap Sampling:从原始数据集中随机抽取样本(有放回抽样),创建多个不同的子集。
- 独立训练模型:在每个子集上使用相同的算法训练一个模型。
- 聚合结果:
- 对于分类问题,通常采用多数投票的方式决定最终类别(适用于
BaggingClassifier
)。 - 对于回归问题,通常采用平均值的方式来决定最终预测值(适用于
BaggingRegressor
)。
- 对于分类问题,通常采用多数投票的方式决定最终类别(适用于
BaggingClassifier
和 BaggingRegressor
是集成学习方法中的一种,它们基于Bootstrap aggregating(简称Bagging)技术。
4.2.1 BaggingClassifier
BaggingClassifier
用于分类任务。它通过构建多个基础分类器,并对这些分类器的预测结果进行投票来确定最终的预测结果。
示例代码
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 生成合成数据集
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义基础分类器
base_classifier = DecisionTreeClassifier()# 创建BaggingClassifier实例
bagging_clf = BaggingClassifier(base_estimator=base_classifier, n_estimators=100, max_samples=0.5, max_features=0.5,random_state=42)# 训练模型
bagging_clf.fit(X_train, y_train)# 使用训练好的模型进行预测
y_pred = bagging_clf.predict(X_test)# 计算并打印准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Bagging Classifier Accuracy: {accuracy:.4f}")
base_estimator
:指定作为基础模型的分类器,默认为决策树。n_estimators
:指定要训练的基础模型的数量。max_samples
:每个基础模型使用的样本数比例(可以小于1表示使用部分样本)。max_features
:每个基础模型使用的特征数比例(可以小于1表示使用部分特征)。
4.2.2 BaggingRegressor
BaggingRegressor
用于回归任务。它通过构建多个基础回归器,并对这些回归器的预测结果取平均值来确定最终的预测结果。
示例代码
from sklearn.ensemble import BaggingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error# 生成合成数据集
X, y = make_regression(n_samples=1000, n_features=20, noise=0.1, random_state=42)# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义基础回归器
base_regressor = DecisionTreeRegressor()# 创建BaggingRegressor实例
bagging_reg = BaggingRegressor(base_estimator=base_regressor, n_estimators=100, max_samples=0.5, max_features=0.5,random_state=42)# 训练模型
bagging_reg.fit(X_train, y_train)# 使用训练好的模型进行预测
y_pred = bagging_reg.predict(X_test)# 计算并打印均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Bagging Regressor MSE: {mse:.4f}")
- 参数解释与
BaggingClassifier
类似,只是基础模型换成了回归器,评估指标也相应地变为了回归任务常用的均方误差(MSE)。
4.2.3 总结
- BaggingClassifier 和 BaggingRegressor 通过在不同的数据子集上训练多个相同类型的模型,并结合它们的预测结果来提高模型的性能。
- 在分类问题中,Bagging通过多数投票来决定最终类别;在回归问题中,则通过计算预测值的平均值来得到最终结果。
4.3 Stacking
- 基础模型:在第一阶段,使用不同的算法训练多个基础模型。这些模型可以是任何类型的分类器或回归器。
- 元模型:在第二阶段,使用一个新的模型(元模型)来学习如何最好地结合基础模型的预测结果。元模型接收的是基础模型对训练数据的预测作为输入特征,并试图学习一个最佳的组合策略。
- 交叉验证:为了避免过拟合,通常使用交叉验证的方法来生成用于训练元模型的数据集。也就是说,基础模型的预测不是直接基于整个训练集,而是基于每个基础模型在其未见过的数据上的预测结果。
StackingClassifier
和 StackingRegressor
是集成学习方法中的另一种技术,称为堆叠(Stacking)。堆叠的核心思想是通过训练多个基础模型(也称作第一层模型或弱学习器),然后使用另一个模型(称为元模型或第二层模型)来结合这些基础模型的预测结果,从而生成最终的预测。这种方法允许模型之间进行更复杂的交互,并且能够利用不同模型的优点。
4.3.1 StackingClassifier
StackingClassifier
适用于分类任务,它通过将多个基础分类器的结果传递给一个元分类器来进行最终的分类决策。
示例代码
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import StackingClassifier
from sklearn.metrics import accuracy_score# 生成合成数据集
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义基础分类器
base_classifiers = [('rf', RandomForestClassifier(n_estimators=100, random_state=42)),('gb', GradientBoostingClassifier(n_estimators=100, random_state=42))
]# 定义元分类器
meta_classifier = LogisticRegression()# 创建StackingClassifier实例
stacking_clf = StackingClassifier(estimators=base_classifiers, final_estimator=meta_classifier, cv=5)# 训练模型
stacking_clf.fit(X_train, y_train)# 使用训练好的模型进行预测
y_pred = stacking_clf.predict(X_test)# 计算并打印准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Stacking Classifier Accuracy: {accuracy:.4f}")
estimators
:指定一组基础分类器。final_estimator
:指定元分类器,用于学习如何结合基础分类器的输出。cv
:指定交叉验证的折数,默认为5折交叉验证。这确保了元模型不会直接看到基础模型的训练数据,从而减少过拟合的风险。
4.3.2 StackingRegressor
StackingRegressor
类似于 StackingClassifier
,但适用于回归任务。它通过将多个基础回归器的结果传递给一个元回归器来进行最终的预测。
示例代码
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import StackingRegressor
from sklearn.metrics import mean_squared_error# 生成合成数据集
X, y = make_regression(n_samples=1000, n_features=20, noise=0.1, random_state=42)# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义基础回归器
base_regressors = [('rf', RandomForestRegressor(n_estimators=100, random_state=42)),('gb', GradientBoostingRegressor(n_estimators=100, random_state=42))
]# 定义元回归器
meta_regressor = LinearRegression()# 创建StackingRegressor实例
stacking_reg = StackingRegressor(estimators=base_regressors, final_estimator=meta_regressor, cv=5)# 训练模型
stacking_reg.fit(X_train, y_train)# 使用训练好的模型进行预测
y_pred = stacking_reg.predict(X_test)# 计算并打印均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Stacking Regressor MSE: {mse:.4f}")
- 参数设置与
StackingClassifier
类似,只是这里的基础模型和元模型都是针对回归任务设计的。
如何理解将多个基础分类器的结果传递给一个元分类器来进行最终的分类决策?
关键点解析:
-
基础模型(Base Models):可以是任何类型的机器学习模型,例如决策树、支持向量机、神经网络等。在分类任务中,它们被称为基础分类器;在回归任务中,它们被称为基础回归器。
-
元模型(Meta Model):这是一个单独的模型,它接收基础模型对训练数据的预测结果作为输入,并基于这些预测进行最终的预测。对于分类问题,元模型输出的是类别标签;对于回归问题,元模型输出的是连续值。
详细解释
-
基础分类器的预测:首先,你有一组不同的基础分类器(比如逻辑回归、随机森林和K近邻)。每个分类器都会对相同的训练集或验证集做出预测。这些预测结果通常是一个概率分布(对于每个样本属于各个类别的概率)或者直接是类别标签。
-
生成新的特征集:接下来,利用这些基础分类器对训练集的预测结果来创建一个新的特征集。具体来说,如果有一个包含N个样本的数据集,且有M个基础分类器,则每个样本现在会对应M个预测值(如果是概率形式,则可能是M*K个值,其中K是类别的数量)。这实际上为原始数据集添加了一层新的特征表示。
-
元分类器的训练:然后,使用上述步骤生成的新特征集作为输入来训练元分类器。也就是说,元分类器不是直接基于原始特征进行训练,而是基于基础分类器的预测结果进行训练。这样做的目的是让元分类器学会如何最好地整合来自不同基础分类器的信息,从而做出更准确的最终预测。
-
最终的分类决策:一旦元分类器训练完成,在测试阶段,首先用所有基础分类器对测试集进行预测,然后将这些预测结果作为输入传递给元分类器,由元分类器根据这些信息做出最终的分类决定。
示例流程
假设我们有三个基础分类器:clf1
, clf2
, 和 clf3
,以及一个元分类器 meta_clf
。
- 对于训练集中的每个样本,分别得到
clf1
,clf2
, 和clf3
的预测结果。 - 使用这些预测结果作为新特征来训练
meta_clf
。 - 在测试阶段,同样获取这三个分类器对测试集的预测结果。
- 将这三个分类器的预测结果输入到
meta_clf
中,meta_clf
根据这些输入给出最终的分类结果。
这种机制使得堆叠能够有效地利用多个模型的优势,克服单个模型可能存在的局限性,进而提升整个系统的预测能力。
4.3.3 总结
- StackingClassifier 和 StackingRegressor 通过构建多个基础模型并将它们的预测结果传递给一个元模型来实现最终的预测。
- 这种方法允许模型之间进行更复杂的交互,并能够利用不同模型的优点,提高整体模型的性能。
- 使用交叉验证来生成元模型的训练数据,有助于防止过拟合,使得模型更加稳定和可靠。
- 在实践中,调整超参数和考虑模型之间的多样性也是优化堆叠模型性能的重要方面。
4.4 Boosting
- 错题本思想:通过调整错误分类实例的权重,使得后续分类器更加关注这些困难案例。
AdaBoost 和 Gradient Boosting 是两种基于提升(Boosting)策略的集成学习方法,它们通过构建一系列弱学习器并将这些弱学习器组合成一个强学习器来提高预测性能。
4.4.1 AdaBoost
AdaBoost(Adaptive Boosting)是一种迭代算法,它通过对先前分类错误的数据点赋予更高的权重来逐步改进模型。
4.4.1.1 AdaBoostClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split# 创建合成数据集
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义AdaBoost分类器
adaboost_clf = AdaBoostClassifier(n_estimators=50, random_state=42)# 训练模型
adaboost_clf.fit(X_train, y_train)# 预测
predictions = adaboost_clf.predict(X_test)
4.4.1.2 AdaBoostRegressor
-
工作原理:类似于
AdaBoostClassifier
,但用于回归任务。它通过最小化损失函数来更新样本权重,并结合多个弱回归器的结果以生成最终预测值。- 不同之处:主要在于如何计算每个弱学习器的贡献以及如何更新样本权重,具体细节依赖于所使用的损失函数(如线性、平方等)。
from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import make_regression# 创建合成数据集
X, y = make_regression(n_samples=1000, n_features=20, noise=0.1, random_state=42)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义AdaBoost回归器
adaboost_reg = AdaBoostRegressor(n_estimators=50, random_state=42)# 训练模型
adaboost_reg.fit(X_train, y_train)# 预测
predictions = adaboost_reg.predict(X_test)
4.4.2 Gradient Boosting
Gradient Boosting 是一种前向分步算法,它通过添加新的模型来纠正现有模型的误差,从而逐步降低损失函数的值。
4.4.2.1 GradientBoostingClassifier
- 工作原理:从一个简单的初始模型(通常是常数预测)开始,然后依次添加新的弱学习器(通常是决策树),每个新添加的模型都试图减少整体模型的损失函数。具体来说,每个新的弱学习器都是基于前一轮模型的残差(即预测值与真实值之间的差异)进行训练的。
from sklearn.ensemble import GradientBoostingClassifier# 定义Gradient Boosting分类器
gb_clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)# 训练模型
gb_clf.fit(X_train, y_train)# 预测
predictions = gb_clf.predict(X_test)
4.4.2.2 GradientBoostingRegressor
-
工作原理:与
GradientBoostingClassifier
类似,但用于回归任务。它的目标是最小化回归任务中的损失函数(如均方误差)。- 过程:从初始估计开始,随后每一步都添加一个新的弱学习器,该学习器专注于拟合上一步中模型预测值与实际值之间的残差,以此来逐步改善模型的整体性能。
from sklearn.ensemble import GradientBoostingRegressor# 定义Gradient Boosting回归器
gb_reg = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)# 训练模型
gb_reg.fit(X_train, y_train)# 预测
predictions = gb_reg.predict(X_test)
4.4.3 总结
- AdaBoost:通过增加难以分类样本的权重来迭代地改进模型,适用于分类和回归任务。
- Gradient Boosting:通过梯度下降的方式逐步优化模型,专注于减少残差,同样适用于分类和回归任务。
- 这两种方法都属于提升技术,旨在通过组合弱学习器来构建强大的模型。选择哪种方法取决于具体应用场景及数据特性。
篇幅有点长了,接下一篇《集成学习(二):从理论到实战(附代码)》
相关文章:
集成学习(一):从理论到实战(附代码)
一、引言 在机器学习领域,打造一个独立、强大的算法是解决问题的关键。然而,集成学习提供了一种不同的视角:通过组合多个“弱”学习器来创建一个更强大的模型。本文探讨集成学习的思想、方法及其应用。 二、机器学习 vs 集成学习思想 传统…...
本地部署DeepSeek-R1模型(新手保姆教程)
背景 最近deepseek太火了,无数的媒体都在报道,很多人争相着想本地部署试验一下。本文就简单教学一下,怎么本地部署。 首先大家要知道,使用deepseek有三种方式: 1.网页端或者是手机app直接使用 2.使用代码调用API …...
轻松理解CSS中的float浮动元素
1.float:left,float:right可以让元素脱离原始文档流,也就是所谓的“浮动”,可以理解为元素漂浮在原本所占位置的上空,意思是元素漂浮起来了,不占原始文档流的空间。但是,别的元素可以感知到浮动元素的存在&…...
SOME/IP--协议英文原文讲解5
前言 SOME/IP协议越来越多的用于汽车电子行业中,关于协议详细完全的中文资料却没有,所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块: 1. SOME/IP协议讲解 2. SOME/IP-SD协议讲解 3. python/C举例调试讲解 这一章节…...
如何优化频繁跳槽后的简历?
大家好!我是 [数擎 AI],一位热爱探索新技术的前端开发者,在这里分享前端和 Web3D、AI 技术的干货与实战经验。如果你对技术有热情,欢迎关注我的文章,我们一起成长、进步! 开发领域:前端开发 | A…...
存储异常导致的Oracle重大生产故障
📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验 Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯…...
从家庭IP到全球网络资源的无缝连接:Cliproxy的专业解决方案
数字化时代,家庭IP作为个人或家庭接入互联网的门户,其重要性日益凸显。然而,要实现从家庭IP到全球网络资源的无缝连接,并享受高效、安全、稳定的网络访问体验,往往需要借助专业的代理服务。Cliproxy,作为业…...
java项目之金华学校社团管理系统源码(ssm+mysql)
项目简介 金华学校社团管理系统实现了以下功能: 金华学校社团管理系统的主要使用者管理员对系统用户、公告信息进行管理。对社团信息进行管理,审核报名,统计社团报名结果等。学生维护个人信息,查看本校的社团信息,对…...
链表(LinkedList) 1
上期内容我们讲述了顺序表,知道了顺序表的底层是一段连续的空间进行存储(数组),在插入元素或者删除元素需要将顺序表中的元素整体移动,时间复杂度是O(n),效率比较低。因此,在Java的集合结构中又引入了链表来解决这一问…...
一、OSG学习笔记-编译开发环境
一、准备工作 1、osg3.6.4源码下载; openscenegraph/OpenSceneGraph at OpenSceneGraph-3.6.4 还有osg中所依赖的第三方库 2、cmake 下载安装好 3、Visual Studio 2019下载安装好 二、cmake 编译构建项目 这里下方1,2,两个先点击1&am…...
【Redis】Linux、Windows、Docker 环境下部署 Redis
一、Linux环境部署Redis 1、卸载 # 查看 Redis 是否还在运行 [appuserlocalhost redis]$ ps -ef|grep redis appuser 135694 125912 0 14:24 pts/1 00:00:00 ./bin/redis-server *:6379 appuser 135731 125912 0 14:24 pts/1 00:00:00 grep --colorauto redis# 停止…...
OSPF基础(3):区域划分
OSPF的区域划分 1、区域产生背景 路由器在同一个区域中泛洪LSA。为了确保每台路由器都拥有对网络拓扑的一致认知,LSDB需要在区域内进行同步。OSPF域如果仅有一个区域,随着网络规模越来越大,OSPF路由器的数量越来越多,这将导致诸…...
第436场周赛:按对角线进行矩阵排序、将元素分配给有约束条件的组、统计可以被最后一个数位整除的子字符串数目、最大化游戏分数的最小值
Q1、按对角线进行矩阵排序 1、题目描述 给你一个大小为 n x n 的整数方阵 grid。返回一个经过如下调整的矩阵: 左下角三角形(包括中间对角线)的对角线按 非递增顺序 排序。右上角三角形 的对角线按 非递减顺序 排序。 2、解题思路 遍历所…...
DeepSeek vs. ChatGPT:不同的诞生时间,对人工智能发展的不同影响
DeepSeek vs. ChatGPT:不同的诞生时间,对人工智能发展的不同影响 ChatGPT 和 DeepSeek 诞生于不同的时间节点,代表了人工智能不同阶段的发展方向。它们在技术、应用以及对AI发展趋势的影响方面各有侧重。 1. 诞生时间与背景 ChatGPT&#x…...
chrome-base 如何实现一个BindOnce
考虑一个问题: worker_thread.task_runner()->PostDelayedTask(FROM_HERE, base::BindOnce(&Ref::Foo, ref, 1), base::Milliseconds(1000)); BindOnce 是如何实现的呢? 翻看源码:base\functional\bind.h 写的 非常简洁 // Bind a…...
代码随想录算法训练营day38
代码随想录算法训练营 —day38 文章目录 代码随想录算法训练营前言一、322. 零钱兑换二维dp数组 二、279.完全平方数二维dp数组 三、139. 单词拆分多重背包背包问题总结问题类型递推公式遍历顺序 前言 今天是算法营的第38天,希望自己能够坚持下来! 今日…...
对接DeepSeek
其实,整个对接过程很简单,就四步,获取key,找到接口文档,接口测试,代码对接。 获取 KEY https://platform.deepseek.com/transactions 直接付款就是了(现在官网暂停充值2025年2月7日࿰…...
【学术投稿-第六届新材料与清洁能源国际学术会议(ICAMCE 2025)】组织与结构:HTML中的<fieldset>与<legend>标签解析
官网:www.icceam.com 简介 第六届新材料与清洁能源国际学术会议(ICAMCE 2025)将于2025年2月21-23日在郑州隆重举行。清洁能源、新材料是当今工业发展中最重要、最有潜力的领域之一。而新型材料又是新能源的基础和保证。本会议主要围绕“清洁…...
网络安全行业的冬天
冬天已经来了,春天还会远吗?2022年10月28日,各个安全大厂相继发布了财报,纵观2022年前三季度9个月,三六零亏了19亿,奇安信亏了11亿,深信服亏了6亿,天融信亏了4亿,安恒亏了…...
PlantUml常用语法
PlantUml常用语法,将从类图、流程图和序列图这三种最常用的图表类型开始。 类图 基础语法 在 PlantUML 中创建类图时,你可以定义类(Class)、接口(Interface)以及它们之间的关系,如继承&#…...
【开源免费】基于SpringBoot+Vue.JS网上服装商城(JAVA毕业设计)
本文项目编号 T 185 ,文末自助获取源码 \color{red}{T185,文末自助获取源码} T185,文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…...
力扣LeetCode: 80 删除有序数组中的重复项Ⅱ
题目: 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件…...
Linux之kernel(4)netlink通信
Linux内核(04)之netlink通信 Author: Once Day Date: 2023年1月3日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可查看专栏: Linux内核知识_Once-Day的博客-…...
autMan奥特曼机器人-对接deepseek教程
一、安装插件ChatGPT 符合openai api协议的大模型均可使用此插件,包括chatgpt-4/chatgpt-3.5-turbo,可自定义服务地址和模型,指令:gpt,要求Python3.7以上,使用官方库https://github.com/openai/openai-pyt…...
Java 大视界 -- Java 大数据在智能政务中的应用与服务创新(78)
💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…...
RestTemplate Https 证书访问错误
错误信息 resttemplate I/O error on GET request for “https://21.24.6.6:9443/authn-api/v5/oauth/token”: java.security.cert.CertificateException: No subject alternative names present; nested exception is javax.net.ssl.SSLHandshakeException: java.security.c…...
自动化测试
import os import pyautogui# 将鼠标移动到屏幕坐标 (100, 100) 位置,移动时间为 1 秒 pyautogui.moveTo(100, 100, duration1)# 将鼠标从当前位置向右移动 50 像素,向下移动 50 像素,移动时间为 0.5 秒 pyautogui.moveRel(50, 50, duration0…...
【C编程问题集中营】使用数组指针时容易踩得坑
【C编程问题集中营】使用数组指针时容易踩得坑 文章目录 【C编程问题集中营】使用数组指针时容易踩得坑一、获取数组首地址二、应用场景举例2.1 正常场景2.2 异常场景 三、总结 一、获取数组首地址 一维数组的首地址即数组第一个元素的指针,常用的获取一维数组首地…...
【分布式理论8】分布式调用之:四种IO模型
文章目录 一. 四种IO模型1. 同步阻塞 IO(Blocking IO)2. 同步非阻塞 IO(Non-blocking IO)3. IO 多路复用(IO Multiplexing)4. 异步 IO(Asynchronous IO)在 RPC 中的作用5. 总结 选择…...
MySQL 库建表数量有限制吗?
问:MySQL 库建表数量有限制吗? 答:无限制 官方文档: MySQL has no limit on the number of databases. The underlying file system may have a limit on the number of directories. MySQL has no limit on the number of tabl…...
使用OpenGL自己定义一个button,响应鼠标消息:掠过、点击、拖动
button需要有一个外观 外观 大小跟随窗口改变,采用纯色背景、纯色文字 文字 大小跟随窗口改变 button需要获得鼠标消息 掠过 鼠标掠过时 button 出现阴影,鼠标掠过后 button 阴影消失 点击 点击后进入相应事件 拖动 改变图标所在位置 需要在g…...
基础入门-网站协议身份鉴权OAuth2安全Token令牌JWT值Authirization标头
知识点: 1、网站协议-http/https安全差异(抓包) 2、身份鉴权-HTTP头&OAuth2&JWT&Token 一、演示案例-网站协议-http&https-安全测试差异性 1、加密方式 HTTP:使用明文传输,数据在传输过程中可以被…...
【Python】元组
个人主页:GUIQU. 归属专栏:Python 文章目录 1. 元组的本质与基础概念1.1 不可变序列的意义1.2 元组与数学概念的联系 2. 元组的创建方式详解2.1 标准创建形式2.2 单元素元组的特殊处理2.3 使用 tuple() 函数进行转换 3. 元组的基本操作深入剖析3.1 索引操…...
深度求索与DeepSeek-R1:探索人工智能的新纪元
深度求索与DeepSeek-R1:探索人工智能的新纪元 引言 在当今快速发展的科技领域,尤其是人工智能(AI)方面,每隔一段时间就会出现一款革命性的产品或技术,彻底改变我们对这一领域的认知。2025年初,…...
java: framework from BLL、DAL、IDAL、MODEL、Factory using oracle
oracel 21c sql: -- 创建 School 表 CREATE TABLE School (SchoolId CHAR(5) NOT NULL,SchoolName NVARCHAR2(500) NOT NULL,SchoolTelNo VARCHAR2(8) NULL,PRIMARY KEY (SchoolId) );CREATE OR REPLACE PROCEDURE addschool(p_school_id IN CHAR,p_school_name IN NVARCHAR2,p…...
kafka生产端之架构及工作原理
文章目录 整体架构元数据更新 整体架构 消息在真正发往Kafka之前,有可能需要经历拦截器(Interceptor)、序列化器(Serializer)和分区器(Partitioner)等一系列的作用,那么在此之后又会…...
DeepSeek结合Langchain的基本用法
DeepSeek结合Langchain的基本用法 DeepSeek 基于Openai接口规范的Prompt应答Deepseek结合LangchainDeepSeek 基于langchain的结构化返回 DeepSeek 基于Openai接口规范的Prompt应答 首先我们需要先基于pip 安装 pip install openai最开始我们先熟悉如何使用openai的接口规范&a…...
Python与java的区别
一开始接触Python的时候,哔哩视频铺天盖地,看了很多人主讲的,要找适合自己口味的,各种培训机构喜欢在各种平台引流打广告,看了很多家,要么就是一个视频几个小时,长篇大论不讲原理只讲应用&#…...
win10 llamafactory模型微调相关① || Ollama运行微调模型
目录 微调相关 1.微调结果评估 2.模型下载到本地 导出转换,Ollama运行 1.模型转换(非常好的教程!) 2.Ollama 加载GGUF模型文件 微调相关 1.微调结果评估 【06】LLaMA-Factory微调大模型——微调模型评估_llamafactory评估-C…...
全国路网矢量shp数据(分不同类型分省份)
科研练习数据 全国路网矢量shp数据(分不同类型分省份) 有需要的自取 数据格式:shp(线) 数据包含类型:城市主干道、城市次干道、城市快速路、城市支路、高速公路、内部道路、人行道、乡村道路、自行车道路…...
RocketMq之Broker注册流程详解
1.前言 前面我也是写过一些关于broker注册到NameServer里的代码分析,但是总感觉写的比较简单,今天这篇的话,算是重新梳理一篇broker注册到NameServer中的代码,感兴趣的可以看下我前面写的几篇博客: 1.NameServer的主…...
关于精度话题的杂谈
“ 浮点值的存储、运算都可能会带来精度损失,了解精度损失背后的机制原因方便我们更好的了解什么情况下会发生精度损失、什么情况下精度损失较大,以及思考怎么避免或减少精度损失。” 01 杂谈 之前在CSDN上写过《关于float浮点值二进制存储和运算精度损失…...
AD域控粗略了解
一、前提 转眼大四,目前已入职上饶一公司从事运维工程师,这与我之前干的开发有着很大的差异,也学习到了许多新的知识。今天就写下我对于运维工作中常用的功能——域控的理解。 二、为什么要有域控,即域控的作用 首先我们必须要…...
emlog最新跨站脚本漏洞(CNVD-2025-01607、CVE-2024-13140)
EMLOG是一款轻量级开源博客和CMS建站系统,速度快、省资源、易上手,适合各种规模的站点搭建,基于PHPMySQL开发。 国家信息安全漏洞共享平台于2025-01-16公布该程序存在跨站脚本漏洞。 漏洞编号:CNVD-2025-01607、CVE-2024-13140 …...
DeepSeek-r1和O1、O3mini谁更强?
DeepSeek-r1和O1、O3mini谁更强? 题目:编写一个 js 程序,显示一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起 DeepSeek-r1 <!DOCTYPE html> <html> <body> &l…...
代码随想录_二叉树
二叉树 二叉树的递归遍历 144.二叉树的前序遍历145.二叉树的后序遍历94.二叉树的中序遍历 // 前序遍历递归LC144_二叉树的前序遍历 class Solution {public List<Integer> preorderTraversal(TreeNode root) {List<Integer> result new ArrayList<Integer&g…...
时序数据库:Influxdb详解
文章目录 一、简介1、简介2、官网 二、部署1、安装2、配置(1)用户初始化 三、入门(Web UI)1、加载数据(1)上传数据文件(2)代码接入模板 2、管理存储桶(1)创建…...
内存泄漏及检测办法
什么情况下会产生内存泄漏? 内存泄漏如何检测? 使用 valgrind 对象计数 基本思路: 在对象的构造函数中增加计数:每次创建一个对象时,增加一个计数。在对象的析构函数中减少计数:每次销毁一个对象时&…...
BiGRU双向门控循环单元多变量多步预测,光伏功率预测(Matlab完整源码和数据)
代码地址:BiGRU双向门控循环单元多变量多步预测,光伏功率预测(Matlab完整源码和数据) BiGRU双向门控循环单元多变量多步预测,光伏功率预测 一、引言 1.1、研究背景和意义 随着全球对可再生能源需求的不断增长,光伏…...
Leetcode 3448. Count Substrings Divisible By Last Digit
Leetcode 3448. Count Substrings Divisible By Last Digit 1. 解题思路2. 代码实现 题目链接:3448. Count Substrings Divisible By Last Digit 1. 解题思路 这一题的话我们走的是一个累积数组的思路。 首先,我们使用一个cache数组记录下任意段数字…...