当前位置：首页 > news >正文

第100+35步 ChatGPT学习：时间序列EMD-ARIMA-RF模型 vol. 2

news 来源：原创 2025/8/29 5:50:25

基于Python 3.9版本演示

一、写在前面

上一节，我们学了EMD-ARIMA-RF模型去做预测。

这一节开始，我们尝试使用多项式回归矫正。

二、EMD&RF-ARIMA组合策略

该组合策略主要是将传统的经验模态分解（EMD）方法和现代的机器学习技术（RF 和 ARIMA 模型）相结合，用于增强时序数据的预测能力。下面是这个策略的具体描述：

（1）经验模态分解 (EMD)：

1）首先，使用 EMD 方法处理原始时序数据，将其分解为多个内模函数（IMF）和一个剩余信号。这一步骤的目的是提取数据中的不同频率成分，每个 IMF 代表原始信号的不同频率层次，而剩余信号包含了趋势信息。

2）EMD 是一种自适应方法，适用于非线性和非平稳时间序列数据分析，可以揭示隐藏在复杂数据集中的简单结构和成分。

（2）RF 和 ARIMA 模型的应用：

将不同的 IMF 成分分配给不同的预测模型：选定的IMF由 RF 模型处理，通常选择那些更具高频和复杂动态的成分；而趋势性较强的成分（包括剩余信号）则交由 ARIMA 模型进行分析。

（3）多项式回归矫正：

可以使用多项式回归而不是简单的线性回归来进行校准，多项式回归可以通过引入输入特征的高次项来捕捉更复杂的关系。

三、EMD&RF-ARIMA组合策略-多项式矫正代码Pyhton实现

下面，我使用的是之前分享过的肺结核的数据做演示：

Pthon代码：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.interpolate import CubicSpline
from statsmodels.tsa.arima.model import ARIMA
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_absolute_error, mean_squared_error# 读取数据
file_path = 'pone.0277314.s006.xlsx'
data = pd.read_excel(file_path)# 提取时间和PTB病例数
time_series = data['Time']
ptb_cases = data['PTB cases']# 将时间转换为数值形式
time_numeric = np.arange(len(time_series))def get_envelope_mean(signal):"""计算信号的上包络线和下包络线的均值"""maxima = np.where(np.r_[True, signal[1:] > signal[:-1]] & np.r_[signal[:-1] > signal[1:], True])[0]minima = np.where(np.r_[True, signal[1:] < signal[:-1]] & np.r_[signal[:-1] < signal[1:], True])[0]if len(maxima) < 2 or len(minima) < 2:return np.zeros_like(signal)upper_env = CubicSpline(maxima, signal[maxima])(time_numeric)lower_env = CubicSpline(minima, signal[minima])(time_numeric)return (upper_env + lower_env) / 2def sift(signal, max_iter=1000, tol=1e-6):"""对信号进行sifting操作，提取IMF"""h = signalfor _ in range(max_iter):m = get_envelope_mean(h)h1 = h - mif np.mean(np.abs(h - h1)) < tol:breakh = h1return hdef emd(signal, max_imfs=6):"""进行EMD分解"""residual = signalimfs = []for _ in range(max_imfs):imf = sift(residual)imfs.append(imf)residual = residual - imfif np.all(np.abs(residual) < 1e-6):breakreturn np.array(imfs), residual# 执行EMD分解
imfs, residual = emd(ptb_cases.values)# 训练和预测函数
def train_predict_models(imfs, ptb_cases, n_steps):rf_indices = [0, 1, 2]arima_indices = [i for i in range(len(imfs)) if i not in rf_indices]predictions = np.zeros(len(ptb_cases))for idx in rf_indices:train_data = imfs[idx].flatten()X_rf = [train_data[i-n_steps:i] for i in range(n_steps, len(train_data))]y_rf = train_data[n_steps:]model_rf = RandomForestRegressor(n_estimators=100)model_rf.fit(X_rf, y_rf)predictions_rf = model_rf.predict(X_rf)predictions[n_steps:len(predictions_rf) + n_steps] += predictions_rffor idx in arima_indices:train_data = imfs[idx]model_arima = ARIMA(train_data, order=(5, 1, 0))model_fit = model_arima.fit()predictions_arima = model_fit.predict(start=0, end=len(train_data) - 1)predictions[:len(predictions_arima)] += predictions_arimareturn predictions# 初始预测
initial_predictions = train_predict_models(imfs, ptb_cases.values, n_steps=10)# 多项式校准
degree = 3  # 选择多项式的度数
polynomial_calibrator = make_pipeline(PolynomialFeatures(degree), LinearRegression())
polynomial_calibrator.fit(initial_predictions.reshape(-1, 1), ptb_cases.values.reshape(-1, 1))
calibrated_predictions = polynomial_calibrator.predict(initial_predictions.reshape(-1, 1)).flatten()# 计算误差
mae = mean_absolute_error(ptb_cases, calibrated_predictions)
mse = mean_squared_error(ptb_cases, calibrated_predictions)
rmse = np.sqrt(mse)
mape = np.mean(np.abs((ptb_cases - calibrated_predictions) / ptb_cases)) * 100# 打印误差
print(f'MAE: {mae}')
print(f'MSE: {mse}')
print(f'RMSE: {rmse}')
print(f'MAPE: {mape}')# 绘制预测结果
plt.figure(figsize=(12, 6))
plt.plot(time_numeric, ptb_cases, label='Original Data')
plt.plot(time_numeric, calibrated_predictions, label='Calibrated Predicted Data')
plt.legend()
plt.show()

使用了一个 Pipeline 来组合 PolynomialFeatures 和 LinearRegression，实现多项式回归校准。可以通过调整 degree 的值来控制多项式的复杂度，可以帮助捕捉更复杂的非线性关系，从而可能提高预测精度。看看结果：

似乎比单项式的效果好一点。

我又尝试把 degree 的值调到6，原来是3，MAPE值下降了一个点。

MAE: 26.198947479003024

MSE: 1286.1030414201357

RMSE: 35.862278809636955

MAPE: 11.903091360148034

但是再继续调大就不行了，预测曲线直接拉平。

六、最后

下一期，我们继续来测试一下其他矫正方法。

相关文章：