[应用开发] 基于随机森林算法的ROI预测模型

用户8537

用户5027

2025年12月10日修改

3232

3397

💡

作者：吵爷

之前碰到个需求，一些always on的转化类广告项目，客户经常会提问：我应该怎么分配每日的预算？在某个广告平台上，一套素材投几天？以往运营团队在没有精细计算的情况下，会给到一个比较模糊的轮廓经验值（比如一天80万，一套素材投14天），但在积累了一定量的数据以后，我们可以尝试用算法去完成这个预测（或者叫总结），给到一些更精确的回答。​

这个任务我同样给了高斯过程回归和多项式回归（扩展到了3次方），但实践下来还是随机森林的算法效果更好，所以目前主要推荐用这套算法来完成预测。下面是具体的脚本，同样在colab上运行，需要改到本地运行的同学调整一下文件读取和存储的路径模块即可​

步骤1：加载依赖项

代码块

import numpy as np​
2import pandas as pd​
3from sklearn.preprocessing import StandardScaler​
4from sklearn.model_selection import train_test_split, GridSearchCV​
5from sklearn.ensemble import RandomForestRegressor​
6from sklearn.metrics import mean_squared_error​
7from sklearn.gaussian_process import GaussianProcessRegressor​
8from sklearn.gaussian_process.kernels import Matern​
9from google.colab import files​

步骤2：上传文件

这里默认文件命名为"data.xlsx"的文件，colab上避免重复上传，加入了删除历史文件的模块，本地不需要​

代码块

# 删除之前保存的文件​
file_path = 'data.xlsx'​
if os.path.exists(file_path):​
    os.remove(file_path)​
    print(f"Deleted existing file: {file_path}")​
​
# 上传Excel文件​
uploaded = files.upload()​
​
# 读取上传的Excel文件​
# 上传的文件名为 'data.xlsx'​
if not uploaded:​
    print("No file was uploaded. Please try again.")​
else:​
    # 上传的文件名为 'data.xlsx'​
    file_name = list(uploaded.keys())[0]​
    if not file_name.endswith('.xlsx'):​
        print(f"Uploaded file is not an Excel file. Please upload a file with '.xlsx' extension.")​
    else:​
        # 读取上传的Excel文件​
        df = pd.read_excel(file_name)​

步骤3：训练模型

注意：上传的excel文件对应的列标题和代码中对应。这里举例子："days, budget, cvr, roi" 是excel中的数据项目，所以之后的代码会对应。也可以改成自动化识别的，但因为我需要过滤一些影响权重比较小的数据（比如素材版本），所以这里直接定义了。​

代码块

# 加载数据（确保这里是实际想要建模的数据列）​
days = df.iloc[:, 1].values         # 投放天数​
budget = df.iloc[:, 2].values       # 日均预算​
cvr = df.iloc[:, 3].values          # CVR​
roi = df.iloc[:, 4].values          # ROI​
​
# 标准化预算、天数和CVR（避免绝对数值差异过大导致模型权重失衡）​
scaler_budget = StandardScaler()​
scaler_days = StandardScaler()​
scaler_cvr = StandardScaler()​
​
budget_scaled = scaler_budget.fit_transform(budget.reshape(-1, 1))  # 标准化预算​
days_scaled = scaler_days.fit_transform(days.reshape(-1, 1))        # 标准化天数​
cvr_scaled = scaler_cvr.fit_transform(cvr.reshape(-1, 1))           # 标准化CVR​
​
# 创建输入数据矩阵 X，包括预算、天数和CVR，​
X = np.hstack([budget_scaled, days_scaled, cvr_scaled])​
​
# 使用 ROI 作为目标变量 y​
y = roi​
​
# 划分训练集和测试集 test_size = 0.2即训练数据的比例为20%，random_state=42 这里设置一个随机的种子，确保每次实验的结果相同便于对比​
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)​
​
# 初始化随机森林回归模型 n_estimators=100，这个随机森林由100棵决策树组成（即弱学习器），避免单个学习器的过拟合问题​
rf = RandomForestRegressor(n_estimators=100, random_state=42)​
​
# 使用网格搜索进行超参数调优，param_grid 相当于一个字典，定义了要搜索的超参数的候选值。​
param_grid = {​
    'n_estimators': [50, 100, 200],  #决策树数量​
    'max_depth': [None, 5, 10], #决策树的最大深度​
    'min_samples_split': [2, 5, 10] #节点再划分的最小样本数​
}​
​
grid_search = GridSearchCV(rf, param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)​
grid_search.fit(X_train, y_train)​
​
# 最优模型​
best_rf = grid_search.best_estimator_​
​
# 预测并计算误差​
y_pred = best_rf.predict(X_test)​
mse = mean_squared_error(y_test, y_pred)​
print(f"Test MSE: {mse}") #计算模型方差，判断模型的拟合度​

[应用开发] 基于随机森林算法的ROI预测模型​

[应用开发] 基于随机森林算法的ROI预测模型