当前位置：首页 > news >正文

广告推荐算法入门 day1 --项目选型

news 来源：原创 2025/7/5 16:47:08

文章目录

0 前言
1 广告推荐的基本流程
2 场景和baseline初步框定
- 2.1召回场景
- 2.2排场景
- 2.3精排场景
3 一个入门小例子感受--淘宝用户购物行为数据可视化分析
- 3.1 数据集介绍
- 3.2 数据分析目标
- - 1.时间维度
  - 2.产品维度
  - 3.行为维度
  - 4.用户维度
4 基础项目选型
- 4.1场景
推荐资料
后记

0 前言

一起学习吖~~
一个好的推荐项目，首先不能是宏大全面囊括的而应该是针对某场景问题针对性拓展的，因此我们应该有场景->baseline ->改进点->效果这几个部分。其中建议说出：每个部分为啥会work？为啥别的别的方法不行？优化方案的增量来自啥（对信息的挖掘还是引入新的信息）？虽然你选了baseline但是你还得了解最前沿是啥？

1 广告推荐的基本流程

我们其实可以分为：召回，精排，粗排这几个方向。
在这里插入图片描述

2 场景和baseline初步框定

2.1召回场景

召回要关注负样本的构造、双塔以及改进，工业用的都是双塔模型，我们的baseline可以选择规则召回/协同过滤。

2.2排场景

数据量不够大没必要加粗排，不建议在自己的项目加粗排。

2.3精排场景

排序侧重：特征交叉率、行为序列类、多目标类和trigger建模类选用传统的机器学习做baseline.
在这里插入图片描述

3 一个入门小例子感受–淘宝用户购物行为数据可视化分析

3.1 数据集介绍

数据获取数据中有5个维度的字段，其分别表示用户id、商品id、用户行为类型、商品类别以及时间信息。其中，行为类型分为浏览，收藏，加购物车，购买，对应1，2，3，4
在这里插入图片描述

3.2 数据分析目标

本次分析的目的是从多个维度分析用户数据、行为数据、商品数据，发现能够提升销售的建议。

1.时间维度

分析用户一天或者一周的销售分析，分析出一年内哪个时间段PV和uv值的情况趋势
分析出一年内哪个时间段PV和uv值的情况趋势
你提到的淘宝购物行为分析中涉及的 UV 和 PV，是常用的用户行为统计指标，具体含义如下：

UV（Unique Visitor，独立访客数）

定义：在一定时间范围内，访问某个网站、某个页面或某个商品的不同用户的数量。
特点：同一个用户多次访问只计为1，反映的是访问人数。
应用：衡量用户覆盖面和人气，比如某个商品或类目有多少唯一用户关注。

PV（Page View，页面浏览量）

定义：在一定时间范围内，某个网站或页面被访问的总次数。
特点：同一个用户多次访问都会被计数，反映的是访问量。
应用：衡量页面的受欢迎程度和用户活跃度，比如商品页面被浏览了多少次。

在电商购物行为分析中的意义

UV代表有多少不同的用户对商品或网站产生过兴趣，是广度的指标。
PV代表用户浏览的频率和深度，反映用户粘性和活跃度。
高UV+高PV意味着商品或页面既有较多用户关注，也有较高的访问频次，说明热度高。
通过分析UV和PV的变化趋势，可以发现用户关注的时间段、热门商品、潜在用户行为等。


# 计算每天的PV（页面浏览量）
pv = data.groupby('date')['user_id'].count().reset_index()
pv = pv.rename(columns={'user_id': 'pv'})
print("\n每天的PV（前5行）：")
print(pv.head())# 计算每天的UV（独立访客数）
uv = data.groupby('date')['user_id'].apply(lambda x: len(x.unique())).reset_index()
uv = uv.rename(columns={'user_id': 'uv'})
print("\n每天的UV（前5行）：")
print(uv.head())# 可视化PV和UV趋势图
fig, axes = plt.subplots(2, 1, sharex=True, figsize=(10,8))
pv.plot(x='date', y='pv', ax=axes[0], color='red', legend=False)
axes[0].set_title('每日PV')
uv.plot(x='date', y='uv', ax=axes[1], color='green', legend=False)
axes[1].set_title('每日UV')
plt.xticks(rotation=45)
plt.tight_layout()

在这里插入图片描述
按照月PV和UV我们发现12月12日是一个高PV和高UV的时间段，可能和营销活动有关。


# 计算每小时的PV
pv_hour = data.groupby('hour')['user_id'].count().reset_index()
pv_hour = pv_hour.rename(columns={'user_id': 'pv_hour'})
print("\n每小时PV：")
print(pv_hour)# 计算每小时的UV
uv_hour = data.groupby('hour')['user_id'].apply(lambda x: len(x.unique())).reset_index()
uv_hour = uv_hour.rename(columns={'user_id': 'uv_hour'})
print("\n每小时UV：")
print(uv_hour)# 每小时PV折线图
plt.figure(figsize=(10,5))
plt.plot(pv_hour['hour'], pv_hour['pv_hour'], color='blue', linewidth=1, linestyle='-')
plt.title('每小时PV情况分布')
plt.xlabel('小时')
plt.ylabel('PV')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

在这里插入图片描述

按照每日的小时划分，用户主要活跃在19-23这个期间。


# 选取2014-12-12这一天的数据
data_1212 = data[data['date'] == '2014-12-12']# 该日每小时PV
hour_1212 = data_1212.groupby('hour')['user_id'].count().reset_index()
hour_1212 = hour_1212.rename(columns={'user_id': 'hour_1212'})
print("\n2014-12-12 每小时PV：")
print(hour_1212)# 该日每小时UV
uv_hour_1212 = data_1212.groupby('hour')['user_id'].apply(lambda x: len(x.unique())).reset_index()
uv_hour_1212 = uv_hour_1212.rename(columns={'user_id': 'uv_hour_1212'})
print("\n2014-12-12 每小时UV：")
print(uv_hour_1212)# 绘制2014-12-12 每小时UV折线图
plt.figure(figsize=(10,5))
plt.plot(uv_hour_1212['hour'], uv_hour_1212['uv_hour_1212'], color='red')
plt.title('2014-12-12 每小时UV')
plt.xlabel('小时')
plt.ylabel('UV')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

在这里插入图片描述
单独查看双十二当天，发现在8：30出现跃升发，可能是活动影响。

2.产品维度

分为热搜产品和类别（浏览量前十的商品），热卖产品和类别（购买量前十的商品），分析商品推送是否有效。

# 计算每种行为的 one-hot 编码列
one_hot_df = pd.get_dummies(data['behavior_type'])# 拼接 user_id, item_id 和 one-hot 编码
user_item_behavior_df = pd.concat([data[['user_id', 'item_id']], one_hot_df], axis=1)# 浏览量前十商品（行为类型1）
top1_10 = user_item_behavior_df.groupby('item_id')[1].sum().sort_values(ascending=False).head(10)
print("\n浏览量前十商品及数量：")
print(top1_10)# 购买量前十商品（行为类型4）
top4_10 = user_item_behavior_df.groupby('item_id')[4].sum().sort_values(ascending=False).head(10)
print("\n购买量前十商品及数量：")
print(top4_10)# 浏览量前十商品对应的购买量
pv_10_buy = []
for item_id in top1_10.index:buy_count = user_item_behavior_df.loc[user_item_behavior_df['item_id'] == item_id, 4].sum()pv_10_buy.append({'商品ID': item_id, '购买量': buy_count})print("\n浏览量前十商品对应购买量：")
print(pv_10_buy)# 购买量前十商品对应的浏览量
buy_10_pv = []
for item_id in top4_10.index:pv_count = user_item_behavior_df.loc[user_item_behavior_df['item_id'] == item_id, 1].sum()buy_10_pv.append({'商品ID': item_id, '浏览量': pv_count})print("\n购买量前十商品对应浏览量：")
print(buy_10_pv)

在这里插入图片描述

3.行为维度

行为维度主要是分析行为转化率用户维度分为FRM分析模型对用户进行分解，分析出用户的购买时间，购买频数，购买金额。

# 按行为类型和小时统计用户数（PV）
behavior = data.groupby(['behavior_type', 'hour'])['user_id'].count().reset_index()
behavior = behavior.rename(columns={'user_id': 'count'})print("按行为类型和小时统计的行为计数：")
print(behavior.head())# 设置matplotlib 中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']# 创建子图，2行1列，共享x轴
fig, axes = plt.subplots(2, 1, sharex=True, figsize=(10, 8))# behavior_type==1的数据画在第一个子图（一般代表浏览）
sns.lineplot(x='hour', y='count', hue='behavior_type', data=behavior[behavior.behavior_type == 1], ax=axes[0])
axes[0].set_title('行为类型为1的小时分布')# behavior_type!=1的数据画在第二个子图
sns.lineplot(x='hour', y='count', hue='behavior_type', data=behavior[behavior.behavior_type != 1], ax=axes[1])
axes[1].set_title('行为类型不为1的小时分布')plt.tight_layout()
plt.show()# 计算各行为类型总计数
behavior_type = data.groupby('behavior_type')['user_id'].count()print("\n各行为类型计数：")
print(behavior_type)# 提取各行为数值（确保索引存在，否则会报错）
look_num = behavior_type.get(1, 0)
hide_num = behavior_type.get(2, 0)
add_num = behavior_type.get(3, 0)
buy_num = behavior_type.get(4, 0)# 计算转化率
look_hide = hide_num / look_num if look_num else 0
look_add = add_num / look_num if look_num else 0
look_buy = buy_num / look_num if look_num else 0
ha_buy = buy_num / (hide_num + add_num) if (hide_num + add_num) else 0print(f'浏览-收藏的转化率：{look_hide:.4f}')
print(f'浏览-加购的转化率：{look_add:.4f}')
print(f'浏览-购买的转化率：{look_buy:.4f}')
print(f'收藏加购-购买的转化率：{ha_buy:.4f}')# 选取2014-12-12这一天数据
data_1212 = data.loc[data['date'] == '2014-12-12']behavior_type_1212 = data_1212.groupby('behavior_type')['user_id'].count()
print("\n2014-12-12 各行为类型计数：")
print(behavior_type_1212)look_num = behavior_type_1212.get(1, 0)
hide_num = behavior_type_1212.get(2, 0)
add_num = behavior_type_1212.get(3, 0)
buy_num = behavior_type_1212.get(4, 0)look_hide = hide_num / look_num if look_num else 0
look_add = add_num / look_num if look_num else 0
look_buy = buy_num / look_num if look_num else 0
ha_buy = buy_num / (hide_num + add_num) if (hide_num + add_num) else 0print(f'2014-12-12 浏览-收藏的转化率：{look_hide:.4f}')
print(f'2014-12-12 浏览-加购的转化率：{look_add:.4f}')
print(f'2014-12-12 浏览-购买的转化率：{look_buy:.4f}')
print(f'2014-12-12 收藏加购-购买的转化率：{ha_buy:.4f}')

在这里插入图片描述
从以上两个图可以看出四条行为类型的的趋势项接近，浏览量高的时候，购买和加购收藏的也逐渐提高，四条线都是10-16处于平稳，无论是点击量，加购收藏量，还是购买量都在这个时间段处于不怎么波动状态。而18-23点可以明显感觉到点击量上涨的很快，同样加购收藏也随之增多，购买量也有一定的上升坡度。
在这里插入图片描述

4.用户维度


import pandas as pd
import matplotlib.pyplot as plt# 假设 data 已经加载，包含至少列 ['user_id', 'behavior_type', 'date']# 计算每个用户的购买次数（行为类型为4代表购买）
user_buy_num = data[data.behavior_type == 4].groupby('user_id')['behavior_type'].count().reset_index()
user_buy_num = user_buy_num.rename(columns={'behavior_type': 'count'})print("用户购买次数统计（前5条）：")
print(user_buy_num.head())plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体# 用户购买次数分布图（用户id作为x轴，购买次数作为y轴）
user_buy_num.plot(x='user_id', y='count', kind='bar', color='blue', figsize=(12, 5), legend=False)
plt.title('用户购买次数情况')
plt.xlabel('用户ID')
plt.ylabel('购买频次')
plt.tight_layout()
plt.show()# 计算不同用户购物的天数（去重日期）
user_buy_n = data[data.behavior_type == 4].groupby('user_id')['date'].apply(lambda x: len(x.unique())).reset_index()
user_buy_n = user_buy_n.rename(columns={'date': 'count'})print("\n各用户购买天数统计（前5条）：")
print(user_buy_n.head())# 计算复购用户数量比例（购买天数大于1的用户比例）
d_rate = (user_buy_n['count'] > 1).sum() / user_buy_n['count'].count()
print(f"\n复购用户比例：{d_rate:.4f}")# 计算用户每日购买次数（行为类型为4）
data1 = data.copy()
data1['action'] = 1  # 把每条行为标记为1，方便count计数user_buy_d = data1[data1.behavior_type == 4].groupby(['user_id', 'date'])['action'].count().reset_index()
print("\n用户每日购买次数（前5条）：")
print(user_buy_d.head())# 计算每个用户复购的间隔天数
# 这里 date 需要转换为 datetime 类型，如果还没转换：
user_buy_d['date'] = pd.to_datetime(user_buy_d['date'])user_buy_p = user_buy_d.groupby('user_id')['date'].apply(lambda x: x.sort_values().diff().dropna())
print("\n复购间隔天数示例（部分）：")
print(user_buy_p.head())# 绘制复购周期分布图
plt.rcParams['font.sans-serif'] = ['SimHei']
user_buy_p.value_counts().sort_index().plot(kind='bar', figsize=(10, 5))
plt.xlabel('复购间隔天数')
plt.ylabel('用户数量')
plt.title('复购周期分布')
plt.tight_layout()
plt.show()# 重置索引，准备合并
user_buy_p = user_buy_p.reset_index()
user_buy_p = user_buy_p.drop(columns='level_1')
user_buy_p = user_buy_p.rename(columns={'date': 'date_diff'})print("\n处理后的复购周期数据（前5条）：")
print(user_buy_p.head())# 合并购买次数和复购间隔
rfm = pd.merge(user_buy_num, user_buy_p, on='user_id')
print("\n合并后的RFM数据（前5条）：")
print(rfm.head())# 给复购间隔和购买次数打分，分成两组，qcut分位数切分
# 复购间隔是 Timedelta，需要转换成天数
rfm['date_days'] = rfm['date_diff'].dt.days# 对复购间隔打分，天数越少分越高（这里labels倒过来）
rfm['score_date'] = pd.qcut(rfm['date_days'], 2, labels=['1', '0'])
# 对购买次数打分，次数越多分越高
rfm['score_count'] = pd.qcut(rfm['count'], 2, labels=['0', '1'])# 合并打分，形成rfm标签
rfm['rfm'] = rfm['score_count'].astype(str) + rfm['score_date'].astype(str)print("\nRFM打分示例（前5条）：")
print(rfm[['user_id', 'count', 'date_days', 'score_count', 'score_date', 'rfm']].head())# 根据rfm标签映射用户类型
rfm = rfm.assign(user_type=rfm['rfm'].map({'11': '重要客户','01': '保持客户','10': '发展客户','00': '挽留客户'
}))# 汇总用户类型数量
type_sum = rfm.groupby('user_type')['rfm'].count().reset_index(name='count')
print("\n用户类型统计：")
print(type_sum)# 绘制用户类型柱状图
type_sum.plot(x='user_type', y='count', kind='bar', legend=False, figsize=(8, 5))
plt.xlabel('用户类型')
plt.ylabel('用户数量')
plt.title('用户分类统计')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()# 计算用户每日各行为次数
user_day_buy = data1.groupby(['date', 'user_id', 'behavior_type'])['action'].count().reset_index()
user_day_buy = user_day_buy.rename(columns={'action': 'count'})print("\n用户每日各行为次数（前5条）：")
print(user_day_buy.head())# 计算ARPU（每日购买总数 / 当日活跃用户数）
ARPU = user_day_buy.groupby('date').apply(lambda x: x[x['behavior_type'] == 4]['count'].sum() / x['user_id'].nunique()
).reset_index(name='rate')print("\nARPU（前5条）：")
print(ARPU.head())ARPU.plot(x='date', y='rate', color='pink', figsize=(10, 5))
plt.title('每日收益转化效率（ARPU）')
plt.xlabel('日期')
plt.ylabel('ARPU值')
plt.tight_layout()
plt.show()# 计算每日消费用户人数和下单率
user_day_buy1 = data[data.behavior_type == 4].groupby(['date', 'user_id'])['behavior_type'].count().reset_index()
user_day_buy1 = user_day_buy1.rename(columns={'behavior_type': 'count'})buy_rate = user_day_buy1.groupby('date').apply(lambda x: x['count'].sum() / x['user_id'].count()  # 总购买次数 / 购买用户数，代表平均购买频次
).reset_index(name='rate')print("\n每日平均购买频次（下单率）前5条：")
print(buy_rate.head())plt.rcParams['font.sans-serif'] = ['SimHei']
buy_rate.plot(x='date', y='rate', color='pink', figsize=(10, 5))
plt.title('每日下单率')
plt.xlabel('日期')
plt.ylabel('平均购买频次')
plt.tight_layout()
plt.show()

①购买频次
在这里插入图片描述

②复购率 = 复购用户数量 / 有购买行为的用户数量
复购间隔是用户最新一次购买时间和上一次购买时间的间隔。复购间隔=最新一次购物时间-上一次购物时间
在这里插入图片描述
③RFM思想是用时间（Recency）、频次（Frequency）、金额（Monetary）三个指标，量化用户行为，分层划分客户价值，从而帮助企业精准营销和客户管理的一种经典模型和方法。

在这里插入图片描述
④计算平台的每日活跃用户对每日收益的转化效率,APRU=日总的购买次数/日登录次数

⑤下单率=日购买的用户数总数/日总的登录次数
在这里插入图片描述
根据上图的下单率可知在1212那天有一个下单高峰，其他大部分时间下单率处于2.25-2.50之间。

4 基础项目选型

4.1场景

开源项目？目前比较火的开源的新闻推荐系统，但是我更偏向的是电商系统。尚硅谷有个电商推荐系统，但是我感觉偏向于开发而不是算法，之前有尝试过开发，因此不想将时间花费在开发环境配置上面。
比赛项目？这大概是最可取的，但是比赛的场景有点过于极端，我最开始就是选取的有个OTTO比赛，后来发现确实展现不了个人思考。
自己手搓一个？我更倾向于这个，那应该会很有意思。结合我自己的背景（对LLama模型较为熟悉且组里有足够的资源），或许能否选一个合适的场景，合适的数据集；然后自己实验LLMma等替换获得更好的效果呢？？
所以，接下来：我们需要多看论文，选定场景和数据集和baseline！✌

后记

”越知道知识的广阔，越觉察自己的浅陋”
学习新的知识往往是又惊喜又伤心的（物理层面上表现为热泪盈眶），惊喜是我又发现了一个个宝藏，伤心的是居然有这么庞大的知识我一无所知之前还和别人侃侃而谈，而且这么多知识啥时候才能统统入脑呢？往往会想到苏轼”寄蜉蝣于天地，渺沧海之一粟。哀吾生之须臾，羡长江之无穷。知不可乎骤得，托遗响于悲风。“，对我来说，解决这种彷徨无措的方法只有一个：实践，干就完了。像胡适说的”怕什么真理无穷，进一寸有进一寸的欢喜“