搜广推校招面经七十一
滴滴算法工程师面经
一、矩阵分解的原理与优化意义
矩阵分解在推荐系统中是一个非常核心的方法,尤其是在 协同过滤(Collaborative Filtering) 中。我们可以通过用户对物品的评分行为来推测用户的喜好,从而推荐他们可能喜欢的内容。
1.1. 直观理解:补全稀疏矩阵
在推荐系统中,我们常见的用户-物品评分矩阵 R R R 是一个非常稀疏的矩阵:
用户\物品 | 电影A | 电影B | 电影C | 电影D |
---|---|---|---|---|
用户1 | 5 | ? | 3 | ? |
用户2 | ? | 4 | ? | 2 |
用户3 | 1 | ? | ? | 5 |
目标:预测问号的位置,也就是未评分项的评分,用来推荐用户可能喜欢的物品。
1.2. 数学建模:矩阵分解思想
我们希望将评分矩阵 R ∈ R m × n R \in \mathbb{R}^{m \times n} R∈Rm×n分解为两个低秩矩阵:
R ≈ P Q T R \approx P Q^T R≈PQT
其中:
- P ∈ R m × k P \in \mathbb{R}^{m \times k} P∈Rm×k:用户的潜在因子矩阵,每一行表示一个用户在 k k k 维隐空间中的向量(偏好)
- Q ∈ R n × k Q \in \mathbb{R}^{n \times k} Q∈Rn×k:物品的潜在因子矩阵,每一行表示一个物品在 k k k 维隐空间中的向量(特性)
- k k k:潜在维度,远小于用户数 m m m 和物品数 n n n
最终评分预测:
R ^ i j = P i ⋅ Q j T \hat{R}_{ij} = P_i \cdot Q_j^T R^ij=Pi⋅QjT
1.3. 优化目标函数
我们只对已有评分位置进行拟合:
min P , Q ∑ ( i , j ) ∈ Ω ( R i j − P i Q j T ) 2 + λ ( ∣ ∣ P ∣ ∣ F 2 + ∣ ∣ Q ∣ ∣ F 2 ) \min_{P,Q} \sum_{(i,j)\in\Omega} (R_{ij} - P_i Q_j^T)^2 + \lambda(||P||_F^2 + ||Q||_F^2) P,Qmin(i,j)∈Ω∑(Rij−PiQjT)2+λ(∣∣P∣∣F2+∣∣Q∣∣F2)
其中:
- Ω \Omega Ω:表示有评分的索引集合
- λ \lambda λ:正则项系数,防止过拟合
- ∣ ∣ ⋅ ∣ ∣ F ||\cdot||_F ∣∣⋅∣∣F:Frobenius 范数
1.4. 训练算法
常用优化方法:
- ✅ 随机梯度下降法(SGD)
- ✅ 交替最小二乘法(ALS):先固定 ( P ) 求 ( Q ),再固定 ( Q ) 求 ( P ),反复迭代
- ✅ SVD 分解(用于没有缺失值的场景)
1.5. 实际推荐步骤
- 构造用户-物品评分矩阵 R R R
- 矩阵分解 得到 P , Q P, Q P,Q
- 评分预测 R ^ i j = P i Q j T \hat{R}_{ij} = P_i Q_j^T R^ij=PiQjT
- 按预测评分排序 为用户推荐他们没有评分过、预测评分最高的物品
二、XGBoost vs LightGBM的差异?如何选择分裂点?
见【搜广推校招面经十、九、六十二】
三、如果数据分布偏移(如疫情前后出行规律变化),如何调整模型?
在现实场景中,如疫情前后,用户行为可能发生显著变化,导致训练数据与当前预测环境存在**数据分布偏移(Data Distribution Shift)**问题。为应对这一挑战,可以从以下几个方面调整模型:
3.1. 数据层面的调整
增加新时期数据
- 收集疫情后(或分布变化后)的数据,扩充训练集。
- 保证训练数据涵盖当前的特征分布。
数据加权或重采样
- 对疫情前后的样本设置不同权重,增强模型对现阶段数据的适应能力。
- 使用重要性加权 (Importance Weighting),通过估计测试分布和训练分布之间的比值进行重加权。
数据漂移检测与特征选择
- 使用**KS检验、PCA投影、最大均值差异(MMD)**等方法,检测哪些特征发生了分布变化。
- 剔除不稳定特征,仅保留稳定有效特征进行建模。
3.2. 模型训练策略调整
迁移学习(Transfer Learning) / 增量学习
- 在原模型基础上,使用疫情后的少量标注数据进行微调(fine-tuning)。
- 或从零开始对新数据重新训练(若旧数据不再具有代表性)。
联合训练(Joint Training)
- 将疫情前后的数据合并,同时训练模型,但引入领域标识(Domain Indicator)或多任务学习方式,区分两个分布的数据。
四、Softmax为什么soft?
Softmax 是一种函数,常用于多分类模型的最后一层,用于将一个向量映射为一个概率分布。公式如下:
Softmax ( z i ) = e z i ∑ j e z j \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}} Softmax(zi)=∑jezjezi
它的输入是一组实数 z 1 , z 2 , . . . , z n z_1, z_2, ..., z_n z1,z2,...,zn,输出是 n n n 个值,这些值都在 0 和 1 之间,总和为 1,表示每个类的概率。
4.1. Soft 的含义
“Soft” 是相对于 “Hard” 来说的。比如:
- Hard max 是只取最大值的位置为 1,其他为 0
- 比如:[2.1, 5.6, 3.3] → [0, 1, 0]
- Softmax 则是“柔和地”表达各个值的相对大小:
- 比如:[2.1, 5.6, 3.3] → [0.02, 0.91, 0.07]
也就是说,Softmax 不是简单地做最大化(max)操作,而是“soft”(柔化)了这个选择过程,保留了其他选项的可能性。
- 比如:[2.1, 5.6, 3.3] → [0.02, 0.91, 0.07]
4.2. Soft 的好处
- 可微分性:相比 hard max,softmax 是光滑且可导的,有利于梯度下降优化。
- 表达不确定性:当模型不确定时,softmax 可以输出类似 [0.4, 0.3, 0.3] 的概率分布,而 hard max 无法做到。
- 避免信息丢失:hard max 直接抹掉非最大值的信息,softmax 则保留了不同选项之间的差异。
Softmax 之所以叫 “soft”,是因为它是一种 “平滑的最大化”,在输出概率的同时,保留了对非最大值的“温柔态度”。
相关文章:
搜广推校招面经七十一
滴滴算法工程师面经 一、矩阵分解的原理与优化意义 矩阵分解在推荐系统中是一个非常核心的方法,尤其是在 协同过滤(Collaborative Filtering) 中。我们可以通过用户对物品的评分行为来推测用户的喜好,从而推荐他们可能喜欢的内容。 1.1. 直观理解&…...
解决 ECharts 图表无数据显示问题
问题: 在开发项目时,后端明明已经成功返回了数据,但在展示手账发布数量趋势和树洞帖子发布数量趋势的 ECharts 图表中,却只有坐标轴,没有任何数据显示。 以我的VUE项目开发可视化面板为例,下面将详细分析可…...
【UE5】RTS游戏的框选功能实现
目录 效果 步骤 一、项目准备 二、框选NPC并移动到指定地点 三、框选效果 效果 步骤 一、项目准备 1. 新建一个俯视角游戏工程 2. 新建一个pawn、玩家控制器和游戏模式,这里分别命名为“MyPawn”、“MyController”和“MyGameMode” 3. 打开“MyGameMode”…...
【同步教程】基于Apache SeaTunnel从MySQL同步到MySQL——Demo方舟计划
文章作者:陈飞 中付支付大数据工程师 大家好,很高兴通过 SeaTunnel Demo 方舟计划 和大家分享一个 简单但常见的 MySQL 到 MySQL 数据同步与合并场景案例。 我是陈飞,目前就职于中付支付基础架构部,从事大数据相关工作ÿ…...
人工智能与认知科学的交汇:机器是否能“理解”?
📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、引言:AI与认知的“悖论” 当我们谈论人工智能时,往往聚焦于它的“能力”——会下围棋、会写文章、会画画,甚至能写代码。这些能力让AI像极了一个“聪明人”。但一个根本问题始终没有被真正解…...
React Native 0.79发布 - 更快的工具及更多改进
React Native 0.79版本发布了。 此版本在多个方面进行了性能改进,并修复了一些漏洞。首先,得益于延迟哈希技术,Metro的启动速度变快了,并且对包导出提供了稳定支持。由于JS包压缩方式的改变等原因,Android的启动时间也…...
嵌入式---灰度传感器
灰度传感器概览 一、定义与核心功能 1. 定义 灰度传感器是一种基于 光反射原理 的光电传感器,通过检测物体表面对入射光(多为红外光或可见光)的反射强度,将光信号转换为电信号,从而判断目标物体的 灰度值࿰…...
基于ueditor编辑器的功能开发之增加自定义一键排版功能
用户有自己的文章格式,要求复制或者粘贴进来的文章能够一键排版,不需要手动调试 这个需求的话咱们就需要自己去注册一个事件啦,这里我没有修改源码,而是在编辑器初始化之后给他注册了一个事件 我的工具列表变量 vue组件中data中…...
docker部署elk
一、准备镜像 二、创建Elasticsearch容器 2.1启动Elasticsearch容器 docker run -d --name elasticsearch \-e "discovery.typesingle-node" \-e "bootstrap.memory_locktrue" \-e "ES_JAVA_OPTS-Xms2g -Xmx2g" \-e "xpack.security.enab…...
BGP路由协议
为方便管理规模不断扩大的网络,网络被分成了不同的 AS (Autonomous System,自治系统)。早期,EGP (Exterior Gateway Protocol,外部网关协议)被用于实现在 AS 之间动态交换路由信息。但是 EGP 设计得比较简单,只发布网络…...
vue3中watch的使用示例
使用情况说明: 1、父组件中有个表格,点击表格行的修改基础信息,弹出修改对话框; 2、修改内容点击确认,发送请求,后端更新数据;不修改内容不发送请求; 3、可以连续修改;…...
OpenBMC:BmcWeb 处理http请求7 完成http请求
OpenBMC:BmcWeb 处理http请求6 调用路由处理函数-CSDN博客 用户会通过填充asyncResp设置响应内容 OpenBMC:BmcWeb 处理http请求1 生成Request和AsyncResp对象_bmc web-CSDN博客 构造了asyncResp 可以看到asyncResp是一个shared_ptr 并且在构造后设置了setCompleteRequestHand…...
pair与tuple
pair pair是 C STL(标准模板库)中的一个模板类,用于表示一对相关的对象。它是一个简单的容器,存储两个数据项,它们可以是不同类型的。pair 常用于需要将两个元素一起操作的情况,例如在处理字典(…...
RecyclerView 和 ListView从 设计理念、性能优化 和 扩展能力 三个维度展开分析
一、RecyclerView 的核心定义(设计理念) RecyclerView 是 Android Jetpack 中的高级滚动容器,用于展示大数据集,其核心特性包括: 模块化设计:分离布局管理(LayoutManager)、动画&am…...
望远镜自动调焦怎样利用直线轴承结构?
以下是对望远镜调焦结构相关内容的分析: 调焦结构基本构成与原理 驱动部分:采用步进电机驱动滚珠丝杠,步进电机能够精确控制转动角度和步数,从而精确控制滚珠丝杠的转动,为调焦提供动力来源。 传动部分:…...
C++学习之服务器EPOLL模型、处理客户端请求、向客户端回复数、向客户端发送文件
目录 1.启动epoll模型 2.和客户端建立新连接 3.接受客户端Http请求数据 4.代码回顾从接受的数据中读出请求行 5.请求行解析 6.正则表达式以及匹配 7.解析请求行以及后续处理 8.对path处理说明 9.如何回复响应数据 10.对文件对应content-type如何查询 11.服务器处理流…...
Explain的使用
1.使用explain语句去查看分析结果 如explain select * from test1 where id=1;会出现:id selecttype table type possible_keys key key_len ref rows extra各列。 其中, type=const表示通过索引一次就找到了; key=primary的话,表示使用了主键; type=all,表示为全表…...
DDoS防御与流量优化
实训背景 某在线游戏平台遭受频繁DDoS攻击,需部署Linux网关实现以下防护与优化功能: 防御SYN洪水攻击:自动识别并拦截高频SYN请求。连接数限制:限制单个IP的最大并发连接数为100,防止资源耗尽。流量优先级保障&#…...
文件上传漏洞原理学习
什么是文件上传漏洞 文件上传漏洞是指用户上传了一个可执行的脚本文件,并通过此脚本文件获得了执行服务器端命令的能力。“文件上传” 本身没有问题,有问题的是文件上传后,服务器怎么处理、解释文件。如果服务器的处理逻辑做的不够安全&#…...
005.Gitlab CICD变量使用
文章目录 变量介绍预定义变量项目信息类版本控制类流水线执行类runner环境类作业执行类容器注册类其他类别 自定义变量 变量使用预定义变量使用创建流水线提交流水作业 自定义变量使用创建流水线提交流水作业 图形UI创建变量UI自定义变量创建流水线提交流水作业 变量介绍 预定…...
即时通讯软件BeeWorks,企业如何实现细粒度的权限控制?
BeeWorks作为一款专为企业设计的即时通讯平台,高度重视用户隐私安全,采取了多种措施来保障数据的保密性、完整性和可用性。 首先,BeeWorks采用私有化部署模式,企业可以将服务器架设在自己的网络环境中,所有通讯数据&a…...
高可用架构:Keepalived、Nginx与Docker深度解析
本文深入解析了Keepalived技术,阐述其基于VRRP协议实现高可用的核心功能,包括虚拟路由器冗余、健康检查、负载均衡集成及脚本执行与通知。同时,设计了Nginx高可用方案,涵盖双机主从、主主及多点集群模式,分析其优缺点。…...
127.0.0.1本地环回地址(Loopback Address)
127.0.0.1 是计算机网络中的一个特殊IPv4地址,称为本地环回地址(Loopback Address),主要用于以下用途: 1. 基本定义 本地主机(Localhost):该地址始终指向当前正在使用的计算机本身&a…...
Windows Terminal 美化增强攻略 2.0:打造个性化高效开发环境(快捷键介绍、编程语言环境、starship美化、高效命令行工具)
前言:从 1.0 到 2.0,终端美化进阶之旅 去年,我曾在文章《使用 oh-my-posh 和 clink 打造个性化 PowerShell 和 CMD》中分享了 Windows 终端的美化方案。那时,我选择了 oh-my-posh 作为核心工具,虽然效果不错ÿ…...
网络出故障时,四大表(MAC表、ARP表、路由表、转发表)怎么查?看看这套排查顺序
网络出故障时,四大表 (MAC表、ARP表、路由表、转发表) 怎么查 说正题之前,我们先来假设一个场景: 场景假设: 一台华为设备突然上不了网,或者访问某个 IP 不通。 你会怎么排查? 别慌,兄弟&a…...
第七天 开始Unity Shader的学习之Unity中的基础光照之高光反射光照模型
Unity Shader的学习笔记 第七天 开始Unity Shader的学习之Unity中的基础光照之高光反射光照模型 文章目录 Unity Shader的学习笔记前言一、高光反射光照模型1.逐顶点光照① Properties② 顶点着色器中计算高光specular③ Fallback效果展示 2.逐像素光照① 片元着色器输出结构体…...
《从 MyBatis-Plus 到 Elasticsearch:一个后端的性能优化踩坑实录》
最近接手了一个老项目,单表查询用 MyBatis-Plus 写得飞起,但一到多表关联模糊搜索就卡成 PPT。痛定思痛,决定引入 Elasticsearch 优化查询性能,结果踩坑无数……记录下这次从 ORM 到搜索引擎的升级历程&#…...
docker 常用指令整理
以下是Docker常用操作指令的整理,分为镜像管理、容器操作、网络配置、数据卷管理、Docker Compose及系统维护等部分: 一、镜像管理 拉取镜像 docker pull [镜像名]:[标签] # 默认标签为latest # 示例:拉取Ubuntu 20.04镜像 docker pull ubun…...
密码格式校验c#和js两种
if (!IsValidPassword(xinmima)) { //在前端校验过了,这里不需要 ClientScript.RegisterStartupScript(GetType(), "", "alert(新密码必须至少8位,且至少包含大写字母、小写字母、数字、特殊符号中的3种)", true); } /// <summary> …...
线程控制
POSIX线程库 与线程有关的函数构成了⼀个完整的系列,绝⼤多数函数的名字都是以“pthread_”打头的要使⽤这些函数库,要通过引入头文件<pthread.h>链接这些线程函数库时要使⽤编译器命令的“-lpthread”选项 eg: g -o $ $^ -lpthread这个pthread库…...
WebView 与 JavaScript 的交互
从技术深度、安全意识 和 实战经验来介绍。以下是分层次的回答策略,从基础到高级逐步深入: 1. 基础实现 回答要点: "Android 和 JavaScript 的交互主要通过 WebView 的两种方式实现: Android 调用 JS: kotlin we…...
解决word中公式大小不一问题
文章目录 前言一、初见端倪二、解决方法三、题外话 前言 记录一下在 word 中使用 mathtype 编辑公式时出现的公式字体大小不一的问题的解决方法。 一、初见端倪 最近在 word 中使用 mathtype 进行公式编辑,刚开始编辑的公式并没有什么问题,过了几天后再…...
Haply与PickNik合作:Inverse3三轴力反馈控制器集成MoveIt Pro,提升机器人操作精度
Haply Robotics与PickNik Robotics合作,将Inverse3力反馈控制器集成到MoveIt Pro平台,优化人机交互,提升机器人操作精度。实时力反馈技术使操作者感知机器人与环境的交互力,增强远程操作的精确度和灵敏度,推动机器人技…...
【Linux笔记】文件的传输(scp、rsync、归档、压缩)
一、sshd 1、概念 在Linux系统中,文件传输常依赖于SSH协议(Secure Shell),而sshd(OpenSSH Daemon)是负责处理SSH连接的后台服务程序。通过sshd,用户可以在加密的通道中进行安全的远程登录、命…...
单位矩阵的特点
《单位矩阵的特性与重要性质》 单位矩阵是一种特殊的方阵,具有以下特点: 主对角线元素全为 1:单位矩阵 I n I_n In是一个 n n n\times n nn的方阵,其主对角线(从左上角到右下角的对角线)上的元素均为 …...
AI处理漫画转视频
AI处理漫画转视频 第一步 从漫画PDF文件读取图片 第二部 图片信息剪裁 第三步 OCR识别处理图片,获取漫画对应的文本信息 第四步 运用阿里云通义大模型千文处理提取的文本信息更符合文本语言 第五步 运用FishVideo大模型将文本信息转变为对应的语音 第六步 图片转视…...
三维空间中的离散曲线段匹配方法
基于离散 F r e ˊ c h e t Fr\{e}chet Freˊchet距离实现工程中的三维曲线段匹配 在自动驾驶系统中, 准确匹配相邻车道线是实现安全导航, 变道决策和路径规划的核心任务. 由于道路网络存在交叉口, 弯道, 多车道并行等复杂场景, 如何衡量目标车道曲线与其他候选车道线的空间关…...
HTML的Canvas元素
<Canvas>元素 <Canvas>元素是HTML5引入的一个强大的绘图元素,它允许通过 JavaScript 在网页上动态绘制图形、动画和交互式内容。需要注意的是,<Canvas>元素只是图形的一个容器,绘制图形必须使用Javascript。 空画布 <…...
Django学习记录-2-数据库
Django学习记录-2-数据库 文章目录 Django学习记录-2-数据库参考贴连接数据库后台查看数据库后台改为中文 table增删改查Python使用hash保持一致 虽然网上教程都很多,但是感觉自己记录一下才属于自己,之后想找也方面一点,文采不佳看的不爽可绕…...
qq邮箱群发程序
1.界面设计 1.1 环境配置 在外部工具位置进行配置 1.2 UI界面设计 1.2.1 进入QT的UI设计界面 在pycharm中按顺序点击,进入UI编辑界面: 点击第三步后进入QT的UI设计界面,通过点击按钮进行界面设计,设计后进行保存到当前Pycharm…...
spring mvc 中 RestTemplate 全面详解及示例
RestTemplate 全面详解及示例 1. RestTemplate 简介 定义:Spring 提供的同步 HTTP 客户端,支持多种 HTTP 方法(GET/POST/PUT/DELETE 等),用于调用 RESTful API。核心特性: 支持请求头、请求体、URI 参数的…...
openEuler-22.03-LTS-SP3 编译安装 Greenplum-db 6.20.0
openEuler-22.03-LTS-SP3 编译安装 Greenplum-db 6.20.0 1、配置 yum 华为源2、安装依赖3、源码安装 openssl 1.0.1u3.1、openssl 1.1.1 降级到 openssl 1.0.1 4、源码安装 python 2.75、使用 pip3 安装 Python 相关依赖6、编译安装 Greenplum-db 6.20.06.1、修改配置6.2、基于…...
天锐蓝盾多模式加密技术,构筑企业数据安全堡垒
一旦企业发生数据泄露,将遭受严重的经济损失,声誉也会一落千丈,甚至可能在激烈的竞争中陷入绝境。那么,企业究竟该如何守护敏感数据,筑牢数据安全的 “护城河” 呢?天锐蓝盾数据泄露防护系统给出了全面且专…...
可编辑37页PPT | 建筑行业DeepSeek日常实操培训
荐言摘要:随着人工智能技术的快速发展,DeepSeek作为一款具有创新性的AI工具,正逐步渗透到建筑行业的各个环节。为帮助建筑行业从业者掌握DeepSeek的核心功能与应用技巧,提升工作效率与决策能力,特推出本次建筑行业Deep…...
C语言指针和函数
文章目录 C语言指针和函数一、指针与函数1.传递指针给函数2.指针函数3.函数指针4.回调函数 二、多级指针三、空指针四、野指针 C语言指针和函数 在C语言的编程领域中,指针是一把强大而又危险的“双刃剑”。它不仅能够直接操作内存,提升程序的运行效率&a…...
左右开弓策略思路
一、策略概述 本策略是一种基于多种技术指标的复杂交易策略,包括自定义指标计算、过滤平滑处理以及交易信号生成。 该策略通过不同的交易平台代码段实现,旨在通过分析历史价格数据来预测未来价格走势,并据此生成交易信号。 二、主要技术指标…...
mapbox基础,加载F4Map二维地图
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性二、🍀F4Map 简介2.1 ☘️技术特点2.2 ☘️核…...
doxygen自动生成文档,注释容易错位的补充
开发过程中,为了简化api开发文档的编写工作,我们可以使用doxygen的标注来进行文档注释,最后自动化的生成相关文档: 参考:https://developer.aliyun.com/article/935529 参考:https://blog.csdn.net/qq_3459…...
git操作0409
git init git add. git commit -m "Initial commit" git checkout 7890abc # 切换到旧版本代码(只读) git checkout master # 切回最新版本 git checkout -b new_branch 789abcd # 或 git checkout -b new_branch HEAD~3 很重点 git reflog …...
电阻的额定功率与额定电压详解
一、基本定义 额定功率(Rated Power) 定义:电阻在长期安全工作时允许消耗的最大功率,超过此值可能导致过热甚至烧毁。 公式: P I R 或 P V / R (I:电流,V:电压&#…...