当前位置: 首页 > news >正文

搜广推校招面经七十八

字节推荐算法

一、实习项目:多任务模型中的每个任务都是做什么?怎么确定每个loss的权重

这个根据实际情况来吧。如果实习时候用了moe,就可能被问到。
loss权重的话,直接根据任务的重要性吧。。。

二、特征重要性怎么判断的?

2.1. 基于树模型的方法(Model-based Methods)

在使用树模型(如 XGBoost、LightGBM、CatBoost)时,通常有多种方式可以计算 feature_importance_

2.1.1. Gain(信息增益)

  • 定义:每个特征在树结构中带来的信息增益(或损失函数的减少量)之和。
  • 特点:反映了特征对模型性能提升的“贡献度”。
  • 优点:精度较高,考虑了每次分裂的效果。
  • 劣势:容易偏向使用频率较低但效果突出的特征。

2.1.2. Split(或 Weight / Frequency)

  • 定义:每个特征被用作分裂点的次数。
  • 特点:反映了特征在树中“被使用的频率”。
  • 优点:实现简单,速度快。
  • 劣势:不考虑每次使用带来的好处(信息增益大小),可能高估某些无效但频繁使用的特征。

2.1.2. Cover(覆盖度)

  • 定义:使用该特征进行分裂的样本权重的总和(即覆盖的样本量)。
  • 特点:用于衡量特征使用时影响的样本规模。
  • 优点:结合了使用频率和样本量。
  • 劣势:对结果的解释性不如 Gain 明确。

2.2. 基于模型不确定性的分析

2.2.1. SHAP (SHapley Additive exPlanations)

  • 利用博弈论中 Shapley Value 分析每个特征对模型输出的贡献,支持大多数模型(树模型、神经网络、线性模型)

2.2.2. LIME (Local Interpretable Model-agnostic Explanations)

  • 基于局部线性模型的解释方法,对每个预测样本提供局部特征重要性

2.3. Permutation Importance(置换重要性)

  • 打乱某一特征,看模型性能下降多少(需要做很多次,求平均)

2.4. 消融实验

  • 删除某一特征,观察模型性能的下降程度

2.5. 基于回归模型系数的方法

  • 逻辑回归、线性回归中的系数大小表示特征重要性。简单讲就是y = wx+b的w。

三、谈谈推荐模型中的SENet(Squeeze-and-Excitation Networks)

SENet本身并不直接进行特征选择(即不删除不重要的特征),而是通过重新标定特征的重要性来间接影响模型的学习过程。但是其实我们可以将SENet的的门控参数当作特征重要度用
SENet的通道注意力思想被引入到多特征交互建模中,动态地学习不同特征的重要性。

3.1. SENet 结构模块

3.1.1. Squeeze(压缩)

对每个通道(对应推荐系统中的每个嵌入向量)做全局平均池化,提取通道级的全局信息。

  • 输入维度:(batch_size, num_fields, embedding_dim)
  • 输出维度:(batch_size, embedding_dim)

3.1.2. Excitation(激励)

通过一个两层的全连接网络(MLP)建模特征之间的关系,输出每个特征维度的权重。

  • 通常包含 ReLU 激活 + Sigmoid
  • 可视为一个门控机制,学习特征维度的重要性

3.1.3. Scale(缩放)

将激励模块生成的权重乘回原始特征,实现特征重标定。

3.2. 在推荐模型中的应用

SENet是一个很方便的模块,即插即用。推荐系统中的输入通常是多个类别特征的 embedding(嵌入向量),SENet 可以作用于这些向量,对不同特征分配动态的权重。

import torch  
import torch.nn as nn  
import torch.nn.functional as F  class SEBlock(nn.Module):  def __init__(self, num_channels, reduction_ratio=4):  super(SEBlock, self).__init__()  self.avg_pool = nn.AdaptiveAvgPool1d(1)  # 对于1D特征(如嵌入向量)  self.fc = nn.Sequential(  nn.Linear(num_channels, num_channels // reduction_ratio, bias=False),  nn.ReLU(inplace=True),  nn.Linear(num_channels // reduction_ratio, num_channels, bias=False),  nn.Sigmoid()  )  def forward(self, x_input):  b, f, size = x_input.size()  y = self.avg_pool(x_input).view(b, f)  gate = self.fc(y).view(b, f, 1)  return x_input * gate

四、特征共线性无法计算重要度怎么处理?

特征共线性 指的是多个特征之间存在高度相关性,

  • 这种冗余关系会使得模型在估计每个特征贡献时,共线特征会分摊重要性,使它们看起来都不重要。
  • 但特征共线性问题其实只是对 线性模型(如线性回归、逻辑回归)会产生影响。

4.1. 降低共线性

  • 删除冗余特征
  • 主成分分析(PCA):通过 PCA 将共线特征压缩成无关主成分,再做重要性分析
  • 加入正则化

4.2. 选择对特征共线性不敏感的树模型或者其他的特征重要性检测方法

五、负样本不均衡怎么处理?负采样后怎么保证预估值正常?

在推荐系统中正负样本极度不均衡 是常见问题:

  • 正样本(如点击、购买)远少于负样本(未点击、未购买)不处理会导致模型偏向负类,召回率低;但直接负采样可能影响模型输出概率的解释性

5.1. 如何保证负采样后的预估值正常?

方法一:调整 loss 中的 sample weight

  • 给每个样本赋予一个权重,权重反映它在真实分布中的代表性
# 例如真实负样本比例为 99%,采样比例为 10%
# 则负样本需要乘以一个调整系数 alpha ≈ 99 / 10
sample_weight = np.where(y == 1, 1.0, alpha)
model.fit(X, y, sample_weight=sample_weight)

方法二:手动调整输出概率

p =* r / [* r + (1 -) * (1 - r') / (1 - r) ]
  • p̂:采样后训练输出的概率
  • r:采样前的正负样本比
  • r’:正负样本比
  • P⁺:真实正样本概率

六、199. 二叉树的右视图

在这里插入图片描述

  • 代码:这道题,会写层序遍历,那么就很简单了
class Solution:def rightSideView(self, root: Optional[TreeNode]) -> List[int]:'''层序遍历取每层的第一个'''if not root: return []res = []queue = collections.deque()queue.append(root)while queue:tmp_res = []for _ in range(len(queue)):node = queue.popleft()tmp_res.append(node.val)if node.left:queue.append(node.left)if node.right:queue.append(node.right)res.append(tmp_res[-1])return res

相关文章:

搜广推校招面经七十八

字节推荐算法 一、实习项目:多任务模型中的每个任务都是做什么?怎么确定每个loss的权重 这个根据实际情况来吧。如果实习时候用了moe,就可能被问到。 loss权重的话,直接根据任务的重要性吧。。。 二、特征重要性怎么判断的&…...

ctf.show—Web(1-10)详细通关教程

Web1-签到题 1、按F12查看元素,发现有一段被注释的字符串 2、看起来并不像flag,格式类似于Base64编码 扔到Base64在线编码平台:Base64 编码/解码 - 锤子在线工具此工具是一个 Base64 编码或解码在线工具,实现把字符串转成 Base6…...

双层Key缓存

双层 Key 缓存是一种针对 缓存击穿 和 雪崩问题 的优化方案,其核心思想是通过 主备双缓存 的机制,确保在热点数据过期时仍能提供可用服务,同时降低对数据库的瞬时压力。以下是其核心原理、实现细节及适用场景的深度解析: 一、核心…...

android编译使用共享缓存

注意 服务器端与客户端系统的版本号需为Ubuntu20.04ccache版本不能低于4.4执行用户需要为sudo权限服务器端nfs目录权限必须为nobody:nogroup 一、服务端配置: 在服务器192.168.60.142上配置 NFS 共享 1.安装 NFS 服务器: 1 sudo apt-get install nfs…...

如何使用Labelimg查看已经标注好的YOLO数据集标注情况

文章目录 1、 安装并运行Labelimg1.1、安装Labelimg1.2、运行Labelimg 2、查看数据集标注情况2.1、创建类别名称文件classes.txt2.2、使用Labelimg打开查看标注文件2.3、正式标注 3、目标检测系列文章 本文主要介绍一下如何使用LabelImg查看已经标注好的YOLO数据集标注情况&…...

Web3架构下的数据隐私与保护

在这个信息爆炸的时代,Web3的概念如同一股清流,以其去中心化的特性,为数据隐私与保护带来了新的希望。Web3,也被称作下一代互联网,它通过区块链技术实现数据的去中心化存储和处理,旨在提高数据的安全性和隐…...

PCM 参数深度解析:采样率、帧、缓存大小与多通道关系

将下面的 PCM 配置作为例子: config.channels 2; // 立体声(2 个通道) config.rate 48000; // 采样率 48000 Hz,即每秒 48000 帧 config.period_size 1024; // 每个周…...

Kafka消费者端重平衡流程

重平衡的完整流程需要消费者 端和协调者组件共同参与才能完成。我们先从消费者的视角来审视一下重平衡的流程。在消费者端,重平衡分为两个步骤:分别是加入组和等待领导者消费者(Leader Consumer)分配方案。这两个步骤分别对应两类…...

【字节跳动AI论文】海姆达尔:生成验证的测试时间扩展

摘要:人工智能系统只能在能够验证知识本身的范围内创建和维护知识。 最近关于长链推理的研究表明,LLM在解决竞争问题方面具有巨大的潜力,但它们的验证能力仍然很弱,而且没有得到充分的研究。 在本文中,我们提出了Heimd…...

【Datawhale Al春训营】气象预测(AI+航空安全)竞赛笔记

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…...

大模型应用开发实战:AI Agent与智能体开发技术解析

更多AI大模型应用开发学习内容,尽在聚客AI学院 一、AI Agent的核心概念 AI Agent(智能体)是基于大模型构建的自主任务执行系统,能够根据用户指令拆解目标、调用工具、完成复杂任务(如数据分析、自动化办公&#xff09…...

《Learning Langchain》阅读笔记3-基于 Gemini 的 Langchain如何从LLMs中获取特定格式

纯文本输出是有用的,但在某些情况下,我们需要 LLM 生成结构化输出,即以机器可读格式(如 JSON、XML 或 CSV)或甚至以编程语言(如 Python 或 JavaScript)生成的输出。当我们打算将该输出传递给其他…...

Mac mini 安装mysql数据库以及出现的一些问题的解决方案

首先先去官网安装一下mysql数据库,基本上都是傻瓜式安装的流程,我也就不详细说了。 接下来就是最新版的mysql安装的时候,他就会直接让你设置一个新的密码。 打开设置,拉到最下面就会看到一个mysql的图标: 我设置的就是…...

智能体时代的产业范式确立,中国企业以探索者姿态走出自己的路

作者 | 曾响铃 文 | 响铃说 当前,一个新的20年的产业升级期已经开启,系统性的发展路径也正在形成。 前不久,以“共建智能体时代“为主题的超聚变探索者大会2025在河南郑州举办。超聚变变数字技术有限公司(以下简称:…...

电路安全智控系统与主机安全防护系统主要功能是什么

电路安全智控系统被称为电路安全用电控制系统。电路安全智控系统具备一系列强大且实用的功能。电路安全智控系统能够对总电压、总电流、总功率、总电能,以及各分路的电压、电流、功率、电能和功率因素等进行全方位的监控。在大型工厂的电力分配中,通过对…...

MCP Server驱动传统SaaS智能化转型:从工具堆叠到AI Agent生态重构,基于2025年技术演进与产业实践

MCP Server驱动传统SaaS智能化转型:从工具堆叠到AI Agent生态重构 (基于2025年技术演进与产业实践) MCP模型上下文协议 一、技术底座革新:MCP协议重构AI时代的"数字接口" 传统SaaS软件向大模型AI应用转型的核心矛盾…...

【工具变量】地市农业播种面积及粮食产量等21个相关指标(2013-2022年)

粮食产量、粮食播种面积及农作物播种面积等,是衡量农业发展水平和粮食安全的重要指标。随着全球粮食需求的持续增长,准确掌握这些数据对制定农业政策、优化生产结构和提高农业生产效率至关重要。因此,缤本次分享数据包括《中国统计NJ》、《中…...

使用 PySpark 批量清理 Hive 表历史分区

使用 PySpark 批量清理 Hive 表历史分区 在大数据平台中,Hive 表通常采用分区方式存储数据,以提升查询效率和数据管理的灵活性。随着数据的不断积累,历史分区会越来越多,既占用存储空间,也影响元数据管理性能。因此&a…...

A. k-th equality(1700)

Problem - 1835A - Codeforces Daily_CF_Problems/daily_problems/2025/04/0417/solution/cf1835a.md at main Yawn-Sean/Daily_CF_Problems 考虑所有形式为 abc 的等式,其中 a有 A 位数, b 有 B 位数, c 有 C 位数。所有数字都是正整数,求…...

深度学习-torch,全连接神经网路

3. 数据集加载案例 通过一些数据集的加载案例,真正了解数据类及数据加载器。 3.1 加载csv数据集 代码参考如下 import torch from torch.utils.data import Dataset, DataLoader import pandas as pd ​ ​ class MyCsvDataset(Dataset):def __init__(self, fil…...

echarts饼图中心呈现一张图片,并且能动态旋转的效果react组件

实现效果&#xff1a; 父组件&#xff1a; import React from react import styles from ./style.less import GaugeChart from ./GaugeChart;export default function index() {return (<div><div className{styles.bg} ></div><div style{{ width: 500…...

使用Docker搭建开源Email服务器

使用Docker搭建开源Email服务器 1 介绍 开源的Email服务器比较多&#xff0c;例如&#xff1a;poste.io、MailCatcher、Postal、mailcow等。由于poste.io支持docker安装&#xff0c;页面比较美观&#xff0c;使用简单&#xff0c;支持SMTP IMAP POP3等协议&#xff0c;安全…...

css图片设为灰色

使用filter方式将图片设置为灰色 普通图片使用&#xff1a;filter: saturate(0); 纯白图片使用&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"width…...

2025 年第十五届 MathorCup竞赛赛题浅析-助攻快速选题

本届妈杯竞赛各赛题难度均已经达到了国赛难度&#xff0c;也更好的回应了大家更为关心的&#xff0c;在当前AI环境下&#xff0c;似乎“数学建模变成了AI使用竞赛一样”。但是国委会一直以来都是一个态度&#xff1a;AI现在是无法直接解决任何一个国赛赛题的。对应的如今这句话…...

【android bluetooth 案例分析 03】【PTS 测试 1】【pts基本介绍】

Bluetooth SIG&#xff08;Special Interest Group&#xff09;提供的 PTS&#xff08;Profile Tuning Suite&#xff09;测试 是蓝牙认证过程中一项极为关键的步骤。它主要用于验证设备是否符合 Bluetooth SIG 制定的各项 蓝牙规范&#xff08;Bluetooth Specification&#x…...

Java集合框架深度解析:HashMap、HashSet、TreeMap、TreeSet与哈希表原理详解

一、核心数据结构总览 1. 核心类继承体系 graph TDMap接口 --> HashMapMap接口 --> TreeMapSet接口 --> HashSetSet接口 --> TreeSetHashMap --> LinkedHashMapHashSet --> LinkedHashSetTreeMap --> NavigableMapTreeSet --> NavigableSet 2. 核心…...

【深度学习】张量计算:爱因斯坦求和约定|tensor系列03

博主简介&#xff1a;努力学习的22级计算机科学与技术本科生一枚&#x1f338;博主主页&#xff1a; Yaoyao2024往期回顾&#xff1a;【深度学习】详解矩阵乘法、点积&#xff0c;内积&#xff0c;外积、哈达玛积极其应用|tensor系列02每日一言&#x1f33c;: “岱宗夫如何&…...

OpenHarmony-Risc-V上运行openBLAS中的benchmark

OpenHarmony-Risc-V上运行openBLAS中的benchmark 文章目录 OpenHarmony-Risc-V上运行openBLAS中的benchmark前言一、编译openBLAS1.源码下载2.工具链下载3.编译并安装openBLAS 二、编译open BLAS中的benchmark三、上设备运行总结 前言 参考https://zhuanlan.zhihu.com/p/18825…...

CCF CSP 第36次(2024.12)(2_梦境巡查_C++)

CCF CSP 第36次&#xff08;2024.12&#xff09;&#xff08;2_梦境巡查_C&#xff09; 解题思路&#xff1a;思路一&#xff1a; 代码实现代码实现&#xff08;思路一&#xff09;&#xff1a; 时间限制&#xff1a; 1.0 秒 空间限制&#xff1a; 512 MiB 原题链接 解题思路…...

windows下安装mcp servers

以sequential-thinking为例 macos下安装就像github readme中那样安装即可&#xff1a; {"mcpServers": {"sequential-thinking": {"command": "npx","args": ["-y","modelcontextprotocol/server-sequenti…...

OpenGauss 数据库介绍

OpenGauss 数据库介绍 OpenGauss 是华为基于 PostgreSQL 开发的企业级开源关系型数据库&#xff0c;现已成为开放原子开源基金会的项目。以下是 OpenGauss 的详细介绍&#xff1a; 一 核心特性 1.1 架构设计亮点 特性说明优势多核并行NUMA感知架构充分利用现代CPU多核性能行…...

Web3区块链网络中数据隐私安全性探讨

在这个信息爆炸的时代&#xff0c;Web3 的概念如同一股清流&#xff0c;以其去中心化、透明性和安全性的特点&#xff0c;为数据隐私保护提供了新的解决方案。本文将探讨 Web3 区块链网络中数据隐私的安全性问题&#xff0c;并探索如何通过技术手段提高数据隐私的保护。 Web3 …...

linux驱动之poll

驱动中 poll 实现 在用户空间实现事件操作的一个主要实现是调用 select/poll/epoll 函数。那么在驱动中怎么来实现 poll 的底层呢&#xff1f; 其实在内核的 struct file_operations 结构体中有一个 poll 成员&#xff0c;其就是底层实现的接口函数。 驱动中 poll 函数实现原…...

【最后203篇系列】028 FastAPI的后台任务处理

说明 今天偶然在别的文章里看到这个功能&#xff0c;突然觉得正好。 CeleryWorker已经搭好了&#xff0c;但是我一直想在用户请求时进行额外的处理会比较影响处理时间&#xff0c;用这个正好可以搭配上。 我设想的一个场景&#xff1a; 1 用户发起请求2 接口中进行关键信息…...

微信小程序中,将搜索组件获取的值传递给父页面(如 index 页面)可以通过 自定义事件 或 页面引用 实现

将搜索组件获取的值传递给父页面&#xff08;如 index 页面&#xff09;可以通过 自定义事件 或 页面引用 实现 方法 1&#xff1a;自定义事件&#xff08;推荐&#xff09; 步骤 1&#xff1a;搜索组件内触发事件 在搜索组件的 JS 中&#xff0c;当获取到搜索值时&#xff0c…...

深入理解分布式缓存 以及Redis 实现缓存更新通知方案

一、分布式缓存简介 1. 什么是分布式缓存 分布式缓存&#xff1a;指将应用系统和缓存组件进行分离的缓存机制&#xff0c;这样多个应用系统就可以共享一套缓存数据了&#xff0c;它的特点是共享缓存服务和可集群部署&#xff0c;为缓存系统提供了高可用的运行环境&#xff0c…...

C#核心笔记——(六)框架基础

我们在编程时所需的许多核心功能并不是由C#语言提供的,而是由.NET Framework中的类型提供的。本节我们将介绍Framework在基础编程任务(例如虚的等值比较、顺序比较以及类型转换)中的作用。我们还会介绍Framework中的基本类型,例如String、DateTime和Enum. 本章中的绝大部分…...

C# 点击导入,将需要的参数传递到弹窗的页面

点击导入按钮&#xff0c;获取本页面的datagridview标题的结构&#xff0c;并传递到导入界面。 新增一个datatable用于存储datagridview的caption和name&#xff0c;这里用的是devexpress组件中的gridview。 DataTable dt new DataTable(); DataColumn CAPTION …...

java面向对象编程【基础篇】之基础概念

目录 &#x1f680;前言&#x1f914;面向过程VS面向对象&#x1f4af;面向过程编程&#xff08;POP&#xff09;&#x1f4af;面向对象编程&#xff08;OOP&#xff09;&#x1f4af;两者对比 &#x1f31f;三大特性&#x1f4af;封装性&#x1f4af;继承性&#x1f4af;多态性…...

Oceanbase单机版上手示例

本月初Oceanbase单机版发布&#xff0c;作为一个以分布式起家的数据库&#xff0c;原来一个集群动辄小十台机器&#xff0c;多着十几台几十台甚至更多&#xff0c;Oceanbase单机版的发布确实大大降低了硬件部署的门槛。 1.下载安装介质 https://www.oceanbase.com/softwarece…...

深度学习基础--CNN经典网络之InceptionV3详解与复现(pytorch)

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 前言 InceptionV3是InceptionV1的升级版&#xff0c;虽然加大了计算量&#xff0c;但是当时效果是比VGG效果要好的。本次任务是探究InceptionV3结构并进行复…...

VOIP通信中的错误码

cancle报文 Reason: SIP;cause200;text"Call completed elsewhere" Reason: Q.850;cause26表示取消的原因是呼叫在其他地方已经完成表示Q.850标准中的原因码26&#xff0c;通常对应于“呼叫被取消”&#xff08;Call Cancelled&#xff09;487 Request Terminated Re…...

C++ STL编程-vector概念、对象创建

vector 概念&#xff1a;是常见的一种容器&#xff0c;被称为“柔性数组”。 在vector中&#xff0c;front()是数组中的第一个元素&#xff0c;back()是数组的最后一个元素。begin()是是指向第一个元素&#xff0c;end()是指向back()的后一个元素 vector的对象创建&#xff0…...

easyexcel使用模板填充excel坑点总结

1.单层map设置值是{属性}&#xff0c;那使用两层map进行设置值&#xff0c;是不是可以使用{属性.属性}&#xff0c;以为取出map里字段只用{属性}就可以设置值&#xff0c;那再加个.就可以从里边map取出对应属性&#xff0c;没有两层map写法 填充得到的文件打开报错 was empty (…...

C#学习第16天:聊聊反射

什么是反射&#xff1f; 定义&#xff1a;反射是一种机制&#xff0c;允许程序在运行时获取关于自身的信息&#xff0c;并且可以动态调用方法、访问属性或创建实例。用途&#xff1a;常用于框架设计、工具开发、序列化、代码分析和测试等场景 反射的核心概念 1. 获取类型信息…...

【Unity】使用Cinemachine+CharacterController实现第三人称视角下的角色视角、移动和跳跃控制

1.初始配置 安装Cinemachine插件给角色添加CharacterConroller创建Cinemachine-->Free Look Camera在Free Look Camera中调整参数&#xff0c;Y Axis勾选Inver&#xff0c;X Axis取消勾选InverFree Look Camera要看向角色 跟随角色&#xff08;自行设置&#xff0c;我就不…...

如何通俗的理解transformer架构编码器和解码器干的活

我们可以用生活中的比喻来理解Transformer的编码器和解码器&#xff0c;以及解码器中两种注意力的作用&#xff1a; 一、编码器&#xff08;Encoder&#xff09;&#xff1a;理解信息的「分析师团队」 想象你要翻译一句话&#xff0c;比如把中文“今天天气很好”翻译成英文。编…...

React 受控表单绑定基础

React 中最常见的几个需求是&#xff1a; 渲染一组列表绑定点击事件表单数据与组件状态之间的绑定 受控表单绑定是理解表单交互的关键之一。 &#x1f4cd;什么是受控组件&#xff1f; 在 React 中&#xff0c;所谓“受控组件”&#xff0c;指的是表单元素&#xff08;如 &l…...

UMG:ListView

1.创建WEB_ListView,添加Border和ListView。 2.创建Object,命名为Item(数据载体&#xff0c;可以是其他类型)。新增变量name。 3.创建User Widget&#xff0c;命名为Entry(循环使用的UI载体).添加Border和Text。 4.设置Entry继承UserObjectListEntry接口。 5.Entry中对象生成时…...

实验五 内存管理实验

实验五 内存管理实验 一、实验目的 1、了解操作系统动态分区存储管理过程和方法。 2、掌握动态分区存储管理的主要数据结构--空闲表区。 3、加深理解动态分区存储管理中内存的分配和回收。 4、掌握空闲区表中空闲区3种不同放置策略的基本思想和实现过程。 5、通过模拟程…...