当前位置: 首页 > news >正文

Mergekit——任务向量合并算法Ties解析

Mergekit——高频合并算法 TIES解析

  • Ties背景
    • Ties 核心思想
    • 具体流程
    • 总结

mergekit项目地址
Mergekit提供模型合并方法可以概况为三大类:基本线性加权、基于球面插值、基于任务向量,今天我们来刷下基于任务向量的ties合并方法,熟悉原理和代码。

Ties背景

首先明确:Ties方法建立在“任务向量”的概念之上,任务向量表示参考的微调模型和基本模型之间的区别,这种方法在mergekit中非常多,Ties只是其中一种变体。
TIES-Merging ——可将多个同构不同参数的模型合并为单个多任务模型。主要解决模型合并中的两个主要挑战:

1.模型参数冗余:它识别并消除特定任务模型中的冗余参数。这是通过关注微调期间所做的更改、识别前 k% 最重要的更改并丢弃其余的来实现的。
2.参数符号之间的不一致:当不同模型对同一参数提出相反的调整时,就会出现冲突。TIES-Merging 通过创建一个统一的符号向量来解决这些冲突,该符号向量代表所有模型中最主要的变化方向。

Ties 核心思想

稀疏化密度:通过仅保留一小部分最重要的参数(密度参数)并将其余参数重置为零,减少特定于任务的模型中的冗余。
符号共识: 通过根据累积幅度的最主要方向(正或负)创建统一的符号向量,解决不同模型之间的符号冲突。
不相交合并:对与统一符号向量对齐的参数值进行平均,不包括零值。

具体表现为当多个模型进行合并时候,稀疏化密度只保留最重要的权重高化,符号共识**保留多个模型再更新方向上一致的参数。

具体流程

通过分析代码后,可以汇总为以下步骤:

  1. 计算任务向量——每个模型和base模型的差异,比较简单
   def get_task_vectors(weight_info: WeightInfo,base_model: ModelReference,tensors: ImmutableMap[ModelReference, torch.Tensor],tensor_parameters: ImmutableMap[ModelReference, ImmutableMap[str, Any]],
) -> Tuple[List[Dict[str, Any]], torch.Tensor]:keys = list(tensors.keys())base = tensors[base_model]parameter_name = weight_info.nameres = []for model in keys:if model == base_model:continuex = tensors[model].to(base.dtype)if x.shape != base.shape:if weight_info.is_embed:x = x[: base.shape[0], : base.shape[1]]logging.warning(f"Using submatrix of {model}:{parameter_name}")else:logging.warning(f"skipping {model}:{parameter_name} due to size mismatch")continuedelta = x - basedel xdel tensors[model]d = {}d["model"] = modeld["delta"] = deltafor p in tensor_parameters[model]:d[p] = tensor_parameters[model][p]res.append(d)return res, base
  1. 稀疏化权重
# sparsifyif self.method.sparsification_method:for tv_info in tvs:kwargs = {}if "gamma" in tv_info:kwargs["gamma"] = tv_info["gamma"]if "epsilon" in tv_info:kwargs["epsilon"] = tv_info["epsilon"]tv_info["delta"] = sparsify(tv_info["delta"],density=tv_info["density"],method=self.method.sparsification_method,rescale_norm=self.rescale_norm,**kwargs,)

然后,如何计算权重幅度等等,在源码中sparsify具备四种稀疏化方法:

  • magnitude: 基于权重大小的剪枝
  • random: 随机剪枝
  • magnitude_outliers: 去除极大值和极小值的剪枝
  • della_magprune: 基于概率的渐进式剪枝方法

这里我们主要说ties 基于权重幅度剪枝—— 保留绝对值最大的k个元素,k=density*总元素数,简单高效

def magnitude(tensor: torch.Tensor, density: float, rescale_norm: Optional[RescaleNorm] = None
) -> torch.Tensor:"""Masks out the smallest values, retaining a proportion of `density`."""if density >= 1:return tensork = int(density * tensor.numel())  #计算保留元素数量assert k > 0, "not gonna zero out the whole tensor buddy"mask = torch.zeros_like(tensor)w = tensor.abs().view(-1)if w.device.type == "cpu":w = w.float()topk = torch.argsort(w, descending=True)[:k]  #对绝对值进行降序排序,获取前k大值的索引mask.view(-1)[topk] = 1  #将掩码中对应top-k索引的位置设为1res = rescaled_masked_tensor(tensor, mask, rescale_norm)  #调用辅助函数应用掩码并根据需要重新缩放,保持特定的范数特性,保证输出和反向传播计算的稳定性return res

通过上述计算,可以保留所谓权重幅度最大的参数,完成稀疏化。
3. 权重应用

		deltas = torch.stack([tv["delta"] for tv in tvs], dim=0)weights = torch.tensor([tv["weight"] for tv in tvs], dtype=deltas.dtype, device=deltas.device)while len(deltas.shape) > len(weights.shape):weights.unsqueeze_(-1)weighted_deltas = deltas * weights

4.符号共识
Ties提供两种方式计算符号
”sum“: 加权,考虑参数幅度
”count“,基于符号数量统计

def get_mask(delta: torch.Tensor,method: Literal["sum", "count"] = "sum",mask_dtype: Optional[torch.dtype] = None,
):"""Returns a mask determining which delta vectors should be mergedinto the final model.For the methodology described in the TIES paper use 'sum'. For asimpler naive count of signs, use 'count'."""if mask_dtype is None:mask_dtype = delta.dtypesign = delta.sign().to(mask_dtype)  # 获取每个元素的符号(-1, 0, +1)if method == "sum":sign_weight = delta.sum(dim=0) # 沿模型维度求和majority_sign = (sign_weight >= 0).to(mask_dtype) * 2 - 1    # 转换为±1del sign_weightelif method == "count":majority_sign = (sign.sum(dim=0) >= 0).to(mask_dtype) * 2 - 1else:raise RuntimeError(f'Unimplemented mask method "{method}"')return sign == majority_sign  #生成bool mask

在Sum方法中也是ties的论文方法,考虑差异的幅度和方向:

对每个参数位置,计算所有模型差异的总和;如果总和≥0,多数符号为+1,否则为-1,这样幅度的差异大对结果影响较大;

在count方法中,对每个参数位置,统计正负号数量,正号多则多数符号为+1,否则为-1,忽略差异幅度,只考虑方向

计算更简单但可能不够精确。

  1. 合并

回到主线代码,这里我们已经拿到了掩码,可以确定哪些参数变化(deltas)应该被合并

if self.method.consensus_method:mask_dtype = torch.int8 if self.int8_mask else base.dtypemask = get_mask(weighted_deltas,method=self.method.consensus_method,mask_dtype=mask_dtype,) #拿到mask后mixed_delta = (weighted_deltas * mask).sum(dim=0) #直接对所有加权deltas求和divisor = (weights * mask).sum(dim=0) #计算有效权重的和(用于归一化)divisor[divisor == 0] = 1else:mixed_delta = weighted_deltas.sum(dim=0) #只保留被掩码选中的deltas并求和divisor = weights.sum(dim=0)divisor[divisor.abs() < 1e-8] = 1if self.normalize:  # 归一化mixed_delta /= divisor if self.lambda_ != 1: #系数缩放mixed_delta *= self.lambda_return (base + mixed_delta).to(base.dtype) 合并

总结

Mergekit ties的配置参考

models:- model: psmathur/orca_mini_v3_13b        #参考模型1parameters:density: [1, 0.7, 0.1] # density gradient   这是稀疏化的密度列表 对应不同层的稀疏化成都weight: 1.0                                #权重值- model: garage-bAInd/Platypus2-13B         #参考模型2 其余同上parameters:density: 0.5                           weight: [0, 0.3, 0.7, 1] # weight gradient- model: WizardLM/WizardMath-13B-V1.0       #参考模型3 其余同上parameters:density: 0.33weight:- filter: mlp  #对于MLP是取0.5 其他层是0value: 0.5- value: 0
merge_method: ties
base_model: TheBloke/Llama-2-13B-fp16      #选择这个模型作为基础模型
parameters:normalize: trueint8_mask: true
dtype: float16

这里当参数为List时候,Mergekit会进行映射到不同层,在处理每个参数时候根据位置选择List中的密度或者权重值,保留嵌入层 、中间层、末尾层对应不同密度稀疏,考虑使用线性插值来计算中间层的密度。

相关文章:

Mergekit——任务向量合并算法Ties解析

Mergekit——高频合并算法 TIES解析 Ties背景Ties 核心思想具体流程总结 mergekit项目地址 Mergekit提供模型合并方法可以概况为三大类&#xff1a;基本线性加权、基于球面插值、基于任务向量&#xff0c;今天我们来刷下基于任务向量的ties合并方法&#xff0c;熟悉原理和代码。…...

初识 Redis

什么是 Redis&#xff1f; 在 Redis 官网中有介绍&#xff0c; Redis 就是一个存储空间&#xff0c;只不过这个存储空间是在内存上的&#xff0c;这也就代表存储在 Redis 中的数据访问起来会非常快&#xff0c;但也会有一个弊端&#xff0c;也就是内存资源是非常少的&#xff…...

python打卡训练营打卡记录day30

一、导入官方库 我们复盘下学习python的逻辑&#xff0c;所谓学习python就是学习python常见的基础语法学习你所处理任务需要用到的第三方库。 1.1标准导入&#xff1a;导入整个库 这是最基本也是最常见的导入方式&#xff0c;直接使用import语句。 # 方式1&#xff1a;导入整…...

FART 主动调用组件设计和源码分析

版权归作者所有&#xff0c;如有转发&#xff0c;请注明文章出处&#xff1a;https://cyrus-studio.github.io/blog/ 现有脱壳方法存在的问题 脱壳粒度集中在 DexFile 整体&#xff0c;当前对 apk 保护的粒度在函数粒度&#xff0c;这就导致了脱壳与加固的不对等&#xff0c;无…...

windows使用ollama部署deepseek及qwen

ollama 参考文档 ollama 官方文档 GitHub仓库 基础环境&#xff1a; NVIDIA 1660TI 6G 下载 ollma是一款开源工具&#xff0c;支持在本地计算机&#xff08;无需联网&#xff09;快速部署和运行大型语言模型&#xff08;LLM&#xff09;&#xff0c;如 LLaMA、Mistral、G…...

【11408学习记录】考研英语辞职信写作三步法:真题精讲+妙句活用+范文模板

应聘信 英语写作2005年考研英语真题小作文写作思路第一段第二段妙句7 9妙句11补充3补充4 第三段 妙句成文 每日一句词汇第一步&#xff1a;找谓语第二步&#xff1a;断句第三步&#xff1a;简化主句原因状语从句 英语 写作 2005年考研英语真题小作文 Directions:​​ Two m…...

湖北理元理律师事务所:债务优化如何实现“减负不降质”?

债务压力下&#xff0c;如何在保障基本生活品质的同时科学规划还款&#xff0c;是许多债务人面临的现实难题。湖北理元理律师事务所通过多年实务经验&#xff0c;总结出一套“法律财务心理”的复合型解决方案。本文基于公开案例与法律框架&#xff0c;解析其服务逻辑中的可借鉴…...

python fastapi + react, 写一个图片 app

1. 起因&#xff0c; 目的: 上厕所的时候&#xff0c;想用手机查看电脑上的图片&#xff0c;但是又不想点击下载。此app 应运而生。 2. 先看效果 单击图片&#xff0c;能放大图片 3. 过程: 过程很枯燥。有时候&#xff0c; 有一堆新的想法。 但是做起来太麻烦&#xff0c;…...

Golang的Web应用架构设计

# Golang的Web应用架构设计 介绍 是一种快速、高效、可靠的编程语言&#xff0c;它在Web应用开发中越来越受欢迎。Golang的Web应用架构设计通常包括前端、后端和数据库三个部分。在本篇文章中&#xff0c;我们将详细介绍Golang的Web应用架构设计及其组成部分。 前端 在Golang的…...

软件设计师“UML”真题考点分析——求三连

一、考点分值占比与趋势分析 综合知识题分值统计表 年份考题数量分值分值占比考察重点2018222.67%类图关系、序列图消息流2019334.00%对象图特征、部署图辨析2020222.67%组件图特性、泛化关系2021334.00%聚合/组合区别、交互图应用2022222.67%用例图参与者、状态图转换202344…...

Nginx端口telnet不通排查指南

nginx已经配置server及端口20002&#xff0c;telnet不通&#xff1a;telnet 127.0.0.1 20002 Trying 127.0.0.1... telnet: connect to address 127.0.0.1: Connection refused 一、检查 systemctl status nginx.service nginx: [emerg] bind() to 0.0.0.0:20002 failed (13…...

C++ 函数对象、仿函数与 Lambda 表达式详解

C 函数对象、仿函数与 Lambda 表达式详解 在 C 中&#xff0c;函数对象&#xff08;Function Object&#xff09;、仿函数&#xff08;Functor&#xff09; 和 Lambda 表达式 是三种实现可调用行为的技术&#xff0c;它们在功能上类似&#xff0c;但语法和适用场景有所不同。 …...

More Effective C++:改善编程与设计(下)

目录 条款19:了解临时对象的来源 条款20:协助完成“返回值优化” 条款21:利用重载技术避免隐式类型转换 条款22:考虑以操作符复合形式&#xff08;op&#xff09;取代其独身形式&#xff08;op&#xff09; 条款23:考虑使用其他程序库 条款24:了解virtual functions、mul…...

C++:判断闰年

【描述】 判断某年是否是闰年。 【输入】 输入只有一行&#xff0c;包含一个整数a(0 < a < 3000) 【输出】 一行&#xff0c;如果公元a年是闰年输出Y&#xff0c;否则输出N 【样例输入】 2006 【样例输出】 N 【提示】 公历纪年法中&#xff0c;能被4整除的大多是闰年&am…...

C+++STL(一)

/ 文章目录 模版C作为静态类型语言宏可以摆脱数据类型的限制利用宏构建通用函数框架 函数模版函数模版的定义函数模版的使用函数模版的分析实例化函数模版的条件 函数模版扩展二次编译隐式推断类型实参函数模版的重载 bilibili 学习网址&#xff1a;https://www.bilibili.com/…...

C 语言学习笔记(函数2)

内容提要 函数 函数的调用函数的声明函数的嵌套关系函数的递归调用数组做函数参数 函数 函数的调用 调用方式 ①函数语句&#xff1a; test (); //对于无返回值的函数&#xff0c;直接调用 int res max(2,4); //对于有返回值的函数&#xff0c;一般需要在主调函…...

Spring的后置处理器是干什么用的?扩展点又是什么?

Spring 的后置处理器和扩展点是其框架设计的核心机制&#xff0c;它们为开发者提供了灵活的扩展能力&#xff0c;允许在 Bean 的生命周期和容器初始化过程中注入自定义逻辑。 1. 后置处理器&#xff08;Post Processors&#xff09; 后置处理器是 Spring 中用于干预 Bean 生命…...

Java大数据机器学习模型在金融衍生品风险建模中的创新实践

摘要 本文深入探讨Java技术栈在大数据与机器学习领域的独特优势&#xff0c;及其在金融衍生品风险建模中的突破性应用。通过分析分布式计算框架与机器学习库的整合方案&#xff0c;揭示Java在构建复杂金融风险模型时的技术可行性。结合信用违约互换&#xff08;CDS&#xff09…...

leetcode3403. 从盒子中找出字典序最大的字符串 I-medium

1 题目&#xff1a;从盒子中找出字典序最大的字符串 I 官方标定难度&#xff1a; 给你一个字符串 word 和一个整数 numFriends。 Alice 正在为她的 numFriends 位朋友组织一个游戏。游戏分为多个回合&#xff0c;在每一回合中&#xff1a; word 被分割成 numFriends 个 非空…...

Effective C++阅读笔记(item 1-4)

文章目录 理解模板类型推导理解auto类型推导理解decltype学会查看类型推导结果 理解模板类型推导 c的auto特性是建立在模板类型推到的基础上。坏消息是当模板类型推导规则应用于auto环境时&#xff0c;有时不如应用于template时那么直观。我们可能很自然的期望T和传递进函数的…...

python自学笔记4 控制结构

条件语句 略 循环语句 略 range函数 enumerate() 函数 可以将一个可迭代对象转换为一个由索引和元素组成的枚举对象。 索引的起始编号是0&#xff0c;也可以传入第二参数来指定其起始编号 zip函数 打包范围以两者最短的长度为准 以两者较长的长度为准的函数为itertool…...

VTK|显示三维图像的二维切片

参考&#xff1a; VTK显示三维图像的二维切片 文章目录 实现类头文件实现类源文件如何调用项目git链接 以中心点坐标横切面 实现类头文件 /*** file MeshSliceController.h* brief 该头文件定义了 MeshSliceController 类&#xff0c;用于显示切面图。* details 该类负责处理与…...

day 30

模块和库的导入 导入官方库 标准导入&#xff1a;导入整个库 直接使用import语句 # 方式1&#xff1a;导入整个模块 import mathprint("方式1&#xff1a;使用 import math") print(f"圆周率π的值&#xff1a;{math.pi}") print(f"2的平方根&#xf…...

Linux云计算训练营笔记day11【Linux CentOS7(cat、less、head、tail、lscpu、lsblk、hostname、vim、which、mount、alias)】

Linux云计算 云计算是一种服务&#xff0c;是通过互联网按需提供计算资源的服务模式 程序员写代码的&#xff0c;部署上线项目 买服务器(一台24小时不关机的电脑&#xff0c;为客户端提供服务) 20万 买更多的服务器 Linux(命令) windows(图形化) 就业岗位: 云计算工程师 li…...

使用Python和FastAPI构建网站爬虫:Oncolo医疗文章抓取实战

使用Python和FastAPI构建网站爬虫&#xff1a;Oncolo医疗文章抓取实战 前言项目概述技术栈代码分析1. 导入必要的库2. 初始化FastAPI应用3. 定义请求模型4. 核心爬虫功能4.1 URL验证和准备4.2 设置HTTP请求4.3 发送请求和解析HTML4.4 提取文章内容4.5 保存结果和返回数据 5. AP…...

光纤克尔非线性效应及其在光通信系统中的补偿教程-3.2 克尔效应

需要结合上一期的文章&#xff0c;光纤克尔非线性效应及其在光通信系统中的补偿教程-3.1 非线性极化性 光纤中的非线性效应源于三阶感性 χ ( 3 ) \chi^{(3)} χ(3)。 光纤中非线性效应的主要来源之一是由 χ ( 3 ) \chi^{(3)} χ(3)引起的非线性折射&#xff0c;即克尔效应&a…...

【Tools】VMware Workstation 17.6 Pro安装教程

00. 目录 文章目录 00. 目录01. VMware Workstation 17.6简介02. VMware Workstation 17.6新功能03. VMware Workstation 17.6特性04. VMware Workstation 17.6下载05. VMware Workstation 17.6安装06. VMware Fusion 和 Workstation免费07. 附录 01. VMware Workstation 17.6简…...

Unity10分钟回顾指南

&#x1f3ae; Unity10分钟回顾指南 欢迎踏上Unity场景创作之旅&#xff01;本教程将带你从零开始&#xff0c;循序渐进地掌握Unity场景制作的全部技能。无论你是游戏开发爱好者还是专业开发者&#xff0c;这份指南都将成为你的得力助手。 第一章&#xff1a;Unity基础认知 1.…...

SeleniumBase - 多合一浏览器自动化框架

手动编写Selenium脚本&#xff0c;繁琐且常遇“掉坑”&#xff1f;SeleniumBase来救场&#xff01;这款基于Selenium的Python框架集测试、爬虫、RPA于一体&#xff0c;支持多浏览器、并行测试、CAPTCHA绕过和智能等待&#xff0c;堪称Web自动化的“瑞士军刀”。不少行业大佬盛赞…...

【人工智能导论】第2.3章知识表示、确定性推理

1、李明的父亲是教师&#xff0c;用谓词逻辑可以表示为Teacher&#xff08;father&#xff08;Liming&#xff09;&#xff09;这里father&#xff08;Liming&#xff09;是&#xff08; &#xff09; A、常量 LIMING B、变元 X未知的可取多个值的对象 C、函数 X的父亲 D、一元…...

【QT】一个界面中嵌入其它界面(一)

在 Qt 中嵌入其他界面通常可以通过以下几种方式实现。以下是详细的步骤说明和示例代码&#xff1a; 方法 1&#xff1a;直接通过布局嵌入子部件 如果目标界面是 QWidget 的子类&#xff0c;可以直接将其添加到父窗口的布局中。 步骤&#xff1a; 创建子界面类&#xff1a; //…...

[学习]POSIX消息队列的原理与案例分析(完整示例代码)

POSIX消息队列的原理与案例分析 文章目录 POSIX消息队列的原理与案例分析摘要关键词一、引言1.1 研究背景与意义1.2 国内外研究现状1.3 研究内容与方法 二、POSIX消息队列的基本原理2.1 消息队列概述2.2 POSIX消息队列的特性2.2 POSIX消息队列的特性2.3 POSIX消息队列的内部机制…...

IDC数据中心动力环境监控系统解决方案

文档围绕 IDC 数据中心动力环境监控系统解决方案展开,先介绍数据中心分级,包括国家规范的 A/B/C 级和美国 TIA-942 标准的 Tier1-Tier4 级,强调动环监控对数据中心的重要性。接着阐述系统架构,涵盖底端设备层、采集层、接入层、服务层、应用层,具备数据采集、分析、可视化…...

WebSphere Application Server(WAS)8.5.5教程第五讲

续前篇&#xff01; 一、Web 应用部署与类加载策略 Web 应用部署与类加载策略是 WebSphere Application Server&#xff08;WAS&#xff09;日常管理的核心部分&#xff0c;尤其对运行大型企业级 Java 应用&#xff08;如 BAW&#xff09;非常关键。本讲将分两部分讲解&#…...

Golang中的runtime.LockOSThread 和 runtime.UnlockOSThread

在runtime中有runtime.LockOSThread 和 runtime.UnlockOSThread 两个函数&#xff0c;这两个函数有什么作用呢&#xff1f;我们看一下标准库中对它们的解释。 runtime.LockOSThread // LockOSThread wires the calling goroutine to its current operating system thread. // T…...

计算圆周率 (python)

使用模特卡罗方法&#xff08;模拟法&#xff09;&#xff0c;模拟撒点100000次&#xff0c;计算圆周率π 输入格式: 一个整数&#xff0c;表示随机数种子 输出格式: 计算的π值&#xff0c;结果小数点后保留5位数字 输入样例: 在这里给出一组输入。例如&#xff1a; 10…...

机器学习EM算法原理及推导

在机器学习与统计推断中&#xff0c;我们经常会遇到“缺失数据”或“潜在变量”&#xff08;latent variables&#xff09;的情形&#xff1a;样本并非完全可观测&#xff0c;而部分信息被隐藏或丢失。这种情况下&#xff0c;直接对观测数据做极大似然估计&#xff08;Maximum …...

Linux项目部署全攻略:从环境搭建到前后端部署实战

Linux项目部署全攻略&#xff1a;从环境搭建到前后端部署实战 注&#xff1a;根据黑马程序员javawebAI视频课程总结&#xff1a; 视频地址 详细讲义地址 一、Linux基础入门&#xff1a;为什么选择Linux&#xff1f; 要成为一名Java开发工程师&#xff0c;掌握Linux是企业级…...

人工智能重塑医疗健康:从辅助诊断到个性化治疗的全方位变革

人工智能正在以前所未有的速度改变着医疗健康领域&#xff0c;从影像诊断到药物研发&#xff0c;从医院管理到远程医疗&#xff0c;AI 技术已渗透到医疗服务的各个环节。本文将深入探讨人工智能如何赋能医疗健康产业&#xff0c;分析其在医学影像、临床决策、药物研发、个性化医…...

ubuntu系统 | dify+ollama+deepseek搭建本地应用

1、安装 Ollama 下载并安装 Ollama (llm) wangqiangwangqiang:~$ curl -fsSL https://ollama.ai/install.sh | bash >>> Installing ollama to /usr/local >>> Downloading Linux amd64 bundle0.3% curl -fsSL https://ollama.ai/install.sh &#xff08;下…...

NHANES最新指标推荐:C-DII

文章题目&#xff1a;Non-linear relationship between the childrens dietary inflammatory index and asthma risk: identifying a critical inflection point in US children and adolescents DOI&#xff1a;10.3389/fnut.2025.1538378 中文标题&#xff1a;儿童饮食炎症指…...

【PhysUnits】4.4 零类型(Z0)及其算术运算(zero.rs)

一、源码 该代码定义了一个类型系统中的零类型Z0&#xff0c;并为其实现了基本的算术运算&#xff08;加法、减法、乘法、除法&#xff09;。这是一个典型的类型级编程示例&#xff0c;使用Rust的类型系统在编译期进行数学运算。 //! 零类型(Z0)及其算术运算实现 //! //! 本…...

【大模型面试每日一题】Day 23:如何设计一个支持多模态(文本+图像)的大模型架构?

【大模型面试每日一题】Day 23&#xff1a;如何设计一个支持多模态&#xff08;文本图像&#xff09;的大模型架构&#xff1f; &#x1f4cc; 题目重现 &#x1f31f;&#x1f31f;&#x1f31f; 面试官&#xff1a;我们需要构建一个同时处理文本和图像的多模态大模型&#…...

BUUCTF PWN刷题笔记(持续更新!!)

ciscn_2019_c_1 64位&#xff0c;没有开启保护。点进去没发现明显的漏洞函数&#xff0c;考虑泄露libc基地址的rop构造。先看看有多少gadget 估计也够用了。puts函数只接受一个参数&#xff0c;观看汇编看看用的哪个寄存器传输的参数。 用的是edi。但是我们怎么找到so的版本呢…...

Tare使用MCP|Win11安装UV

servers/src/git at main modelcontextprotocol/servers GitHub 进入Installation | uv 打开powershell 运行 &#xff08;如果要删除 文章中也有删除的链接&#xff09; powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" …...

小白的进阶之路-人工智能从初步到精通pytorch的基本流程详解-1

Pytorch大致流程一览表: 主题内容1 准备数据数据几乎可以是任何东西,但在开始之前,我们将创建一条简单的直线2 建立模型在这里,我们将创建一个模型来学习数据中的模式,我们还将选择损失函数,优化器并构建一个训练循环。3 拟合模型我们已经有了数据和模型,现在让模型尝试…...

linux kernel 编译

1. 获取内核源码 从官方仓库获取: 访问kernel.org下载所需版本的Linux内核源码压缩包(如linux-x.y.z.tar.xz)。或者使用Git克隆特定版本: bash git clone git://git.kernel.org/pub/scm/linux/kernel/git/stable/linux-stable.gitcd linux-stablegit checkout vX.Y.Z # 切…...

【氮化镓】偏置对GaN HEMT 单粒子效应的影响

2025年5月19日,西安电子科技大学的Ling Lv等人在《IEEE Transactions on Electron Devices》期刊发表了题为《Single-Event Effects of AlGaN/GaN HEMTs Under Different Biases》的文章,基于实验和TCAD仿真模拟方法,研究了单粒子效应对关断状态、半开启状态和开启状态下AlG…...

Assistants API

一、前言 0.1、从轰动一时的 OpenAI DevDay 说起 2023 年 11 月 6 日,OpenAI DevDay 发表了一系列新能力,其中包括:GPT Store 和 Assistants API 这一波操作一度被认为是创业公司终结者 0.2、GPTs 和 Assistants API 本质是降低开发门槛 可操控性和易用性之间的权衡与折中…...

AcWing 223. 阿九大战朱最学——扩展欧几里得算法

题目来源 223. 阿九大战朱最学 - AcWing题库 题目描述 自从朱最学搞定了 QQ 农场以后&#xff0c;就开始捉摸去 QQ 牧场干些事业&#xff0c;不仅在自己的牧场养牛&#xff0c;还到阿九的牧场放牛&#xff01; 阿九很生气&#xff0c;有一次朱最学想知道阿九牧场奶牛的数量…...