当前位置: 首页 > news >正文

LLM大模型:Qwen3-Next-80B中的next究竟是个啥?

   1、近期,国内LLM头号玩家阿里发布了Qwen3-Next-80B模型,但从名字上看就和其之前发布的模型不同:多了next!这就奇怪了:为啥会多出一个next?这个next究竟是啥意思了?

   2、自从3年前 chatGPT 3.5发布后,AI又开始大火,就是因为效果比传统的机器学习好10倍!效果为啥好了,核心还是attention机制!NLP任务中,有一个非常大的挑战:遇到长文本,这些文本包含了多个不同的语义,怎么合理地提炼这些文本的语义了?比如:

  “虽说今天台风天,暴雨倾盆、电闪雷鸣,街边的车都被淹了, 但我是底层牛马,兜里的子比脸都干净, 所以这个逼班还是要去上的!上班途中我心情不好,在街边买了个包子就当早饭了。到公司后因为昨天的方案不被领导看好,被老板一顿劈头盖脸地骂了一上午,现在心情更不好了,┭┮﹏┭┮ ”

        上面这段话,表达了3个主题,做NLP时是肯定要准确识别的!传统的NLP方案,在遇到长文本时,处理后面的文本会遗忘前面文本的信息,导致主题、语义等提取不全面,严重影响了文本的语义理解!但是在集成attention机制后,这一切都变了:attention机制计算token之间的相似度来决定前面token value信息的保留程度,语义相近的多保留,远的少保留,极大地解决了处理长文本时前面文本信息被部分遗忘的问题,让chatGPT一战成名!但万事有利就有弊,trade off肯定是有的:attention机制的time & space complex是出了名的:o(n^2)! 怎么降低attention的消耗了? 

   3、为了解决标准attention机制复杂度高的问题,manba诞生了:用线性的 SSM 替换 Transformer 的attention层,用状态方程SSM累积整个seq的信息,通过selective scan动态调整参数 A, B, C,实现硬件友好的并行计算,复杂度降低至O(n)! 既然mamba都这么牛了,那Qwen3-Next-80B是不是直接用mamba架构不就得了,还用标准的attention干啥了?说到底,manba也不是万能的,mamba也有缺陷:

  • 长距离回忆(long-range recall)弱:Mamba 的状态更新是“前向累积”的,像一个“压缩记忆”,容易丢失早期细节。在 Needle-in-Haystack(长文找针)或 in-context learning 任务上,纯 Mamba 模型的准确率下降 10-20%,因为它不像attention那样能“全局加权”所有位置。
  • 训练稳定性差:SSM 的连续动态系统在并行训练时需特殊技巧(如并行扫描算法),但在大规模语言建模(LLM)上,梯度爆炸/消失更常见。量化(e.g., GGUF)时,Mamba 性能损失大(保留率 < Transformer 的 80%),不适合生产部署。
  • 任务通用性不足:Mamba 擅长序列(如 DNA/时间序列),但在多模态或复杂推理任务上,Transformer 的“dural/global” attention更强。纯 Mamba LLM(如 Mamba-LLM)在基准(如 GLUE)上落后 5-10 分。

  mamba的优势是线性复杂度,缺点是seq长了会导致旧信息可能被“淡化”或“遗忘 / 重叠” (memory saturation / collision) 。也就是说,它在SSM容量固定时,对“忘记”和“保留”的权衡还不够灵活

  既然mamba的SSM和标准的attention各自都有优势和缺陷,能不能中和一下、各取所长

  4、Qwen3-Next-80B的架构诞生了:标准attention能很好地根据语义保留长seq的早起token信息,但复杂度高!mamba的SSM线性,但可能丢失早期token的语义信息,两者兼得一下行不行了?如下:

  image

    这个架构一共有4层,第一层是标注你的attention层,用来精准保留长seq的语义信息;后面三层就不一样了, 变成了Gated Delta Rule,这又是个啥?

  5、先看简单的:scaled dot product attention中,旋转位置编码变成了partial Rope,归一化变成了Zero-Centered RMSNorm,这两个变化都是啥?

  •  partial Rope:传统的position embedding是给token的每个维度都加上,这么做有两个缺陷:
    • 计算量大,尤其是几千维度的情况
    • 超长上下文(如 256K~1M tokens)下,position embedding的误差会被accumulate累积,出现过度震荡或失效问题

  所以这里改进了一下,只给25%的维度添加position embedding,剩余75%的就不加了,让这些维度专注于学习语义信息

  • zero-centered RMSNorm:
    • 标准 RMSNorm 只进行 RMS 缩放而不中心化,可能导致梯度不稳定或范数漂移(如注意力沉没问题) 

    • 先从输入中减去均值,使数据中心化(centered around zero),然后再应用 RMS 归一化(缩小数值的整体范围,避免梯度过大或不稳定)。同时,还对归一化层的权重施加权重衰减(weight decay),缓解了 MoE(Mixture of Experts)架构中常见的梯度爆炸或不稳定问题(如输出门控和注意力块中的漂移),从而提升整体模型的鲁棒性和收敛速度
  • output gate:
    • attention后输出的矩阵是低秩的,换句话说有很多信息是冗余的,此时加个output gate做筛选,去掉冗余的信息,减少后续的干扰!

  6、最关键的来了:什么是gated delta rule?

  • Gated:门的作用就是过滤,去掉冗余的,只保留正确和需要的
  • delta: 数学符号就代表了增量的意思,表示新增的信息或知识

  这两个数学符号连起来代表的就是过滤新增数据,保留有用的信息!什么意思了?比如:“The password is X123. The meeting is tomorrow.” , 模型的目标是记住 “X123”,意味着其他token都不重要,只需要记住目标token的语义信息就行了,最终在整个seq的最后一个token只保留 “X123”的embedding信息即可!但传统的方法序列方案(包括mamba)

  • 使用一个统一的衰减因子 γ 来对所有历史信息进行指数衰减。这意味着无论新信息有多重要,它都只能“部分覆盖”过去的所有内容。
  • 如果 γ 很小,模型会保留太多无关信息,导致“记忆碰撞”;如果 γ 很大,模型又可能过早忘记重要的信息。它无法区分“X123”和“tomorrow”的重要性。

    不难看出,问题的根因在γ了:这是事先设置好的超参数,无法动态调整;理想情况下:γ是动态调整的。如果发现token很重要,γ较大,能尽量多保留信息,这该怎么做了?

  换个角度看这个问题:线性Transformer的一个根本限制是其信息存储容量是有限的,因为它将整个seq所有的token信息编码后存入一个固定维度的vector S_t。当seq很长时,多个不同的信息会“挤”在这个vector里,就像把很多东西塞进一个抽屉,最后你再也分不清哪个是哪个了。怎么精准地识别哪些token的信息要保留,哪些要去掉了Gated Delta Rule 孕育而生了:

  重新举个例子:“我的生日是1月1日,现在我们来讨论量子物理。”  

  • 公式:S_t = g_t * S_{t-1} + δ_t * v_t
    • g_t 是一个数据依赖的门控因子(gating term),也是一个介于0和1之间的标量,由当前输入 x_t 计算得出。
  • 工作原理:
    1. 快速清除:当遇到一个需要“重置”的上下文切换(如上面的“量子物理”)时,模型可以学习到产生一个极小的 g_t(接近0)。这样,无论之前的 S_{t-1} 里存了多少东西,都会被 g_t * S_{t-1} 这一项瞬间抹除。
    2. 精准更新:紧接着,在同一个时间步,模型会同时计算出一个大的 δ_t。由于 g_t 已经清空了旧状态,δ_t * v_t 就相当于在一个干净的画布上,精确地写入了关于“量子物理”的新信息。
  • 总结:Gated Delta Rule 将两种互补的操作完美结合:
    • g_t 负责 “擦除”(Memory Erasure)—— 快速、全局地清理无关记忆。
    • δ_t 负责 “书写”(Memory Update)—— 精确、局部地更新相关记忆。

  新的问题又来了:g_t和δ_t是怎么灵活计算出来的?

  7、g_t (Gating Term) 的原理:快速清除旧记忆

  • 目标:g_t 的唯一使命是决定是否以及多大程度上遗忘过去的所有状态信息。既然是动态计算获取的,又是在model中,肯定要靠神经网络了实时计算得到了!
  • 计算方式:g_t 是通过一个门控函数(通常是 Sigmoid 函数)从当前输入 x_t 中计算得出的。
    • 具体公式在论文中体现为:g_t = σ(W_g * x_t) (其中 σ 是 Sigmoid 函数,W_g 是一个可学习的权重矩阵)。

  8、δ_t (Delta Rule Coefficient) 的原理:精确更新特定关联
  • 目标:δ_t 的使命是决定新输入 v_t 应该以多大的强度去覆盖或修改旧状态中与之对应的“键值对”。
  • 计算方式:δ_t 的计算同样基于 x_t,但其结构和目的与 g_t 不同。在 DeltaNet 和 Gated DeltaNet 中,δ_t 通常与“键”(Key)的计算紧密相关。
    • 在线性注意力的框架下,模型将输入 x_t 映射为一个key向量 k_t 和一个value向量 v_t
    • δ_t 本质上是这个key向量 k_t 的一个归一化后的幅度(magnitude)或激活强度。更准确地说,它是通过一个非线性变换(如 SiLU 激活函数)作用于 k_t 后得到的一个标量。
    • 简化理解:δ_t = φ(k_t),其中 φ 是一个激活函数(如 SiLU),它将高维的键向量 k_t 压缩成一个控制更新强度的标量。

  9、原论文中,哪些token的 δ_t较低、携带的信息可以去掉?普通、高频、语义上模糊或对长期记忆贡献微小的词。它们的 k_t 向量幅度很小,因此 δ_t 接近 0,几乎不会对记忆状态产生影响。

  • 例子:
    • 冠词:如 "the", "a", "an"
    • 介词:如 "of", "in", "on"
    • 连词:如 "and", "but", "or" (这些连接词的entropy可能高)
    • 非常常见的副词或形容词:如 "very", "really", "good", "bad"

  δ_t高的有:人名、地名、国名、数字、技术名称等

 

 

参考:

1、https://ar5iv.labs.arxiv.org/html/2412.06464  Gated Delta Networks: Improving Mamba2 with Delta Rule    

      https://github.com/NVlabs/GatedDeltaNet

2、https://www.bilibili.com/video/BV1k9pqznEEz?spm_id_from=333.788.player.switch&vd_source=241a5bcb1c13e6828e519dd1f78f35b2   线性注意力革命,下一代Attention模型已来!

3、https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct   

相关文章:

LLM大模型:Qwen3-Next-80B中的next究竟是个啥?

1、近期,国内LLM头号玩家阿里发布了Qwen3-Next-80B模型,但从名字上看就和其之前发布的模型不同:多了next!这就奇怪了:为啥会多出一个next?这个next究竟是啥意思了?2、自从3年前 chatGPT 3.5发布后,AI又开始大火,就是因为效果比传统的机器学习好10倍!效果为啥好了,核…...

中了勒索病毒 peng

中了勒索病毒 peng一,中招 早上一上班,看到电脑屏幕显示这样的壁纸。 居然中招了?不敢相信。 我发现自己的网盘里的所有文件,都被加密并改名,形如 aaaa.jpg.[[VlDy9dk2RaQ1F]].[[Ruiz@firemail.cc]].peng 而且这些文件,都已同步到了网盘,通过手机app访问,也只能看到这些…...

在 WSL 中通过 Bash 函数快速转换 Windows 路径为 Ansible/WSL 路径 - 教程

在 WSL 中通过 Bash 函数快速转换 Windows 路径为 Ansible/WSL 路径 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Cour…...

金融租赁公司厂商租赁业务调研报告

厂商租赁金融租赁公司厂商租赁业务调研报告 报告摘要 本报告旨在全面、深入地分析中国金融租赁公司(下称“金租公司”)厂商租赁业务的现状、模式、市场环境、监管动态、数字化转型路径及绩效评估体系。截至2025年,厂商租赁作为一种深度绑定产业的业务模式,正日益成为金租公…...

普科科技PKC7030H交直流电流探头应用指南​​

普科PKC7030H探头支持DC-120MHz带宽、1%精度,30A连续电流测量,适用于高频大电流交直流混合信号测试。在现代电力电子、新能源及高速数字系统的设计与调试中,对复杂电流波形的精准测量是分析效率、优化性能与保障可靠性的基石。​​普科科技(PRBTEK)PKC7030H高频交直流电流…...

从“分散”到“统一”,中控技术利用SeaTunnel构建高效数据采集框架,核心数据同步任务0故障运行!

本文将深入探讨中控技术基于 Apache SeaTunnel 构建企业级数据采集框架的实践,重点分享集群高可用配置、性能调优、容错机制及数据质量监控等方面的具体思考与方案。作者 | 崔俊乐引言:对企业而言,数据采集的核心挑战从来不仅仅是“同步”,而是如何在大规模、多元异构的复杂…...

再见 Cursor,Qoder 真香!这波要改写 AI 编程格局

如果把未来 AI 编程工具的核心竞争力用一句话总结,那就是:能不能让开发者在透明化的协作中,信任它、依赖它,并且和它一起把项目养大。作者:loonggg 真心建议大家去使用一下这段时间最新推出的一款 AI 编程工具:Qoder 。 真的是太好用了,一点也不比 Cursor 差。 为什么这…...

T/B cell subtype marker - un

B cell ref: https://www.abcam.cn/primary-antibodies/b-cells-basic-immunophenotypingT cell ref: https://www.abcam.cn/primary-antibodies/t-cells-basic-immunophenotyping作者:un-define出处:https://www.cnblogs.com/mmtinfo/p/19099331本文版权归作者和博客园共有,…...

SAP FICO 完全凭证替代

GGB1 这个参数是获取所有行项目的关键USING bool_data TYPE gb002_015*&---------------------------------------------------------------------* *& Form u902 *&---------------------------------------------------------------------* * text *…...

K8s Application模式下的flink任务执行精要

本文分享自天翼云开发者社区《K8s Application模式下的flink任务执行精要》,作者:l****n 构键k8s集群在这里,我们需要搭建一个K8S环境用于提供flink任务的运行时环境。在这里推荐使用kubeadm或者一些脚本工具搭建,可参考本自动k8s脚本工具。具体过程在这里省略,可以参考上…...

从0打造一个TTS语音合成引擎:原理与实现

语音合成技术(Text-to-Speech, TTS)近年来发展迅猛,从早期机械感十足的合成音到如今几乎可以以假乱真的人声,背后是深度学习技术的巨大进步。本文将带你了解现代语音合成的基本原理,并尝试用Python实现一个简易版的TTS系统。 语音合成技术演进图1:语音合成技术发展历程,…...

莫队

Argvchs 说我不会根号算法,把之前的博客搬过来,然后再补点东西。 一种离线算法,可以用 \(O(n\sqrt n)\) 的复杂度处理区间查询问题,当然,也可以带修,下文也会提到。 关于复杂度 莫队优化的关键是排序 + 分块,将每个询问离线下来,按照左端点所在块从小到大排序,假如左端…...

0voice-2.1.1-网络io与io多路复用select/poll/epoll

测试...

Java基本语句-分支语句

Java基本语句-分支语句Day05 如何在API字典中寻找自己想要的Scanner类型 1.点击搜索 输入Scanner 2.字典中回显示各种类型的获取方式: nextByte()、nextShort()、nextInt()、nextLong()、nextdouble()、nextFloat()、next()多种引用使用。 3.调用Scanner类的相关方法,来获取指定…...

丘成桐谈AI

很多重要的科学发现,是在平凡的事情里面突然有个突破。 观念上的突破,在我看人工智能有困难做不到,现在全民学人工智能, 听起来很好听,但是师资不够, 跟数学的整个合作是刚开始, AI看见万千数据 记者:您第一次感觉到AI的冲击时什么时候 Yau:哈哈我坦白跟你讲,我从来没…...

异常检测在网络安全中的应用 - 实践

异常检测在网络安全中的应用 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", monospace !important; …...

大文件分片上传

分片:// 获取文件对象const inputFile = document.querySelector(input[type="file"]);// 设置分片大小:5MBconst CHUNK_SIZE = 5 * 1024 * 1024;// 文件上传事件inputFile.onchange = async (e) => {// 获取文件信息const file = e.target.files[0];// 获取文件…...

人小鼠免疫细胞maker基因 - un

人小鼠ref:https://www.abcam.cn/primary-antibodies/immune-cell-markers-poster作者:un-define出处:https://www.cnblogs.com/mmtinfo/p/19099316本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究…...

HyperWorks许可配置

在工程设计和仿真领域,正确的软件许可配置是确保工作流程顺畅、提高生产效率和实现最佳投资回报的关键。HyperWorks作为业界领先的工程仿真软件,其灵活的许可配置功能为用户提供了广泛的定制选项,确保软件能够完全满足各种业务需求。 什么是HyperWorks许可配置? HyperWorks…...

国标GB28181视频平台EasyGBS如何解决安防视频融合与级联管理的核心痛点?

国标GB28181视频平台EasyGBS如何解决安防视频融合与级联管理的核心痛点?在平安城市、雪亮工程等大型安防项目中,如何解决不同品牌设备与平台之间的互联互通难题?本文深度解析基于国标GB/T28181协议的EasyGBS视频平台的核心特点与技术优势,阐述其如何通过标准化协议,实现大…...

python基础-推导式

1.列表推导式 : 有规律的快速创建或者控制列表1.1 创建列表 eg: list1 = [ i for i in range(10)]1.2 带条件判断的列表推导式eg: list1 = [ i for i in range(50) if i % 3 == 0]3.多个for循环实现的列表推导式eg: list1 = [(item1, item2) for item1 in list2 for item2 in…...

人 CD 抗原完全指南 - un

设立分化簇 (CD) 命名系统的目的是对白细胞表面抗原进行分类。 最初,表面抗原是根据与它们结合的对应单克隆抗体进行命名。随着各实验室逐渐发现抗原常能刺激产生多种单克隆抗体,因此需要采用一种统一的命名系统。1982 年于巴黎举行的第 1 届国际人类白细胞分化抗原专题讨论会…...

Java入门知识

Java的特性和优势 简单性 面向对象 可移植性 (“Write once ,run anywhere”) 高性能 分布式 动态性 (反射机制) 多线程 (同时进行) 安全性 (异常机制,防病毒防篡改) 健壮性 在学习过程中爱上它,能够不断主动学习 在机遇来临之前,不断健壮自己 Java的三大版本 “Wri…...

AUTOSAR网络管理

汽车行业的网络管理一般有两种,一种是AutoSar另一种是OSEK,为啥汽车要网络管理,其实是为了降低车辆电池消耗,当车辆不工作时所有总线上的ECU通讯模块或整个ECU处于低功耗状态。网络管理一般用在电池供电的ECU,比如车上CAN上的ECU。为了避免通讯错误,需要网络管理来协调网…...

写用例注意点

写用例注意点: 1、测试标题 明确测试点 2、写用例的前几条用例都是主要场景的用例先写 微信个人能发微信红包 微信群发能发拼手气红包 微信群发能发拼手气红包 微信群发能发专属气红包 3、测试标题尽量写内容不要写案例: 例如验证标题能修改密码为:6666 4、相同的模块可以进…...

12 路低延迟推流!米尔 RK3576 赋能智能安防 360 环视

在智慧城市建设加速与社区安防需求升级的双重驱动下,“360 无死角监控 + 实时响应” 已成为安防领域的核心诉求。传统监控方案常受限于摄像头接入数量不足、编解码效率低、推流延迟高三大痛点,难以覆盖社区、园区等复杂场景的全点位监控,更无法满足应急事件 “毫秒级响应” …...

A公司一面:类加载的过程是怎么样的? 双亲委派的优点和缺点? 产生fullGC的情况有哪些? spring的动态代理有哪些?区别是什么? 如何排查CPU使用率过高?

A公司一面:类加载的过程是怎么样的? 双亲委派的优点和缺点? 产生fullGC的情况有哪些? spring的动态代理有哪些?区别是什么? 如何排查CPU使用率过高?摘要 A公司的面经JVM的类加载的过程是怎么样的? 双亲委派模型的优点和缺点? 产生fullGC的情况有哪些? spring的动态代…...

Alternating Subsequence

CF1343C Alternating Subsequence 题目描述 回忆一下,如果序列 \(b\) 是序列 \(a\) 的一个子序列,那么 \(b\) 可以通过从 \(a\) 中删除零个或多个元素(不改变剩余元素的顺序)得到。例如,如果 \(a=[1, 2, 1, 3, 1, 2, 1]\),那么可能的子序列有:\([1, 1, 1, 1]\),\([3]\)…...

白鲸开源“创客北京2025”再摘殊荣,聚焦Agentic AI时代数据基础设施建设

近日,“创客北京2025”创新创业大赛海淀区级赛圆满落幕,经过最终比拼,北京白鲸开源科技有限公司凭借 「Agentic AI时代下的数据基础设施平台」(白鲸数据集成调度平台/WhaleStudio) 脱颖而出,荣获企业组二等奖。近日,“创客北京2025”创新创业大赛海淀区级赛圆满落幕,经…...

python基础-公共操作

数据类型间公共支持的操作符运算: + ,* ,in , not in‘+’ :支持的容器类型 字符串、列表、元组 ,实现两个容器的合并‘*’ : 支持的容器类型 字符串、列表、元组, 赋值容器内容str1 = q str1* 5 =qqqqqlist1 = [hello] list1*5 = [hello, hello, hello,…...

天翼云第九代弹性云主机:让每一次计算快人一步

随着数字化转型进程不断深入,云计算已成为推动千行百业智能化升级的核心引擎。弹性计算服务凭借其灵活扩展、高可用和高性能等特点,正持续为企业提供关键基础设施支持。面对日益复杂的业务场景与持续增长的计算需求,天翼云始终致力于通过持续创新和技术升级,推动弹性计算服…...

若依(RuoYi)框架漏洞总结

0x01 特征 绿若依 icon_hash=”706913071”蓝若依 icon_hash=” -1231872293”0x02 漏洞 弱口令 用户:admin ruoyi druid 密码:123456 admin druid admin123 admin888若依前台默认shiro key命令执行漏洞 若依默认使用shiro组件,所以可以试试shiro经典的remember…...

第一次个人项目作业_论文查重

第一次项目作业这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13477这个作业的目标 实现一个3000字以上论文查重程序github连接:…...

2025年版《中科院期刊分区表》与2023年版对比表,附名单可直接查阅

2025年版《中科院期刊分区表》与2023年版相比,主要有以下几个变化‌: ‌1、发布时间提前‌:2025年版分区表从12月提前至3月发布,与投稿周期同步,学者可以尽早锁定期刊最新分区,避免“投稿后降区”的风险‌。 ‌2、增加ESCI期刊收录‌:2025年版分区表增加了ESCI期刊的收录…...

对马岛之魂

护身符 稻荷神护身符----增加资源的获取 aa...

2019年双因素认证最佳实践指南

本文深入探讨2019年双因素认证的正确实现方式,对比TOTP与WebAuthn技术优劣,分析用户行为模式,并提供实际部署建议,帮助开发者构建更安全的认证系统。2019年正确实现双因素认证 - Trail of Bits博客 自3月起,Trail of Bits一直与Python软件基金会合作,为Warehouse(PyPI的…...

Account Kit(华为账号服务)再进化,开发者接入效率飙升!

Hi 各位开发者朋友~👋 为持续优化开发体验,提升集成效率,Account Kit接入体验再升级,助力构建更流畅、更安全的登录体验,让开发效率火力全开!😎 【体验升级】华为账号相关权益申请入口统一迁移至AGC华为账号一键登录权益实时审批华为账号一键登录支持三方开发框架01 …...

软件工程个人项目

软件工程个人项目3123004548软件工程个人项目这个作业属于哪个课程 <https://edu.cnblogs.com/campus/gdgy/SoftwareEngineering2024>这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13477这个作业的目标 <设计一个…...

学习道路道阻且长 希望自己坚持下去

本人是一名专升本的大三学生 现在专业是软件工程专业 从今天开始学习java 翻了一下资料 发现很多人建议从前端开始学习 在专科学习中 也学过相应的基础知识,不过遗忘程度可能有点严重。对于语言的基本语法掌握需要加强巩固,希望自己好好坚持下去,努力学习。...

2025/9/18 总结

A 用时:2h 预期:100pts 实际:100pts 求出前缀和,\(s_k+s_i \text{xor} s_k\),考虑从高到低贪心,如果 \(s_i\) 的 \(j\) 位为 \(1\),不管如何贡献都有 \(2^j\),如果 \(s_i\) 的第 \(j\) 位为 \(0\),则 \(s_k\) 的第 \(j\) 位为 \(1\) 有 \(2_{j+1}\) 贡献,用高维前缀和…...

P2216 [HAOI2007] 理想的正方形

P2216 [HAOI2007] 理想的正方形#include <bits/stdc++.h> using namespace std;const int maxn = 1e3 + 10; int a,b,n; int c[maxn][maxn]; deque <int> dq1,dq2; int max1[maxn][maxn],min1[maxn][maxn]; int max2[maxn][maxn],min2[maxn][maxn];int ans = 2e9;i…...

PuTTY下载和安装

下载地址: https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html更改安装路径创建桌面快捷方式...

数据通路-单总线结构(最头晕的一集)

数据通路就是数据在各个部件之间传输的路径(包括路径上的部件) 控制信号是有控制部件产生的 数据通路的结构 1cpu内部单总线方式 2cpu内部多总线方式 3专用数据通路方式 内部总线 是指同一个部件,如cpu内部链接各寄存器以及运算部件之间的总线; 系统总线 是指同一台计算机系…...

python基础篇-集合

集合 :集合内的数据不重复,但是数据是无序的创建集合 {} 或者set()注: 创建空集合只能用set(), 因为{}已经被字典占用了eg: s1 = {10, 20 ,40,30 }eg: s2 = set(abcdefg) :用set创建,序列会被拆开 = 》 {’a, b, c, d, e, f, g}集合的操作:1.增加s1.add() 增加单个数据…...

#egsg:在同一程序中比较-计算圆的面积

以下是一个同时使用easygui和pysimplegui实现的圆形面积计算程序,通过菜单让用户选择使用哪种GUI库: import math import easygui import PySimpleGUI as sgdef easygui_calculator():"""使用easygui实现的版本"""title = "圆形面积计算器…...

282 项多模态胃肠病学数据集:适配 VLM 与 MLLM 微调,融合医学图像与临床文本的医疗 AI 训练数据

​ 获取更多高质量数据集,请访问典枢数据交易平台:https://dianshudata.com一、引言与背景 在医疗人工智能领域,胃肠病学的智能化诊断与分析始终依赖高质量数据的支撑,而视觉语言模型(VLM)与多模态大型语言模型(MLLM)的崛起,为整合医学图像与文本信息、提升临床决策效…...

2-sat板子

vector<int>e[maxn]; int n,m; int inscc[maxn]; int low[maxn],dfn[maxn]; stack<int>stk; int instk[maxn]; int tot,cnt; vector<int>scc[maxn];void dfs(int u,int fa){low[u]=dfn[u]=++tot;stk.push(u);instk[u]=1;for(int v:e[u]){if(!dfn[v]){//树边d…...

centos 7中安装jenkins

1.安装java11 [root@localhost ~]# yum install -y java-11-openjdk-devel [root@localhost ~]# java --version openjdk 11.0.23 2024-04-16 LTS OpenJDK Runtime Environment (Red_Hat-11.0.23.0.9-2.el7_9) (build 11.0.23+9-LTS) OpenJDK 64-Bit Server VM (Red_Hat-11.0.2…...

pythonjs逆向 破解滑动验证码 - hello-*

现在的滑动验证码防盗等级都比较高,之前的是一张完整的图片带缺口,现在返回的图片是打乱顺序拼接而成的,所以现在破解不仅要识别滑块的缺口,同时还需要复原完整的图片一.伪造请求获取验证码图片可以看到请求中主要的两个参数ctxid和request,所以我们只需要找到这两个参数的…...

解决 pandas.to_csv 乱码、丢失行和自动换行问题 时间转换

解决 pandas.to_csv 乱码、丢失行和自动换行问题-百度开发者中心 https://developer.baidu.com/article/details/2792989 在使用 pandas.to_csv 函数时,可能会遇到一些问题,如乱码、丢失行和自动换行等。这些问题通常是由于编码格式、数据类型或文件写入方式不当引起的。下面…...