k8s node 内存碎片化如何优化?
在 Kubernetes 集群中,内存碎片化(Memory Fragmentation)会导致系统无法分配连续的内存块,即使总内存充足,也可能触发 OOM(Out of Memory)或影响性能。以下是针对 k8s Node 内存碎片化的优化策略:
一、内存碎片化的原因
- 频繁分配和释放不同大小的内存:容器频繁创建和销毁,导致内存块分散。
- 大内存请求与小内存碎片不匹配:连续内存块不足,无法满足大内存分配。
- 内存分配器限制:Linux 默认的内存分配器(如 slab、slub)在某些场景下效率较低。
- 长时间运行的节点:随着时间推移,内存碎片化问题会逐渐积累。
二、诊断内存碎片化
参考:如何使用vmstat 和 free 查看内存碎片化信息?-CSDN博客
1. 使用 vmstat
和 free
查看总体内存
vmstat 1 5 # 每1秒采样,共5次
free -h # 查看内存使用情况
2. 检查 /proc/buddyinfo
查看内存碎片程度
cat /proc/buddyinfo
# 输出示例(关注高阶内存块数量):
# Node 0, zone DMA 0 0 0 0 0 0 0 0 1 1 3
# Node 0, zone DMA32 123 89 72 56 38 25 16 10 5 2 1
# Node 0, zone Normal 156 120 100 80 60 40 25 15 8 3 1
输出详解
1)基本格式
Node <节点ID>, zone <内存区域> <各阶内存块数量>
- Node:表示 NUMA 节点(单节点系统通常为 0)
- zone:内存区域类型(如 DMA、Normal、HighMem)
- 各阶内存块数量:从阶 0 到阶 N 的连续页框数量
2)内存阶(Order)的概念
- 阶 0:1 个页框(通常 4KB)
- 阶 1:2 个连续页框(8KB)
- 阶 2:4 个连续页框(16KB)
- 阶 N:2^N 个连续页框
例如:阶 10 = 1024 个页框 = 4MB(假设页大小为 4KB)
3)输出解析
- Node 0:NUMA 节点 0
- zone DMA:用于 DMA 的内存区域(地址低于 16MB)
- 各阶数量:
- 阶 0:0 个 4KB 页框
- 阶 1:0 个 8KB 页框
- ...
- 阶 9:1 个 2MB 页框
- 阶 10:1 个 4MB 页框
- 阶 11:3 个 8MB 页框
4)关键指标
- 高阶值低(如阶 8 及以上):表明大内存块稀缺,可能存在碎片化
- 低阶值高(如阶 0-3):表明小内存块充足
5)内存碎片化判断
正常情况:
- 各阶内存块分布相对均匀
- 高阶内存块(如阶 8+)有一定数量
碎片化特征:
- 高阶内存块数量极低(如全为 0)
- 低阶内存块数量高,但无法合并成大内存块
6)相关命令
查看内存区域详情
cat /proc/zoneinfo | grep -E 'Node|free_pages'
计算总可用内存
# 总可用页框数
grep 'free_pages' /proc/zoneinfo | awk '{sum+=$2} END {print sum}'# 转换为 MB(假设页大小为 4KB)
echo "$(cat /proc/zoneinfo | grep 'free_pages' | awk '{sum+=$2} END {print sum}') * 4 / 1024" | bc
3. 使用 smem
分析内存使用模式
# 安装 smem
yum install smem # CentOS/RHEL
apt install smem # Ubuntu/Debian# 按进程查看内存使用
smem -s rss -k | head -n 20 # 按 RSS 排序,显示前20
三、优化策略
1. 调整内核参数
# 启用内存碎片整理(临时)
echo 1 > /proc/sys/vm/compact_memory# 调整 swappiness(减少内存压力)
echo 10 > /proc/sys/vm/swappiness # 永久修改需编辑 /etc/sysctl.conf# 启用透明大页(THP)
echo always > /sys/kernel/mm/transparent_hugepage/enabled
2. 优化容器资源配置
# 为容器设置合理的 requests 和 limits
resources:requests:memory: "256Mi"limits:memory: "512Mi" # 避免过大的内存限制导致碎片
3. 使用内存密集型 Pod 的亲和性
# 将内存密集型 Pod 调度到专用节点
affinity:nodeAffinity:requiredDuringSchedulingIgnoredDuringExecution:nodeSelectorTerms:- matchExpressions:- key: memory-intensiveoperator: Invalues:- "true"
4. 定期重启节点
# 使用 CronJob 定期重启节点
apiVersion: batch/v1beta1
kind: CronJob
metadata:name: node-reboot
spec:schedule: "0 2 * * 0" # 每周日凌晨2点jobTemplate:spec:template:spec:hostPID: truecontainers:- name: rebootimage: alpinecommand: ["/sbin/reboot"]securityContext:privileged: truerestartPolicy: Never
5. 调整内存分配器
# 切换到更高效的内存分配器(如 jemalloc)
echo "export MALLOC_CONF=background_thread:true,metadata_thp:auto" >> /etc/profile
source /etc/profile
6. 避免内存碎片的应用优化
# Python 示例:预分配内存池
import gc
import psutil# 禁用垃圾回收器,减少内存碎片
gc.disable()# 预分配内存
def allocate_memory(size):process = psutil.Process()memory_before = process.memory_info().rssdata = bytearray(size)memory_after = process.memory_info().rssprint(f"Allocated {memory_after - memory_before} bytes")return data
7 减少大内存分配
避免申请超过 1GB 的连续内存
四、监控与告警
1. Prometheus + Grafana 监控
# 关键指标
- name: memory-fragmentation.rulesrules:- alert: HighMemoryFragmentationexpr: (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes < 0.1for: 10mlabels:severity: warningannotations:summary: "High memory fragmentation on {{ $labels.instance }}"
2. 自定义脚本监控
#!/bin/bash# 监控内存碎片率
THRESHOLD=0.3fragmentation=$(cat /proc/buddyinfo | awk '/Normal/ {sum = 0;for (i = 1; i <= NF; i++) {if (i > 4) {sum += $(i) * (2 ^ (i - 5));}}print sum;}
')total=$(cat /proc/meminfo | grep MemTotal | awk '{print $2}')
fragmentation_ratio=$(echo "scale=2; $fragmentation / $total" | bc)if (( $(echo "$fragmentation_ratio > $THRESHOLD" | bc -l) )); thenecho "Warning: High memory fragmentation ($fragmentation_ratio)"# 触发告警或自动修复
fi
五、验证优化效果
# 对比优化前后的内存碎片情况
cat /proc/buddyinfo > before.txt
# 执行优化措施后
cat /proc/buddyinfo > after.txt
diff before.txt after.txt
六、注意事项
- 测试先行:在生产环境应用任何变更前,先在测试环境验证。
- 渐进式调整:逐步调整参数,避免对系统造成冲击。
- 日志分析:定期分析系统日志,识别内存碎片化的根本原因。
通过以上措施,可有效缓解 k8s Node 的内存碎片化问题,提升系统稳定性和资源利用率。
相关文章:
k8s node 内存碎片化如何优化?
在 Kubernetes 集群中,内存碎片化(Memory Fragmentation)会导致系统无法分配连续的内存块,即使总内存充足,也可能触发 OOM(Out of Memory)或影响性能。以下是针对 k8s Node 内存碎片化的优化策略…...
当K8S容器没有bash时7种高阶排查手段
遇到容器没有bash甚至没有sh的情况,就像被困在没有门窗的房间。但真正的K8S运维高手,即使面对这种情况也能游刃有余。以下是我们在生产环境锤炼出的7大实战技巧: 一、基础三板斧(新手必学) 1. 日志捕获术——穿透重启…...
linux -c程序开发
目的是在linux中创建可执行的c语言程序的步骤 和gcc,make和git的简单运用 建立可执行程序的步骤: -1:预处理: --:头文件展开;--去掉注释;--宏替换;--条件编译 -2:编译 --:将预处理之后的c语言替换为汇编语言带阿米 --:语法分析,语义分析,代码生成 --:检查语法正确性并且优…...
LLM损失函数面试会问到的
介绍一下KL散度 KL(Kullback-Leibler散度衡量了两个概率分布之间的差异。其公式为: D K L ( P / / Q ) − ∑ x ∈ X P ( x ) log 1 P ( x ) ∑ x ∈ X P ( x ) log 1 Q ( x ) D_{KL}(P//Q)-\sum_{x\in X}P(x)\log\frac{1}{P(x)}\sum_{x\in X}…...
【redis】redis 手动切换主从
场景一: 测试需要,需要手动切换主从 在redis节点: $ redis-cli -h xx.xx.xx.xx -p XX -a XX shutdown 不要直接关闭redis进程,使用 shutdown ,能在进程关闭前持久化内存中的数据 待主从切换完毕后࿱…...
Webug4.0靶场通关笔记17- 第21关文件上传(htaccess)
目录 第21关 文件上传(htaccess) 1.打开靶场 2.源码分析 (1)右键源码 (2)源码分析 3.渗透实战 (1)配置环境 (2)构造脚本 (3)访问脚本 本文通过《webu…...
ASP.NET Core 中间件
文章目录 前言一、中间件的本质定义:类比: 二、作用场景:三、中间件的执行顺序四、中间件的配置方式1)委托形式(最常见):2)类形式: 五、核心方法六、注意事项七、中间件 …...
Linux:进程间通信---命名管道共享内存
文章目录 1.命名管道1.1 命名管道是什么1.2 如何创建命名管道1.3 如何通过命名管道实现进程间通信 2. 共享内存2.1 共享内存的原理2.2 共享内存的系统接口与接口的调用2.3 共享内存的挂接2.4 共享内存的特性 序:在上一章对用来进行进程间通信的匿名管道进行了详细的…...
一个基于Asp.Net Core + Angular + Bootstrap开源CMS系统
从零学习构建一个完整的系统 推荐一个功能强大、易于扩展、安全可靠的开源内容管理系统,适用于各种类型和规模的网站。 项目简介 MixCoreCMS是一个基于.NET Core框架的开源内容管理系统(CMS),提供了丰富的的基础功能和插件&…...
ECMAScript 6(ES6):JavaScript 现代化的革命性升级
1. 版本背景与发布 发布时间:2015 年 6 月,由 ECMA International 正式发布,标准编号为 ECMA-262 Edition 6(后称 ES2015)。历史意义: JavaScript 诞生 20 年后的革命性升级,首次引入类&#…...
基于WebUI的深度学习模型部署与应用实践
引言 随着深度学习技术的快速发展,如何将训练好的模型快速部署并提供友好的用户交互界面成为许多AI项目落地的关键。WebUI(Web User Interface)作为一种轻量级、跨平台的解决方案,正被广泛应用于各类AI模型的部署场景。本文将详细介绍基于Python生态构建WebUI的技术方案,包…...
MySQL表的增删查改
目录 一、MySQL表的增删查改二、Create单行数据全列插入多行数据 指定列插入插入否则更新替换数据 三、RetrieveSELECT 列WHERE 条件NULL的查询结果排序筛选分页结果 四、Update将孙悟空同学的数学成绩修改为80分将曹孟德同学的数学成绩修改为60分,语文成绩修改为7…...
Android第六次面试总结之Java设计模式(二)
一、适配器模式(Adapter Pattern) 1. ListView vs RecyclerView 的 Adapter 核心区别?为什么 RecyclerView 需要 ViewHolder? 解答: 核心区别: 特性ListView.Adapter(如 ArrayAdapter…...
QuecPython+腾讯云:快速连接腾讯云l0T平台
该模块提供腾讯 IoT 平台物联网套件客户端功能,目前的产品节点类型仅支持“设备”,设备认证方式支持“一机一密”和“动态注册认证”。 BC25PA系列不支持该功能。 初始化腾讯 IoT 平台 TXyun TXyun(productID, devicename, devicePsk, ProductSecret)配置腾讯 IoT…...
说下RabbitMQ的整体架构
RabbitMQ 是一个基于 AMQP(Advanced Message Queuing Protocol) 协议的开源消息中间件,RabbitMQ的整体架构围绕消息的生产、路由、存储和消费设计,旨在实现高效、可靠的消息传递,它由多个核心组件协同工作。 核心组件 …...
Qt Creator 网络编程----Socket客户端服务端
1、在Qt项目中的.pro中添加 network模块,用于Socket网络编程使用 QT network 2、相关Tcp网络通信协议头文件 #include <QtNetwork/QTcpServer> #include <QtNetwork/QTcpSocket> #include <QtNetwork/QHostAddress> 3、Qt socket运行实…...
《深度学习实践教程》[吴微] ch-5 3/5层全连接神经网络
一、练习课本上3层全连接神经网络识别手写数字。 答案代码: import torch from torch import nn, optim from torch.autograd import Variable from torch.utils.data import DataLoader from torchvision import datasets, transforms# 定义一些超参数 batch_size…...
OrcaFex11.5
OrcaFlex 11.5是一款专业的海洋工程动态分析软件 由英国Orcina公司开发 主要用于模拟和分析海洋结构物在复杂海洋环境中的动态响应 该软件广泛应用于海上油气开发 海上风电 海洋可再生能源等领域 OrcaFlex 11.5具有强大的建模和仿真能力 支持多种海洋结构物的模拟 包括船舶 …...
MUX-vlan
MUX-VLAN 理论环节 1. 定义与核心作用 Principal VLAN(主VLAN) 是 MUX VLAN(Multiplex VLAN)架构的核心组件,充当公共资源的访问枢纽,实现以下核心功能: 资源共享:允许所有从VLAN…...
vue3中解决 return‘ inside ‘finally‘ block报错的问题
vue3中解决 return’ inside ‘finally’ block报错的问题 这个错误信息通常表明你在使用Vue 3框架时,在finally块中不正确地使用了return语句。在JavaScript中,finally块是保证执行的最后一个代码块,用于释放资源或执行清理操作,…...
TestStand API 简介
TestStand API 简介 在自动化测试领域,TestStand 凭借其灵活的架构和强大的功能,成为众多开发者的首选工具。而 TestStand API(Application Programming Interface,应用程序编程接口)则是打开 TestStand 强大功能的 “…...
vue2+element实现Table表格嵌套输入框、选择器、日期选择器、表单弹出窗组件的行内编辑功能
vue2element实现Table表格嵌套输入框、选择器、日期选择器、表单弹出窗组件的行内编辑功能 文章目录 vue2element实现Table表格嵌套输入框、选择器、日期选择器、表单弹出窗组件的行内编辑功能前言一、准备工作二、行内编辑1.嵌入Input文本输入框1.1遇到问题1.文本框内容修改失…...
【Docker系列】使用格式化输出与排序技巧
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...
针对面试-redis篇
1. 缓存穿透 什么是缓存穿透? 缓存穿透就是有人查询一个不存在的数据,数据库查询不到数据也不会直接写入缓存,就会导致每次请求都查数据库。 解决方案一:缓存空数据 当数据库中不存在该数据时,直接把查到的空数据给…...
HTML8:媒体元素
视频和音频 视频元素 video 音频 audio <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>媒体元素学习</title> </head> <body> <!--音频和视频 src:资源路径 controls:控制条…...
把其他conda的env复制到自己电脑的conda上
把其他conda的env复制到自己电脑的conda上 一 拷贝 将要拷贝的env环境拷贝到自己电脑的放置env环境的文件夹中 二 添加配置 找到.conda文件夹下的environments.txt文件,添加配置 三 测试 查看环境是否拷贝成功 激活环境 自此就拷贝成功了!&am…...
抖音热门视频评论数追踪爬虫获取
自动追踪抖音账号收藏夹视频的评论数变化 功能: 1、自动追踪特定抖音账号收藏夹视频热度变化,评论增速超过x,自动通知到钉钉或飞书 2、最新最先进的js逆向算法,无封号风险 3、支持私有化定制 4、可同时追踪500-5w个视频的热度…...
Hive优化秘籍:大数据处理加速之道
目录 一、认识 Hive 性能瓶颈 二、优化从基础开始:查询语句 2.1 列与分区裁剪 2.2 谓词下推 2.3 合理使用排序 三、解决数据倾斜难题 3.1 数据倾斜原因剖析 3.2 针对性优化策略 四、优化 join 操作 4.1 MapJoin 的应用 4.2 大表 join 优化技巧 五、调整 …...
机器学习例题——预测facebook签到位置(K近邻算法)和葡萄酒质量预测(线性回归)
一、预测facebook签到位置 代码展示: import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import…...
10B扩散文生图模型F-Lite技术报告速读
F Lite 技术报告解析 一、研究背景与目标 F Lite 是一个开源的 100 亿参数文本到图像的扩散变换器(DiT)模型。该研究的目标是探索在中等数据规模和计算资源条件下,大规模扩散模型的性能边界。F Lite 基于 Freepik 内部数据集训练࿰…...
源码分析之Leaflet中Marker
概述 Marker类用于创建一个标记点对象,可以用于在地图上添加标记点。Marker类继承自Layer类,提供了一些方法用于创建标记点对象。 源码分析 源码实现 Marker类实现如下: export var Marker Layer.extend({options: {icon: new IconDefault(), // 默认图标实例…...
从0开始学习大模型--Day2--大模型的工作流程以及初始Agent
大模型的工作流程 分词化(Tokenization)与词表映射 分词化(Tokenization)是自然语言处理(NLP)中的重要概念,它是将段落和句子分割成更小的分词(token)的过程。 将一个…...
P48-56 应用游戏标签
这一段课主要是把每种道具的游戏Tag进行了整理与应用 AuraAbilitySystemComponentBase.h // Fill out your copyright notice in the Description page of Project Settings. #pragma once #include "CoreMinimal.h" #include "AbilitySystemComponent.h"…...
4.29 tag的完整实现和登录页面的初步搭建
解释了v-for中每个属性的作用: 打印当前route的信息:(里面会有path的信息)当前的路由信息吧! handleMenu() 菜单选择!点击左侧菜单的栏目就会显示在Home.vue的tag上 这个方法的作用是让Home.vue上出现对应的…...
【Vue.js】 插槽通信——具名插槽通信
目录 前景基本语法命名规则默认内容使用建议 具体实例父组件 index.vue子组件 Category.vue 效果 前景 下面的父子组件代码仍然在Vue.js演练平台直接运行 基本语法 在子组件中定义插槽 <!-- Category.vue --> <slot name"插槽名称">默认内容</slo…...
从设备交付到并网调试:CET中电技术分布式光伏全流程管控方案详解
四月的最后一个工作日,当分布式光伏电站并网指示灯依次亮起的瞬间,CET中电技术与客户共同交出了一份满意的答卷。面对430政策窗口期的考验,我们凭借可靠的技术和高效的团队协作,在系统调试与并网对接的每个步骤都展现出过硬能力&a…...
(十)深入了解AVFoundation-采集:录制视频功能的实现
引言 在前文章中,我们深入探讨了如何通过 AVCaptureSession 配置 iOS 中的捕捉输入及输出。并通过使用 AVCaptureDeviceInput 和 AVCapturePhotoOutput,我们实现了基础的照片捕获功能,并配置了 PHPreviewView 来显示实时预览。 在本篇中&am…...
数据分析汇报七步法:用结构化思维驱动决策
在当今数据驱动的商业环境中,高效的数据汇报不仅是信息传递的工具,更是撬动决策的杠杆。基于您提供的五张核心图示,我们提炼出一套「七步汇报框架」,将复杂的数据分析转化为清晰的行动指南。这套方法论通过「现状-诊断-预见…...
推荐两本集成电路制作书籍
本书共分19章,涵盖先进集成电路工艺的发展史,集成电路制造流程、介电薄膜、金属化、光刻、刻蚀、表面清洁与湿法刻蚀、掺杂、化学机械平坦化,器件参数与工艺相关性,DFM(Design for Manufacturing)ÿ…...
认识Grafana及其面板(Panel)
Grafana简介 Grafana 是一款开源的数据可视化与监控平台,以其强大的数据展示能力、灵活的插件生态和广泛的兼容性,成为企业监控、IT运维、DevOps、物联网(IoT)和业务分析等领域的核心工具。 数据源(Data Source) 对于Grafana而言,Promethe…...
FlinkCDC采集MySQL8.4报错
报错日志 原因: MySQL8.4版本中弃用show MASTER STATUS语法 改为:SHOW BINARY LOG STATUS 解决方案: 1、降MySQL版本 2、修改源码...
Webview通信系统学习指南
Webview通信系统学习指南 一、定义与核心概念 1. 什么是Webview? 定义:Webview是移动端(Android/iOS)内置的轻量级浏览器组件,用于在原生应用中嵌入网页内容。作用:实现H5页面与原生应用的深度交互&…...
人工智能如何革新数据可视化领域?探索未来趋势
在当今数字化时代,数据如同汹涌浪潮般不断涌现。据国际数据公司(IDC)预测,全球每年产生的数据量将从 2018 年的 33ZB 增长到 2025 年的 175ZB。面对如此海量的数据,如何有效理解和利用这些数据成为了关键问题。数据可视…...
探索Hello Robot开源移动操作机器人Stretch 3的新技术亮点与市场定位
Hello Robot 推出的 Stretch 3 机器人凭借其前沿技术和多功能性在众多产品中占据优势。Stretch 3 机器人采用开源设计,为开发者提供了灵活的定制空间,能够满足各种不同的需求。其配备的灵活手腕组件和 Intel Realsense D405 摄像头,显著增强了…...
机器人系统设置
机器人系统设置 机器人系统设置与操作指南 1. 系统设置基础功能 偏好设置 控制柜名称修改:通过文本框输入新名称并确认主题切换:支持橙色/蓝色主题(需重启生效) 语言与日期 系统语言/键盘语言设置时间格式:支持系统时…...
C/C++ 扩展智能提示太慢或无法解析项目
问题 C/C 扩展不解析项目,导致源码中的变量、函数都为灰色状态,无法进行跳转。 有时候 log 会报如下错误: Attempting to get defaults from C compiler in "compilerPath" property: D:/Development/Tools/mingw64/bin/gcc.exe…...
通过Kubernetes 外部 DNS控制器来自动管理Azure DNS 和 AKS
前言: 将应用程序及其服务部署到 Kubernetes 集群后,一个问题浮现:如何使用自定义域名访问它?一个简单的解决方案是创建一条 A 记录,将域名指向服务 IP 地址。这可以手动完成,但随着服务数量的增加&#x…...
Elasticsearch知识汇总之ElasticSearch监控方案
八 ElasticSearch监控方案 8.1 ElasticSearch监控指标 监控指标为磐基生产项指标,以下‘监控项名称’‘指标名称 ‘使用的公式‘都已详细说明,图表如下: 监控项名称 指标英文名称 使用的公式 elasticsearch集群健康状态 Elastic_Cluster…...
【能力比对】K8S数据平台VS数据平台
🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。 ✨AllData数据中台官方平台&…...
AutoDL+SSH在vscode中远程使用GPU训练深度学习模型
注册AutoDL账号 AutoDL官网:AutoDL 注册登录之后,如果你是学生,一定要进行学生认证,可以省钱。 认证之后,打开算力市场, 进行GPU选择 根据自己需要的环境选择版本 ,选好之后创建并开机 这里注…...