当前位置：首页 > news >正文

大模型推理框架简介

news 来源：原创 2025/8/25 3:28:27

概述

通常需要大量的计算资源，高效运行LLMs仍然是一个挑战，

推理框架作为LLM高效部署的关键组件，直接关系到应用的性能、成本和开发效率。

高性能框架

vLLM

GitHub，由SKYPILOT构建的推理优化框架，旨在提高在GPU上运行的LLM的效率。

核心优势：

PagedAttention技术：突破传统KV缓存机制，结合动态批处理和异步调度机制，实现显存分页管理，支持超长序列生成（如10万token对话）；
吞吐量领先：在A100 GPU上可达传统框架3倍以上吞吐量，支持动态批处理；
量化优化支持：内置GPTQ、AWQ等量化技术，有效压缩模型体积，进一步提升GPU资源利用率；
多GPU分布式部署：支持在多卡GPU集群上运行，即便面对千亿参数级模型，也能在低延迟下稳定处理海量并发请求；
生态兼容性：原生支持HF模型格式，兼容PyTorch生态。

优势与局限

优势：适用于高并发在线服务，如金融交易、智能客服和文档处理；低首次响应时间（TTFT）表现出色；
局限：依赖高端NVIDIA GPU（如 A100、H100，H20），硬件投入成本较高；代码架构较复杂，对定制开发和维护要求较高。

适用场景

互联网大厂API服务（如OpenAI兼容接口）
高并发在线推理（1000+ QPS）
长文本生成场景（法律文书生成、代码补全）

# Run the container with GPU support
docker run -it \--runtime nvidia \--gpus all \--network="host" \--ipc=host \-v ./models:/vllm-workspace/models \-v ./config:/vllm-workspace/config \vllm/vllm-openai:latest \--model models/Qwen2.5-14B-Instruct/Qwen2.5-14B-Instruct-Q4_K_M.gguf \--tokenizer Qwen/Qwen2.5-14B-Instruct \--host "0.0.0.0" \--port 5000 \--gpu-memory-utilization 1.0 \--served-model-name "VLLMQwen2.5-14B" \--max-num-batched-tokens 24576 \--max-num-seqs 256 \--max-model-len 8192 \--generation-config config

测试：

import requests
import concurrent.futuresBASE_URL = "http://<your_vLLM_server_ip>:5000/v1"
API_TOKEN = "sk-1234"
MODEL = "VLLMQwen2.5-14B"def create_request_body():return {"model": MODEL,"messages": [{"role": "user", "content": "Tell me a story of 1000 words."}]}def make_request(request_body):headers = {"Authorization": f"Bearer {API_TOKEN}","Content-Type": "application/json"}response = requests.post(f"{BASE_URL}/chat/completions", json=request_body, headers=headers, verify=False)return response.json()def parallel_requests(num_requests):request_body = create_request_body()with concurrent.futures.ThreadPoolExecutor(max_workers=num_requests) as executor:futures = [executor.submit(make_request, request_body) for _ in range(num_requests)]results = [future.result() for future in concurrent.futures.as_completed(futures)]return resultsif __name__ == "__main__":num_requests = 50  # Example: Set the number of parallel requestsresponses = parallel_requests(num_requests)for i, response in enumerate(responses):print(f"Response {i+1}: {response}")

SGLang

GitHub，提供前端语言，让你能用更简洁、更符合逻辑的方式去编排复杂的生成任务，比如结构化数据提取、多轮对话管理、函数调用、带约束的生成等等。提供后端引擎（比如RadixAttention）也吸取类似PagedAttention精髓，并针对这种前端语言定义的复杂控制流加以协同优化。

技术特点

RadixAttention：通过共享前缀请求和高效缓存策略，SGLang能在理论上实现十万级token/s的超高吞吐量，同时显著降低响应延迟；
分布式调度：支持跨节点自动负载均衡；
高效结构化输出：内置高性能JSON解析模块，便于构建面向结构化数据查询的API服务，适合复杂自动化工作流；
轻量模块化架构：采用灵活的模块化设计，便于快速集成新技术（如FlashInfer内核），不断优化推理效率；
混合精度计算：FP16与FP32智能切换

适用领域

多模态模型推理（文本+图像）
复杂工作流编排（RAG增强生成）
科研机构超大规模模型实验

优势与局限

优势：适用于大批量结构化查询和实时响应要求极高的应用；在高并发场景下表现出色。
局限：当前版本仅支持Linux平台，跨平台兼容性待提升；对多模态任务支持较弱，生态尚在起步阶段。

vLLM和SGLang

区别：

核心出发点不同
vLLM：算力压榨机。出发点是极致优化推理引擎的性能和内存效率，解决KV Cache问题。一切为了吞吐量和低延迟。
SGLang：生成控制大师。出发点是如何更灵活、更高效地控制LLM的生成过程，同时保持高性能。
提供的价值层面不同
vLLM：主要在Runtime/Engine层面发力。给的是一个高性能的底层库，你调API就行，但复杂的生成逻辑你还得自己在外面封装。
SGLang：提供的是Language + Runtime的组合。不仅优化Runtime，还提供一种新的、专门用于控制生成流程的编程语言DSL (Domain-Specific Language)，大大降低实现复杂生成策略的门槛。
解决的问题侧重不同
vLLM：主要解决高并发、变长序列下的推理效率问题。特别适合那些需要大规模部署、处理海量请求的标准生成场景。
SGLang：主要解决复杂生成任务的编程复杂性和执行效率问题。特别适合需要精细控制生成内容、实现高级 Agent 逻辑、做 RAG 中复杂检索与生成协同、或者需要模型输出严格遵守某种格式的场景。它的 Vision Language Model 支持也是一个亮点。
抽象层次不同
vLLM：更底层，关注Attention机制和内存管理优化。
SGLang：更高层，引入控制流概念，并将其与底层优化结合。目标是如何让开发者更爽地调用LLM完成复杂任务。

LMDeploy

GitHub。

技术特点

国产GPU深度适配：针对华为昇腾等国产GPU进行专门优化，充分发挥硬件优势，显著提升推理效率与显存利用率；
多模态融合支持：在视觉-语言混合模型上具备明显优势，能同时处理图像和文本数据，满足复杂业务场景需求；
Turbomind引擎：采用异步流水线并行，延迟降低至50ms级别；
量化部署工具链：支持W4A16量化，模型体积压缩4倍；
动态批处理：智能合并不同长度请求，GPU利用率达90%+。

优势与局限

优势：在国产硬件环境下成本优势明显，适合政府、企业级定制化部署；多模态支持能力强；
局限：更新迭代速度较慢；分布式部署和高并发处理能力有待进一步提升。

适用于国内企业和政府机构在国产 GPU 平台上的大模型部署，特别是多模态交互和视觉语言任务领域。

典型应用

金融实时风控系统
游戏NPC智能对话
工业质检实时报告生成

TGI

Text Generation Inference，HuggingFace开源组件，GitHub。

技术特点

生态系统成熟稳定：作为HF Inference API核心组件，在云端推理服务中已被广泛验证；
标准化API接口：提供RESTful API与OpenAI兼容接口，支持连续批处理和流式输出，便于与现有应用无缝集成；
服务稳定性：内置健康检查、自动故障转移
多GPU扩展：支持Tensor并行和流水线并行
安全合规：符合GDPR和HIPAA标准

优势与局限

优势：文档丰富、生态成熟，易于集成和扩展；适合大规模云端部署和API推理；
局限：在极端高并发场景下，定制化优化能力可能略逊于专用解决方案；部分高级功能依赖云端服务。

部署案例

AWS SageMaker推理服务
银行智能客服系统
医疗报告自动生成平台

DeepSeek AI Open Infra Index

底层优化套件

FlashMLA：基于CUDA的矩阵运算加速库，提升30%计算效率
DeepEP：弹性并行框架，支持动态资源分配
智能缓存：自适应数据预取策略

协同生态

与vLLM结合实现显存利用率提升40%
与SGLang集成优化分布式任务调度

本地部署与轻量化框架

框架	核心特性	硬件要求	典型应用场景
Ollama	一键部署/Web界面	消费级GPU（6GB+）	个人知识管理/快速原型验证
Llama.cpp	GGUF格式支持/纯CPU推理	树莓派4B	工业边缘设备/隐私计算盒子
LocalAI	本地化数据隔离/端到端加密	服务器CPU集群	政务系统/医疗数据解析
KTransformers	能效比优化（<5W）	ARM架构芯片	物联网设备/车载语音助手
GPT4ALL	图形化模型市场/零代码部署	Mac M系列芯片	教育机构/非技术用户实验

Llama.cpp

GitHub，

技术特点

纯CPU推理：完全基于CPU实现，无需高性能GPU，适合在嵌入式设备、边缘计算及资源受限环境下运行；
轻量级与开源：架构简单、易于部署，社区活跃，用户可以根据需求自行定制和优化推理过程。

优势与局限

优势：零硬件门槛，成本极低；适合边缘设备和低负载任务；开源生态丰富，便于快速迭代；
局限：与GPU加速方案相比，推理速度较慢，不适合大规模在线服务；高并发处理能力有限。

适用于边缘计算、物联网和低负载场景，为无GPU环境下的基本推理需求提供可行方案。

Ollama

GitHub，
一个本地LLM运行时，可简化部署和使用开源模型。对于希望在个人机器上试验模型的开发人员来说，Ollama是一个绝佳选择。提供能力：

跨平台一键安装：Ollama 支持 Windows、macOS 与 Linux 平台，提供直观的用户界面，降低使用门槛。
预打包模型：内置超过 1700 款预训练模型，默认提供 int4 量化处理后的权重，大幅降低显存需求，使普通消费级硬件也能流畅运行。如LLaMA、Mistral和Falcon；
优化的CPU和GPU推理：用于在日常硬件上运行模型；
离线推理保障：支持完全离线运行，确保数据安全与隐私，适合对本地数据保护有高要求的应用；
封装llama.cpp：在llama.cpp的基础上提供更高层次抽象，使模型调用与管理更加简单便捷。
简单的API和CLI：允许开发人员以最少的配置启动LLM。

优势与局限

优势：操作简单、易上手，适合个人开发者、学生和快速原型验证；低硬件资源要求及离线数据安全；
局限：在高并发场景下，响应性能可能存在瓶颈；扩展性和插件定制能力较弱，不适合大规模在线部署。

配置文件：

[Unit]
Description=Ollama Service
After=network-online.target[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/home/henry/.local/bin:/usr/local/cuda/bin/:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_DEBUG=1"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OPENAI_BASE_URL=http://0.0.0.0:11434/api"[Install]
WantedBy=multi-user.target

vLLM和Ollama

对比项	vLLM	Ollama
推理速度	非常快	快，但依赖于部署的硬件
内存效率	非常高	尚可，受限于硬件
可扩展性	可大规模部署到企业级云服务器	本地小规模部署
安装便捷性	麻烦，需Python和CUDA环境；提供更多定制选项	一行代码，易于安装；简单，可快速实验LLM；
API支持	PyTorch、TensorFlow，REST API	CLI和API
适用场景	企业级应用，高端GPU，微调和运行自定义模型，超长上下文窗口	无需复杂设置，边缘计算，使用简单API，试验模型
适用人群	需要深度定制的开发人员	初学者，快速原型设计、测试想法
生产就绪性	为生产环境而设计	本地部署和验证
安全	支持APIKEY授权	-
文档	提供全面的技术文档	文档简单且适合初学者，但缺乏技术深度，特别是在性能和并行处理方面

KTransformers

清华大学KVCache.AI团队与趋境科技开源项目，地址GitHub。旨在通过先进的内核优化、设备放置及并行策略，为Transformers体验提供增强支持。其核心设计强调可扩展性；用户仅需一行代码即可实现并注入优化模块，便可获得与Transformers兼容的接口。核心之一在于应用异构计算策略，利用DeepSeek混合专家架构(MoE)的稀疏性和计算复杂度低的特点，将MoE部分放在内存并由CPU完成计算，而计算复杂度较高但相对更省显存的MLA部分继续留在GPU显存并由GPU完成计算，大幅降低显存需求。

此外，采用4bit量化技术和Marlin GPU算子配合，也使得推理效率得到显著提升，推理速度提高近四倍。CUDA Graph加速技术通过优化CPU/GPU的通信效率，显著减少延迟和资源消耗。

特性：

显存砍到十分之一，性能反升28倍
DeepSeek-R1作为全球顶尖的MoE架构模型，原本需要8卡A100才能勉强运行，而KTransformers通过异构计算划分策略，将稀疏MoE矩阵卸载到CPU内存，仅保留稠密部分在GPU显存中。配合4bit量化和Marlin算子优化，显存需求从200GB+骤降至24GB，同时预处理速度飙升至286 tokens/s，生成速度达14 tokens/s，比传统方案（如llama.cpp）快28倍。
专家卸载：榨干硬件每一滴算力
团队独创的计算强度导向卸载策略，将高计算强度的算子（如MLA注意力核心）优先分配至GPU，低强度部分（如稀疏专家模块）转移至CPU。通过llamafile高速CPU算子和CUDA Graph加速，CPU与GPU协同作战，彻底释放异构计算潜力，连老旧的3090显卡都能跑出9.1 tokens/s的生成速度。
一键兼容，小白也能玩转千亿模型
KTransformers不仅提供HF无缝接口和ChatGPT式Web界面，还支持通过YAML配置文件灵活切换量化策略与优化内核。开发者甚至能直接用Windows系统部署，搭配200GB内存的消费级设备即可体验千亿模型的魅力。

核心技术：

稀疏性革命：MoE架构的稀疏特性被发挥到极致，每次推理仅激活部分专家模块，结合CPU/GPU协同计算，显存占用大幅降低；
量化黑科技：4bit量化下，模型精度损失微乎其微，但显存占用压缩至原版的1/4。通过Marlin算子优化，GPU计算效率提升3.87倍，彻底告别量化即减速的魔咒；
长文本秒级响应：针对万级Token的上下文任务（如代码分析），KTransformers的Intel AMX指令集优化让CPU预填充速度冲上286 tokens/s，从分钟级等待跃进至秒级响应。

灵活部署框架

XInference

核心能力

多模型并行服务（同时加载10+模型）
动态扩缩容：根据负载自动调整实例数
兼容性：100% OpenAI API协议支持

推荐场景

中小型企业多模型服务中台
科研机构对比实验平台

OpenLLM

技术优势

异构硬件支持（TPU/GPU/CPU混合部署）
自定义适配器（LoRA插件热加载）
服务监控：Prometheus集成

典型用户

云服务提供商（混合云部署）
自动驾驶模型服务集群

HF Transformers

生态优势

支持模型数量：20w+
社区贡献机制：日均更新50+模型
部署方式：支持Triton/ONNX Runtime

首选场景

学术研究快速实验
创业公司MVP开发

LiteLLM

统一接口方案

支持模型：30+主流LLM
流量控制：智能路由与负载均衡
成本监控：按token计费分析

适用对象

多模型SaaS平台
企业混合云成本优化

TensorRT-LLM

GitHub，

技术特点

深度链路优化：借助NVIDIA TensorRT，对大模型进行全链路优化，确保在推理过程中极低延迟和超高吞吐量；
量化与预编译支持：通过预编译和多种量化方案（如FP8/INT4），最大化利用NVIDIA GPU的计算潜力，进一步提升性能。

优势与局限

优势：在NVIDIA GPU环境下表现出色，极大缩短响应时间，适合对推理速度要求苛刻的生产级应用；
局限：预编译过程可能会带来冷启动延迟；仅限于NVIDIA CUDA平台，跨平台部署存在局限。

MLC-LLM

GitHub，

技术特点

基于Apache TVM的编译优化：MLC-LLM利用ML编译技术对大模型进行全链路优化，有效降低TTFT，为快速原型验证提供支持；
实验性与前沿探索：在低并发场景下表现优异，展示编译优化技术在推理领域的巨大潜力。

优势与局限

优势：在小规模、低延迟需求场景中表现突出，适合研发初期和实验性应用；
局限：当前版本多为nightly构建，稳定性和文档支持仍有待完善；部署流程相对复杂，对编译与配置要求较高。

选型

需综合考虑，吞吐量需求、硬件预算、合规要求和技术栈适配性。建议通过压力测试验证框架在实际业务场景中的表现，同时关注社区活跃度（GitHub Star增长趋势）和商业支持选项。

平台/引擎	核心技术/亮点优势	局限	适用场景
vLLM	PagedAttention、动态批处理、异步调度、多GPU分布式	高并发、低延迟，适合大规模在线服务	依赖高端GPU、代码复杂，二次开发门槛较高
Ollama	基于llama.cpp封装，跨平台支持、内置1700+ 模型、int4量化	安装便捷、易上手、低硬件要求、数据离线保障	并发处理能力较弱，扩展性和插件定制能力有限
SGLang	RadixAttention、高效缓存、结构化输出、轻量模块化架构	超高吞吐量、极低响应延迟、适合高并发结构化查询	目前仅支持Linux、对多模态任务支持能力有限
LMDeploy	国产GPU深度适配、显存优化、多模态融合支持	在国产硬件上性能优异、成本优势明显，适合多模态复杂场景	更新迭代较慢、分布式部署和高并发处理能力待加强
Llama.cpp	纯CPU推理、轻量级设计、开源社区支持	零硬件门槛、低成本、适合边缘和嵌入式设备	推理速度较慢，高并发能力有限
TensorRT-LLM	基于NVIDIA TensorRT深度优化、量化与预编译支持	极低延迟、高吞吐量、充分发挥NVIDIA GPU优势	预编译过程可能带来冷启动延迟，仅限 NVIDIA CUDA平台
Hugging Face TGI	生产级推理服务、标准化REST API、OpenAI兼容接口	生态成熟、稳定可靠、易于云端集成	高并发定制化优化能力稍弱，部分功能依赖云端服务
MLC-LLM	基于Apache TVM的编译优化、低TTFT、实验性原型验证	在低并发、低延迟场景下表现突出，展示编译优化潜力	当前版本稳定性待提高，部署流程较复杂

综合建议

企业级高并发应用：对于对延迟与吞吐量要求极高的场景，推荐选择vLLM、TensorRT-LLM或HuggingFace TGI，它们在多GPU部署和低延迟响应方面表现尤为突出。
个人开发与本地原型：Ollama凭借其跨平台、易上手的特性，非常适合个人原型验证和离线本地部署，而Llama.cpp则满足无GPU环境下的基本推理需求；
国产硬件部署：LMDeploy针对国产GPU进行深度优化，具备多模态处理优势，适合国内企业和政府机构在特定硬件环境下部署；
新兴技术探索：SGLang与MLC-LLM分别在高吞吐量和编译优化上展示了前沿技术潜力，虽然当前还存在一定局限，但未来发展前景值得期待。

随着硬件升级、算法革新和产业生态不断完善，大模型推理技术正朝着以下方向发展：

跨平台与异构计算：未来推理引擎将支持CPU、GPU及专用AI芯片的无缝切换，构建更加灵活的部署体系；
模块化与智能调度：通过模块化设计和智能调度，用户可根据业务需求自定义优化策略，实现更高效的资源利用；
多模态与融合能力：在视觉、语音、文本等多模态数据处理方面，推理平台将不断完善跨模态融合技术，提供全方位智能服务；
开源生态与产业协作：开源社区的活跃和产业界的深度合作，将推动标准化接口、数据安全和高效部署方面的持续优化，为AI应用提供坚实技术支撑。

选型决策树

供参考

参考

灵活可配的CPU/GPU异构大模型推理策略 - KTransformers

大模型推理框架简介

概述通常需要大量的计算资源，高效运行LLMs仍然是一个挑战， 推理框架作为LLM高效部署的关键组件，直接关系到应用的性能、成本和开发效率。高性能框架 vLLM GitHub，由SKYPILOT构建的推理优化框架，旨在提高在GPU上…...

编程日记 2025/8/25 3:28:27

《MATLAB实战训练营：从入门到工业级应用》高阶挑战篇-《5G通信速成：MATLAB毫米波信道建模仿真指南》

《MATLAB实战训练营：从入门到工业级应用》高阶挑战篇-5G通信速成：MATLAB毫米波信道建模仿真指南 🚀📡 大家好！今天我将带大家进入5G通信的奇妙世界，我们一起探索5G通信中最激动人心的部分之一——毫米波信…...

编程日记 2025/8/22 7:26:00

word导出pdf带有目录导航栏-error记

1、打开word文档——>点击"视图"选项卡——>勾选"导航窗格" 2、点击"文件"——>导出——>创建PDF/XPS 3、点击"选项"——>勾选"创建书签时使用(C)" "标题(H)" 4、点击"确定"——>点击…...

编程日记 2025/8/21 20:08:02

word怎么删除空白页？word最后一页删不掉怎么办

在使用word的过程中，有时出现空白页就可能会给大家带来一些困扰。到底怎么样才能把这些空白页删除，又应该如何解决最后也删不掉的问题呢？ 要想删除普通的空白页，那就需要将光标直接放在空白页，然后按【Delete】键&…...

编程日记 2025/8/25 3:24:25

虚幻基础：硬件输入

文章目录 triggered：按下一直触发等于tickcompleted：必须等到triggered结束后才触发松下triggered结束默认按键触发顺序按下：触发两个先 Started后 Triggered 松开Completed 触发器：用于修改triggered 触发和结束驱动阈值&…...

编程日记 2025/8/21 20:07:58

【Java ee初阶】多线程（5）

一、wait 和 notify wait notify 是两个用来协调线程执行顺序的关键字，用来避免“线程饿死”的情况。 wait 和 notify 其实都是 Object 这个类的方法，而 Object这个类是所有类的“祖宗类”，也就是说明，任何一个类，都…...

编程日记 2025/8/21 20:07:56

售前赢单评分是越权吗？

相关文章软件实施工作个人看法当前部门软件产品经理的职责涵盖售前支持工作。此前梳理工作时，计划在每个售前支持项目完成后，由支持人对项目赢单概率进行评估，旨在通过这一机制筛选重点项目，为赢单率高的项目优先配置资源。 …...

编程日记 2025/8/25 3:23:47

uniapp中用canvas绘制简单柱形图，小容量，不用插件——简单使用canvas

uniapp中用canvas绘制简单柱形图，小容量，不用插件——简单使用canvas 完整代码 <template><view><view class"navTab"><view :class"listIndexi?activite:"…...

编程日记 2025/8/25 3:23:47

SecureCRT 使用指南：安装、设置与高效操作

目录一、SecureCRT 简介 1.1 什么是 SecureCRT？ 1.2 核心功能亮点 1.3 软件特点二、SecureCRT 安装与激活 2.1 安装步骤（Windows 系统） 2.2 激活与破解（仅供学习参考） 三、基础配置与优化 3.1 界面与编码设…...

编程日记 2025/8/21 11:15:57

WebRTC 服务器之SRS服务器概述和环境搭建

1.概述 SRS（Simple Realtime Server）是一款高性能、跨平台的流媒体服务器，支持多种协议，包括 RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH 和 GB28181。本文介绍了 SRS，包括其用途、关键功能、架构和支持协议。SRS 旨…...

编程日记 2025/8/25 3:20:37

第R8周：RNN实现阿尔兹海默病诊断（pytorch）

- **🍨 本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/rnFa-IeY93EpjVu0yzzjkw) 中的学习记录博客** - **🍖 原作者：[K同学啊](https://mtyjkh.blog.csdn.net/)** 一：前期准备工作 1.设置硬件设备 impo…...

编程日记 2025/8/25 3:24:23

vue+element 导航实现例子

项目使用的是 vue 3，安装配置可以查看栏目前面的文章。组件导航：https://element-plus.org/zh-CN/component/menu.html 面包屑：https://element-plus.org/zh-CN/component/breadcrumb.html 安装element库 PS D:\code\my-vue3-project&g…...

编程日记 2025/8/21 20:07:43

金仓数据库 KingbaseES 在电商平台数据库迁移与运维中深入复现剖析

金仓数据库 KingbaseES 在电商平台数据库迁移与运维中深入复现剖析前言在当今数字化商业蓬勃发展的时代，电商平台的数据量呈爆发式增长，对数据库性能、稳定性和扩展性提出了极高要求。本文章基于大型电商平台原本采用 MySQL 数据库，但随着业…...

编程日记 2025/8/21 11:13:59

Go小技巧易错点100例（三十）

本期分享： 1.切片共享底层数组 2.获取Go函数的注释切片共享底层数组在Go语言中，切片和数组是两种不同的元素，但是切片的底层是数组，并且还有一个比较重要的机制：切片共享底层数组。下面这段代码演示了切片&…...

编程日记 2025/8/21 20:07:39

LeetCode 热题 100 78. 子集

LeetCode 热题 100 | 78. 子集大家好，今天我们来解决一道经典的算法题——子集。这道题在 LeetCode 上被标记为中等难度，要求给定一个整数数组 nums，返回该数组所有可能的子集（幂集）。解集不能包含重复的子集&#x…...

编程日记 2025/8/25 1:43:56

苹果公司正在与亚马逊支持的初创公司Anthropic展开合作

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…...

编程日记 2025/8/21 20:07:36

Python项目源码57：数据格式转换工具1.0（csv+json+excel+sqlite3）

1.智能路径处理：自动识别并修正文件扩展名，根据转换类型自动建议目标路径，实时路径格式验证，自动补全缺失的文件扩展名。 2.增强型预览功能：使用pandastable库实现表格预览，第三方模块自己安装一下&#x…...

编程日记 2025/8/24 2:31:33

Redis总结（六）redis持久化

本文将简单介绍redis持久化的两种方式 redis提供了两种不同级别的持久化方式： RDB持久化方式能够在指定的时间间隔能对你的数据进行快照存储.AOF持久化方式记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始的数据,AOF命令以redis协议追加保…...

编程日记 2025/8/24 16:03:02

【PostgreSQL数据分析实战：从数据清洗到可视化全流程】5.3 相关性分析（PEARSON/SPEARMAN相关系数）

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路文章大纲 5.3 相关性分析（PEARSON/SPEARMAN相关系数）5.3.1 相关性分析理论基础5.3.1.1 相关系数定义与分类5.3.1.2 Pearson相关系数（ Pearson Corr…...

编程日记 2025/8/21 20:07:31

C++负载均衡远程调用学习之负载均衡算法与实现

目录 01 lars 系统架构回顾 02 lars-lbAgentV0.4-route_lb处理report业务流程 03 lars-lbAgentV0.4-负责均衡判断参数配置 04 lars-lbAgentV0.4-负载均衡idle节点的失败率判断 05 lars-lbAgentV0.4-负载均衡overload节点的成功率判断 06 lars-lbAgentV0.4-负载均衡上报提交…...

编程日记 2025/8/23 21:19:15

AIGC学术时代：DeepSeek如何助力实验与数值模拟

目录 1.实验和数值模拟工具 2.结合使用大家好这里是AIWritePaper官方账号，官网👉AIWritePaper~ 在工程和科学研究的世界里，实验与数值模拟是探索未知、验证理论和推动创新的两大支柱。它们如同一对翅膀，让思想得以飞翔&#xf…...

编程日记 2025/8/23 16:51:00

PHP数组排序深度解析：sort()、rsort()、asort()、arsort()、ksort()、krsort() 的适用场景与性能对比

在PHP开发中，数组排序是日常操作的核心技能之一。无论是处理用户数据、产品列表，还是分析日志信息，合理的排序方法能显著提升代码的效率和可维护性。PHP提供了多种数组排序函数（如 sort()、rsort()、asort() 等）&#…...

编程日记 2025/8/24 4:35:56

2025年企业Radius认证服务器市场深度调研：中小企业身份安全投入产出比最优解

引言：数字化转型浪潮下的身份安全新命题在混合办公成为常态、物联网设备呈指数级增长、网络攻击手段日益隐蔽的2025年，企业网络边界正在经历前所未有的重构。据IDC预测，全球企业网络安全投入中，身份与访问管理（IAM&a…...

编程日记 2025/8/21 20:07:24

开源模型应用落地-qwen模型小试-Qwen3-8B-快速体验-批量推理（三）

一、前言阿里云最新推出的 Qwen3-8B 大语言模型，作为国内首个集成“快思考”与“慢思考”能力的混合推理模型，凭借其 80 亿参数规模及 128K 超长上下文支持，正在重塑 AI 应用边界。该模型既可通过轻量化“快思考”实现低算力秒级响应，也能在复杂任务中激活深度推理模式，以…...

编程日记 2025/8/22 21:08:49

相同IP和端口的服务器ssh连接时出现异常

起因把服务器上的一个虚拟机搞坏了，所以删除重新创建了一个，端口号和IP与之前的虚拟机相同。 ssh usernameIP -p port 时报错 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY! Someone…...

编程日记 2025/8/25 1:12:44

VScode中关于Copilot的骚操作

目录 1. Ctrl I 直接在工作区对话 2.Tab 党福音：写注释生成代码 3. 连续写几行函数头，Copilot 会自动“补全全函数” 4. 自动写单元测试 5. 在注释中要求它写某种风格 6. 代码重写器 7. 多语言切换无痛自动翻译 8. 在空文件中写注释&#xff0c…...

编程日记 2025/8/21 3:23:01

linux inotify 资源详解

Linux 的 inotify 是一个强大的文件系统监控机制，允许应用程序实时监听文件和目录的变化。这对于需要响应文件系统事件的应用（如配置热加载、备份工具、文件同步服务等）至关重要。以下是对 inotify 资源的深度解析： 一、核心概念…...

编程日记 2025/8/21 20:07:17

Java SE(8)——继承

1.继承的概念&作用在Java中，继承是面向对象编程的三大基本特性之一（还有封装和多态），允许一个类（子类/继承类）继承另一个类（父类/基类）的属性和方法继承的核心目的是&#xf…...

编程日记 2025/8/21 20:07:15

【论文笔记】SOTR: Segmenting Objects with Transformers

【题目】：SOTR: Segmenting Objects with Transformers 【引用格式】：Guo R, Niu D, Qu L, et al. Sotr: Segmenting objects with transformers[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 7157-7166. 【网…...

编程日记 2025/8/23 5:48:48

AIDC智算中心建设：资源池化核心技术解析

目录一、池化技术架构二、池化核心技术三、展望一、池化技术架构智能算力池化指依托云计算技术，整合 GPU/AI 芯片等异构算力资源，构建集中管理的资源池，并按上层智算业务的需求，对池化的资源进行统一调度、分配&#xff…...

编程日记 2025/8/24 5:26:57

flink监控指标

文章目录一、flink yaml配置二、配置指标项情况提示：以下是基于开源flink on k8s环境下配置监控指标(部分已实验，粗略记录) 一、flink yaml配置配置完成后就可以在页面查询(部分需要验证)指标二、配置指标项情况参考下面网址： 阿里…...

编程日记 2025/8/21 20:07:10

签名去背景图像处理实例

一、前言在生活中我们经常用到电子签名，但有时候我们所获取的图像的彩色图像，我们需要获取白底黑字的电子签名，我们可以通过下面程序对彩色图像进行处理达到我们的处理目的。原始彩色图像如下： 二、原始代码 clear all;close a…...

编程日记 2025/8/21 14:13:50

[人机交互]理解与概念化交互

零.本章重点（理解和分析用户问题） – 解释“问题空间”的概念和含义 – 解释如何概念化交互 – 描述什么是概念模型 – 讨论将界面隐喻作为概念模型的利弊 – 讨论界面具体化和抽象化各自的优缺点 – 概述概念设计和实际设计的关系一.理解问题空间简单…...

编程日记 2025/8/21 20:07:07

C与指针——常见库函数

字符串 #include<stdlibs.h> int abs(int); long labs(long); int rand(void);//0-RAND_MAX //字符串转值 int atoi(const char*); long atol(const char*); float atof(const char*);数学\排序 #include<math.h> \\常见三角，sqrt(); exp(); double p…...

编程日记 2025/8/21 20:07:05

【C++指南】STL list容器完全解读（一）：从入门到掌握基础操作

. 💓 博客主页：倔强的石头的CSDN主页 📝Gitee主页：倔强的石头的gitee主页 ⏩ 文章专栏：《C指南》期待您的关注文章目录一、初识list容器1.1 什么是list？1.2 核心特性1.3 典型应用场景二、核心成员函数…...

编程日记 2025/8/21 20:07:03

Auto.js 脚本：清理手机数据但保留账号

Auto.js 脚本：清理手机数据但保留账号以下是一个使用 Auto.js 实现的脚本，它可以帮你清理手机数据（类似恢复出厂设置），同时尽可能保留已登录的账号状态。请注意，这个脚本不能完全等同于真正的恢复出厂设置…...

编程日记 2025/8/20 23:19:20

Web Workers 技术详解与最佳实践

Web Workers 是 HTML5 提供的一个强大的多线程解决方案，它允许在后台线程中运行 JavaScript 代码，从而避免阻塞主线程。本文将深入探讨 Web Workers 的技术实现和实际应用。一、Web Workers 基础 1. 创建 Worker // 主线程代码 const worker new Wo…...

编程日记 2025/8/21 11:27:46

llama_factory0.9.3微调Qwen3

llama_factory微调QWen1.5-CSDN博客文章浏览阅读3.3k次，点赞36次，收藏10次。本文介绍了如何使用LLaMA-Factory微调Qwen1.5模型，包括1.8B和0.5B版本的训练细节。在数据、训练、LORA融合及...

编程日记 2025/8/21 20:07:01

Linux的时间同步服务器（附加详细实验案例）

一、计时方式的发展 1.古代计时方式公元前约 2000 年：古埃及人利用光线留下的影子计时，他们修建高耸的大型方尖碑，通过追踪方尖碑影子的移动判断时间，这是早期利用自然现象计时的典型方式。商朝时期：人们开发并…...

编程日记 2025/8/21 14:30:41

【全队项目】智能学术海报生成系统PosterGenius--前后端系统介绍

🌈 个人主页：十二月的猫-CSDN博客 🔥 系列专栏： 🏀大模型实战训练营_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录一. 前…...

编程日记 2025/8/23 2:30:32

COlT_CMDB_linux_tomcat_20250505.sh

#!/bin/bash #IT_BEGIN #IT_TYPE3 #IT MIDWARE_TOMCAT_DISCOVERY|discovery.tomcat[disc] #原型指标 #IT_RULE MIDWARE_TOMCAT_IP|ip[{#CATALINA_BASE}] #IT_RULE MIDWARE_TOMCAT_Startpid|Start_pid[{#CATALINA_BASE}] #IT_RULE MIDWARE_TOMCAT_hostname|hostname[{#CATALINA_…...

编程日记 2025/8/20 21:22:21

概述

高性能框架

vLLM

SGLang

vLLM和SGLang

LMDeploy

TGI

DeepSeek AI Open Infra Index

本地部署与轻量化框架

Llama.cpp

Ollama

vLLM和Ollama

KTransformers

灵活部署框架

XInference

OpenLLM

HF Transformers

LiteLLM

TensorRT-LLM

MLC-LLM

选型

选型决策树

参考

相关文章：