当前位置：首页 > news >正文

模型部署实战：PyTorch生产化指南

news 来源：原创 2025/8/7 14:13:25

‌一、为什么要做模型部署？‌

模型部署是将训练好的模型‌投入实际应用‌的关键步骤，涉及：

模型格式转换（TorchScript/ONNX）
性能优化（量化/剪枝）
构建API服务
移动端集成

本章使用ResNet18实现图像分类，并演示完整部署流程。

‌二、模型转换：TorchScript与ONNX‌

‌1. 准备预训练模型

import torch
import torchvision# 加载预训练模型
model = torchvision.models.resnet18(weights='IMAGENET1K_V1')
model.eval()# 示例输入
dummy_input = torch.rand(1, 3, 224, 224)

‌2. 导出为TorchScript

# 方法一：追踪执行路径（适合无控制流模型）
traced_model = torch.jit.trace(model, dummy_input)
torch.jit.save(traced_model, "resnet18_traced.pt")# 方法二：直接转换（适合含if/for的模型）
scripted_model = torch.jit.script(model)
torch.jit.save(scripted_model, "resnet18_scripted.pt")# 加载测试
loaded_model = torch.jit.load("resnet18_traced.pt")
output = loaded_model(dummy_input)
print("TorchScript输出形状:", output.shape)  # 应输出torch.Size([1, 1000])

‌3. 导出为ONNX格式

torch.onnx.export(model,dummy_input,"resnet18.onnx",input_names=["input"],output_names=["output"],dynamic_axes={'input': {0: 'batch_size'}, 'output': {0: 'batch_size'}}
)# 验证ONNX模型
import onnx
onnx_model = onnx.load("resnet18.onnx")
onnx.checker.check_model(onnx_model)
print("ONNX模型输入输出:")
print(onnx_model.graph.input)
print(onnx_model.graph.output)

‌三、构建API服务‌

‌1. 使用FastAPI创建Web服务

from fastapi import FastAPI, File, UploadFile
from PIL import Image
import io
import numpy as np
import torchvision.transforms as transformsapp = FastAPI()# 加载TorchScript模型
model = torch.jit.load("resnet18_traced.pt")# 图像预处理
preprocess = transforms.Compose([transforms.Resize(256),transforms.CenterCrop(224),transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])@app.post("/predict")
async def predict(image: UploadFile = File(...)):# 读取并预处理图像image_data = await image.read()img = Image.open(io.BytesIO(image_data)).convert("RGB")tensor = preprocess(img).unsqueeze(0)# 执行推理with torch.no_grad():output = model(tensor)# 获取预测结果_, pred = torch.max(output, 1)return {"class_id": int(pred)}# 运行命令：uvicorn main:app --reload

‌2. 测试API服务

import requests# 准备测试图片
url = "https://images.unsplash.com/photo-1517849845537-4d257902454a?auto=format&fit=crop&w=224&q=80"
response = requests.get(url)
with open("test_dog.jpg", "wb") as f:f.write(response.content)# 发送预测请求
with open("test_dog.jpg", "rb") as f:files = {"image": f}response = requests.post("http://localhost:8000/predict", files=files)print("预测结果:", response.json())  # 应输出对应类别ID

‌四、移动端部署（Android/iOS）‌

‌1. 转换Core ML格式（iOS）

import coremltools as ct# 从PyTorch转换
example_input = torch.rand(1, 3, 224, 224) 
traced_model = torch.jit.trace(model, example_input)mlmodel = ct.convert(traced_model,inputs=[ct.TensorType(shape=example_input.shape)]
)
mlmodel.save("ResNet18.mlmodel")

‌2. 使用PyTorch Mobile（Android）

// Android示例代码（Java）
Module module = Module.load(assetFilePath(this, "resnet18_traced.pt"));
Tensor inputTensor = TensorImageUtils.bitmapToFloat32Tensor(bitmap,TensorImageUtils.TORCHVISION_NORM_MEAN_RGB,TensorImageUtils.TORCHVISION_NORM_STD_RGB
);
Tensor outputTensor = module.forward(IValue.from(inputTensor)).toTensor();

五、性能优化技巧‌

‌1. 模型量化（减少体积/提升速度）

# 动态量化
quantized_model = torch.quantization.quantize_dynamic(model, {torch.nn.Linear}, dtype=torch.qint8
)
torch.jit.save(torch.jit.script(quantized_model), "resnet18_quantized.pt")# 测试量化效果
print("原始模型大小:", sum(p.numel() for p in model.parameters()))
print("量化模型大小:", sum(p.numel() for p in quantized_model.parameters()))

2. ONNX Runtime加速推理

import onnxruntimeort_session = onnxruntime.InferenceSession("resnet18.onnx")
ort_inputs = {ort_session.get_inputs().name: dummy_input.numpy()}
ort_outputs = ort_session.run(None, ort_inputs)print("ONNX Runtime输出形状:", ort_outputs.shape)

六、常见问题解答‌

‌Q1：如何处理模型版本兼容性问题？‌

保持PyTorch版本一致（使用requirements.txt固定版本）
转换时指定opset_version：

torch.onnx.export(..., opset_version=13)

‌Q2：部署时出现形状不匹配错误？‌

检查预处理是否与训练时一致
使用Netron可视化模型输入输出：

pip install netron
netron resnet18.onnx

‌Q3：如何监控API性能？‌

添加中间件记录响应时间：

@app.middleware("http")
async def add_process_time(request, call_next):start_time = time.time()response = await call_next(request)response.headers["X-Process-Time"] = str(time.time() - start_time)return response

‌七、小结与下篇预告‌

‌本文重点‌：
1. 模型格式转换（TorchScript/ONNX）
2. 构建高并发API服务
3. 移动端部署与性能优化
‌下篇预告‌：
第六篇将深入PyTorch生态，介绍分布式训练与多GPU加速策略，实现工业级训练效率！

模型部署实战：PyTorch生产化指南

‌一、为什么要做模型部署？‌ 模型部署是将训练好的模型‌投入实际应用‌的关键步骤，涉及： 模型格式转换（TorchScript/ONNX）性能优化（量化/剪枝）构建API服务移动端集成本章使用ResNet18实现图…...

编程日记 2025/8/7 14:13:25

SQLMesh 系列教程：Airbnb数据分析项目实战

在本文中，我们将探讨如何利用dbt项目的代码库来实现一个简单的SQLMesh项目。本文的基础是基于Udemy讲师为dbt课程创建的示例项目，可以在这个GitHub repo中获得。这个dbt项目是相对完整的示例，我们将使用它作为模板来演示SQLMesh（下…...

编程日记 2025/8/7 11:29:40

LeetCode hot 100 每日一题(11)——189. 轮转数组

这是一道难度为中等的题目，让我们来看看题目描述： 给定一个整数数组 nums，将数组中的元素向右轮转 k 个位置，其中 k 是非负数。示例 1: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4] 解释: 向右轮转 1 步: [7,1,2,3…...

编程日记 2025/8/2 13:16:20

VLAN综合实验

一、实验拓扑二、实验要求 1、PC1/3处于同一个网段，所在接口为access，属于VLAN 2。 2、PC2/4/5/6处于同一网段。 3、PC2可以访问PC4/5/6。 4、PC4可以访问PC5，但不能访问PC6。 5、PC5不能访问PC6。 6、所有PC通过DHCP获取IP地址&#…...

编程日记 2025/8/3 14:13:00

杨辉三角（js实现，LeetCode118）

看到这道题我的第一反应是找规律，核心突破点是numRows这个参数，杨辉三角的第numRows行拥有的元素数量为numRows个，并且头尾都是1，由此我们可以通过双层for循环，先生成每一行的数组，然后将每一行的数组push进…...

编程日记 2025/8/7 8:19:23

C语言复习笔记--数组

今天继续来浅浅推进一下C语言的复习,这次是数组的复习,话不多说,正文开始. 数组的概念数组是⼀组相同类型元素的集合,一种自定义类型.数组中元素个数不能为0.数组分为⼀维数组和多维数组，多维数组⼀般⽐较多⻅的是⼆维数组. 下面从一维数组说起. 一维数组的创建和…...

编程日记 2025/8/6 13:22:09

Linux操作系统实验报告单（3）文本编辑器vi/vim

一、实验目的掌握vi/vim编辑器的进入和退出方式了解vi/vim的三种模式熟练vi/vim的操作命令二、实验内容 1.在家目录下新建一个名为“vitest_name”（“name”为学生姓名拼音）的目录。 ●创建用户目录命令：sudo mkdir /home/vitest_lw3613 …...

编程日记 2025/8/7 14:12:09

docker linux 常用操作命令

以下是 Docker 的常见操作命令及其简单介绍，帮助你快速上手 Docker 的基本使用： 1. 镜像操作拉取镜像 docker pull 镜像名称:标签示例： docker pull ubuntu:20.04从 Docker Hub 拉取 Ubuntu 20.04 镜像。拉取镜像 docker build -t"…...

编程日记 2025/8/7 14:10:45

除自身以外数组的乘积——面试经典150题（力扣）

题目给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。题目数据保证数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位整数范围内。请不要使用除法，且在 O(n) 时…...

编程日记 2025/7/31 5:19:59

打破煤矿通信屏障，无线系统赋能生产安全与智能进阶

项目背景在煤矿行业智能化转型的浪潮中，七台河矿业局积极回应国家煤矿智能化建设的号召，采取了具有前瞻性的战略举措——在七台河地区的煤矿部署了“井上井下”无线覆盖与广播一体化系统。此举旨在消除井上与井下之间的通信障碍，加强矿业局与…...

编程日记 2025/8/7 12:43:19

DeepSeek + Kimi 自动生成 PPT

可以先用deepseek生成ppt大纲，再把这个大纲复制到Kimi的ppt助手里： https://kimi.moonshot.cn/kimiplus/conpg18t7lagbbsfqksg 选择ppt模板： 点击生成ppt就制作好了。...

编程日记 2025/8/7 14:09:04

Blender标注工具

按住键盘D键鼠标左键绘制 / 右键擦除也可以在上方选择删除...

编程日记 2025/8/7 14:12:10

鸿蒙开发：远场通信服务rcp拦截器问题

前言本文基于Api13。上篇文章，简单的对rcp中的会话问题做了概述，本篇文章，我们聊一聊rcp中的拦截器问题，按照正常开发，其实拦截器中也不存在问题的，毕竟都是很官方的开发方式，但是在结合了创建…...

编程日记 2025/8/4 1:42:59

调研报告：Hadoop 3.x Ozone 全景解析

Ozone 是 Hadoop 的分布式对象存储系统，具有易扩展和冗余存储的特点。 Ozone 不仅能存储数十亿个不同大小的对象，还支持在容器化环境（比如 Kubernetes）中运行。 Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口…...

编程日记 2025/8/7 14:12:10

控制器 <?phpnamespace app\api\controller; use think\Controller; use think\facade\Db; use think\facade\Request;use ZipArchive;class DrugTestResult {public function download(){if(Request::isPost()){$data Request::post();$idnumber Request::param(idnumb…...

编程日记 2025/8/4 1:42:22

NGINX中的反向代理实践

以下是一个全面和优化的配置示例，包括了错误处理、超时设置、头部信息调整等： server {listen 80;server_name your.domain.name; # 替换为你的实际域名或IP地址# 前端应用的静态资源处理location / {root /path/to/vue/dist; # Vue 应用的dist目录try_…...

编程日记 2025/8/6 3:36:14

redis分布式锁实现Redisson+redlock中watch dog是如何判断当前线程是否持有锁进行续租的呢？

在 Redis 中，Watch Dog（看门狗）机制主要用于实现分布式锁的自动续期（如 Redisson 的 RedLock 实现）。其核心目的是确保当业务逻辑执行时间超过锁的初始过期时间（leaseTime）时，锁不会…...

编程日记 2025/8/6 17:15:06

[spring] Spring JPA - Hibernate 多表联查 1

[spring] Spring JPA - Hibernate 多表联查 1 之前在 [spring] spring jpa - hibernate 名词解释&配置和 [spring] spring jpa - hibernate CRUD 简单的学习了一下怎么使用 Hibernate 实现 CRUD 操作，不过涉及到的部分都是逻辑上比较简单的实现——只在一张表…...

编程日记 2025/8/5 14:17:13

在 Elasticsearch 中探索基于 NVIDIA 的 GPU 加速向量搜索

作者：来自 Elastic Chris Hegarty 及 Hemant Malik 由 NVIDIA cuVS 提供支持，此次合作旨在为开发者在 Elasticsearch 中的向量搜索提供 GPU 加速。在 Elastic Engineering 组织内，我们一直致力于优化向量数据库的性能。我们的使命是让 Lucen…...

编程日记 2025/8/4 14:01:46

2025年图生视频模型技术全景解析

一、开源图生视频模型阿里通义万象Wan2.1系列 I2V-14B-480P： 14B参数基础模型支持480P分辨率图生视频显存需求16GB以上 I2V-14B-720P： 高清增强版模型采用分帧渲染技术，输出分辨率达1280720 技术特性： 支持中文提示词自动解析内置…...

编程日记 2025/8/7 8:13:06

Docker build 会在本地产生巨大的文件

Docker build 会在本地产生巨大的文件， 比如用这个命令列出本地镜像 docker images 可见size都是很大的， 到docker目录下，看到ext4.vhdx的大小 80多G 那只能用这个命令把不用的镜像删掉了： （rmi后面是镜像id&a…...

编程日记 2025/8/6 7:42:43

使用LLaMA Factory微调导出模型，并用ollama运行，用open webui使用该模型

本篇记录学习使用llama factory微调模型的过程，使用ollama运行微调好的模型，使用open webui前端调用ollama的模型； 测试机信息： 系统：Ubuntu 24.04.2 LTS（桌面版） cpu：i9-14900KF …...

编程日记 2025/8/7 14:09:17

Git远程拉取和推送配置

Git进行远程代码拉取和推送时候提示配置user.name 和 user.email 背景：换新电脑后使用Git进行代码拉取和推送过程中，提示“Make sure you configure your “user.name” and “user.email” in git.”。这个配置针对git的正常使用仅需要配置一次&#xf…...

编程日记 2025/8/5 1:14:58

正则魔法：解码 return /^\d+$/.test(text) ? text : ‘0‘ 的秘密

🚀 正则魔法：解码 return /^\d$/.test(text) ? text : 0 的秘密 🌟 嘿，技术探险家们！👋 今天我们要破解一段看似简单的代码：return /^\d$/.test(text) ? text : 0。它藏在一个 Vue 前端组件中…...

编程日记 2025/8/5 11:50:45

[023-01-47].第47节：组件应用 - GetWay与 Sentinel 集成实现服务限流

SpringCloud学习大纲一、需求说明： 实现网关cloudalibaba-sentinel-gateway9528模块保护cloudalibaba-provider-payment9001 二、编码实现： 2.1.建module: 新建模块，名称是：cloudalibaba-sentinel-gateway9528 2.2.改pom &l…...

编程日记 2025/8/5 4:43:28

【自用】NLP算法面经（5）

一、L1、L2正则化正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时，它已经很好地学习了训练数据，甚至是训练数据中的噪声，所以可能无法在新的、未见过的数据上表现良好。比如： 其中，x1和…...

编程日记 2025/7/31 13:25:02

AI视频生成产品体验分享（第2趴）：Vidu、Hailuo、Runway、Pika谁更胜一筹？

hi，大家，继上次体验完可灵、即梦和pixverse，今天打算从产品经理的角度再研究下Vidu、Hailuo、Runway、Pika这几款产品！欢迎加入讨论！ 一、产品简介 1. Vidu：国产自研的「一致性标杆」 📌官网…...

编程日记 2025/8/7 14:10:49

火绒终端安全管理系统V2.0——行为管理（软件禁用+违规外联）

火绒终端安全管理系统V2.0：行为管理策略分为软件禁用和违规外联两部分，能够管理终端用户软件的使用，以及终端用户违规连接外部网络的问题。 l 软件禁用软件禁用策略可以选择软件名单的属性、添加软件名单以及设置发现终端使用禁用软件时的…...

编程日记 2025/7/30 8:41:05

台式机电脑组装---电脑机箱与主板接线

台式机电脑组装—电脑机箱与主板接线 1、机箱连接主板的跳线一般主要有USB 2.0、USB 3.0、前置音频接口(HD_AUDIO)以及POWER SW、RESET SW、POWER LED、HDD LED四个主板跳线，这些跳线分别的含义如下。 RESET SW：机箱重启按键；注&#xff1a…...

编程日记 2025/8/4 8:38:01

【总结】常用API架构类型

引言在现代软件开发中，API(应用程序编程接口)已经成为各类系统之间交互的核心。不同的 API 架构类型适用于不同的业务需求和技术场景，选择合适的架构可以提高系统的性能、可维护性和扩展性。本文将介绍几种常见的 API 架构类型，并分析它们的…...

编程日记 2025/8/6 8:22:12

ffmpeg库视频硬解码使用流程

FFmpeg 的硬解码（Hardware Decoding）通过调用 GPU 或专用硬件的编解码能力实现，能显著降低 CPU 占用率。 ‌一、FFmpeg 支持的硬件解码类型‌ FFmpeg 原生支持多种硬件加速类型，具体由 AVHWDeviceType 定义，包括&…...

编程日记 2025/8/5 4:36:12

两个常用的用于读写和操作DXF文件C#库:netDxf 和 DXF.NET

netDxf 和 DXF.NET 是两个常用的C#库，用于读取、写入和操作DXF文件。以下是它们的详细介绍和用法示例。 1. netDxf 简介 netDxf 是一个开源的DXF文件读写库，支持AutoCAD DXF格式的读取和写入。它支持大多数DXF实体和对象，并且易于使用。 Gi…...

编程日记 2025/8/4 1:28:10

jmeter吞吐量控制器-Throughput Controller

jmeter吞吐量控制器-Throughput Controller 新增吞吐量控制器名词解释测试场景场景1：场景2：场景3场景4场景5场景6场景7场景8 测试结论根据百分比执行不同的接口测试场景测试结果新增吞吐量控制器名词解释 Based on: Total Executions(总执行数)/Perc…...

编程日记 2025/8/7 14:09:15

windows 平台编译openssl

文章目录准备环境安装perl安装NASM获取源码源码编译配置编译准备环境安装perl 下载Perl 5.40.0.1 Portable zip strawberryperl 解压后设置系统环境变量测试安装是否成功 perl --versionThis is perl 5, version 40, subversion 0 (v5.40.0) built for MSWin32-x64-m…...

编程日记 2025/8/7 14:12:07

【Linux】Makefile秘籍

> 🍃 本系列为Linux的内容，如果感兴趣，欢迎订阅🚩 > 🎊个人主页:【小编的个人主页】 >小编将在这里分享学习Linux的心路历程✨和知识分享🔍 >如果本篇文章有问题，还请多多包涵&a…...

编程日记 2025/8/7 14:10:47

Python散点图(Scatter Plot)：数据探索的“第一张图表”

在数据可视化领域，散点图是一种强大而灵活的工具，它能够帮助我们直观地理解和探索数据集中变量之间的关系。本文将深入探讨散点图的核心原理、应用场景以及如何使用Python进行高效绘制。后续几篇将介绍高级技巧、复杂应用场景。 Python散点图(Scatter Plot)：高阶分析、散点…...

编程日记 2025/8/4 15:44:09

Spring AI Alibaba快速使用

AI 时代，Java 程序员也需要与时俱进，这两个框架必须掌握。一个是 Spring AI一个是 Spring Alibaba AI。 Spring AI 是一个AI工程领域的应用程序框架，它的目标是将 Spring生态系统的设计原则应用于人工智能领域。但是， Spring…...

编程日记 2025/8/6 17:02:12

Redis 跳表原理详解

一、引言在 Redis 中，有序集合（Sorted Set）是一种非常重要的数据结构，它可以实现元素的有序存储和高效查找。而实现有序集合的底层数据结构之一就是跳表（Skip List）。跳表是一种随机化的数据结构&#xff…...

编程日记 2025/8/4 5:27:03

安全地自动重新启动 Windows 资源管理器Bat脚本

安全地自动重新启动 Windows 资源管理器脚本可以直接运行的 Windows 批处理脚本，用于安全地自动重新启动 Windows 资源管理器。该脚本会在杀死资源管理器之前检查是否有其他进程正在使用资源管理器相关的文件。 Bat脚本 echo off title 资源管理器安全重启工具 co…...

编程日记 2025/8/4 6:09:55

【C++模板】

模板初阶前言1.定义模板2.函数模板2.1定义2.2实例化函数模板2.3模板参数的匹配原则 3.类模板3.1类模板实例化前言模板是C中泛型编程的基础，一个模板就是一个创建类和函数的蓝图或公式。 1.定义模板假定我们希望编写一个函数来比较两个值，并指出第…...

编程日记 2025/8/4 15:44:09

基于Debian搭建FTP服务器

操作系统 Debian-9.6.0-amd64，图形化安装基础操作 1.软件安装管理命令方式： 在线安装 sudo apt-get install vim/ifconfig 查看安装软件 dpkg -l 图形化桌面方式 ： 通过“软件管理”工具管理 2.网络管理 /etc/network/interfaces 3.文本…...

编程日记 2025/8/6 13:21:46

如果我的项目是用ts写的，那么如何使用webpack的动态导入功能呢？

在 TypeScript 项目中使用 Webpack 的动态导入（Dynamic Imports）功能，需要结合 TypeScript 的语法和 Webpack 的配置。以下是具体实现方法和注意事项： 一、基础配置 1. 修改 tsconfig.json 确保 TypeScript 支持动态导入语法&am…...

编程日记 2025/8/3 18:39:55