当前位置：首页 > news >正文

【个人开发】macbook m1 Lora微调qwen大模型

news 来源：原创 2025/7/6 18:04:54

本项目参考网上各类教程整理而成，为个人学习记录。
项目github源码地址：Lora微调大模型

项目中微调模型为：qwen/Qwen1.5-4B-Chat。
去年新发布的Qwen/Qwen2.5-3B-Instruct同样也适用。

微调步骤

step0: 环境准备

conda create --name fine-tuning python=3.10
conda activate fine-tuning
pip3 install -r requirements.txt

step1: 下载模型

本次微调使用Qwen/Qwen1.5-4B-Chat，通过modelscope下载。维护好train.py中的model_id即可，train.py运行时候，会自动下载。

其他下载方式，

# 下载到~/.cache目录。
modelscope download --model qwen/Qwen1.5-4B-Chat

step2: 准备微调语料

微调语料见./dataset/huanhuan.json文件，可根据需求调整语料。

step3: 训练模型

相应源码见github。

python3 train.py

说明：
为提升模型的微调效果，可根据需求调整train.py中训练参数：num_train_epochs(迭代次数)，

    training_args = TrainingArguments(output_dir=checkpoint_dir,per_device_train_batch_size=4,gradient_accumulation_steps=4,logging_steps=10,num_train_epochs=20,save_steps=100,learning_rate=1e-4,save_on_each_node=True,gradient_checkpointing=True,)

step4: 调用训练后的模型

相关代码参考train.py中的infer函数

step5: 合并模型及调用合并后的模型进行问答

分别对应merge.py中的merge函数根chat函数。

python3 merge.py

注意：因为是对话式文本生成模型，所以建议使用如下的推理方式，应包含eos_token_id，pad_token_id，attention_mask这些参数，否则容易出现回答后带上一些乱七八糟的东西。

prompt = "你好"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages)
model_inputs = tokenizer([text], return_tensors="pt")
generated_ids = model.generate(model_inputs.input_ids,max_length=50,max_new_tokens=512,eos_token_id=tokenizer.encode('<|eot_id|>')[0],pad_token_id=tokenizer.pad_token_id,attention_mask=model_inputs.attention_mask,
)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

同理，这里踩了个坑，使用如下的推理方式，回答也是乱起八糟。

prompt = "你好"
inputs = tokenizer(prompt, return_tensors="pt")
# 生成文本
output_sequences = model.generate(inputs['input_ids'],max_length=50,temperature=0.7,num_return_sequences=1
)
# 解码生成的文本
generated_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
print(generated_text)

step6: ollama集成

集成到ollama中，需要两个步骤。

step6.1 转化为gguf文件

项目同目录下，下载llama.cpp并安装

cd .. 
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip3 install -r requirements.txt
make

转化为gguf文件

python convert_hf_to_gguf.py ../fine-tuning-by-Lora/models/output/qwen/Qwen1.5-4B-Chat --outtype f16 --outfile ../fine-tuning-by-Lora/models/

step6.2 打包模型文件

model文件夹中编辑Modelfile文件

# Modelfile文件内容
FROM Qwen1.5-4B-Chat-F16.ggufTEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token>"

打包：

ollama create Qwen1.5-4B-Chat-F16 -f Modelfile

step6.3 运行

ollama run Qwen1.5-4B-Chat-F16:latest

微调效果

说明：如果Modelfile中的TEMPLATE跟PARAMETER参数没写，模型推理结果也可能胡说八道。

打包到ollama之后，可以直接把模型接入到dify。

在这里插入图片描述

踩坑过程

经验1

一般在微调的时候，需要关注模型的loss情况，自己训练20轮的话，损失函数的值能看到在收敛，但还是还没完全收敛。

如果模型微调后效果不好，可以关注训练时损失函数下降情况。一般到50～60轮左右，loss会下降到0.01左右的水平，相应的梯度（grad_norm）跟学习率（learning_rate）也会减少。

{'loss': 3.2201, 'grad_norm': 4.969257831573486, 'learning_rate': 9.5e-05, 'epoch': 5.0}
{'loss': 1.5577, 'grad_norm': 1.9476478099822998, 'learning_rate': 9e-05, 'epoch': 10.0}
{'loss': 0.7901, 'grad_norm': 2.8456532955169678, 'learning_rate': 8.5e-05, 'epoch': 15.0}
{'loss': 0.1381, 'grad_norm': 0.3789016008377075, 'learning_rate': 8e-05, 'epoch': 20.0}
{'loss': 0.0045, 'grad_norm': 0.06659594923257828, 'learning_rate': 7.5e-05, 'epoch': 25.0}
{'loss': 0.0014, 'grad_norm': 0.034729525446891785, 'learning_rate': 7e-05, 'epoch': 30.0}
{'loss': 0.0007, 'grad_norm': 0.020955145359039307, 'learning_rate': 6.5e-05, 'epoch': 35.0}
{'loss': 0.0005, 'grad_norm': 0.01589277759194374, 'learning_rate': 6e-05, 'epoch': 40.0}
{'loss': 0.0003, 'grad_norm': 0.013618703931570053, 'learning_rate': 5.5e-05, 'epoch': 45.0}
{'loss': 0.0003, 'grad_norm': 0.01169560570269823, 'learning_rate': 5e-05, 'epoch': 50.0}
{'loss': 0.0002, 'grad_norm': 0.010867319069802761, 'learning_rate': 4.5e-05, 'epoch': 55.0}
{'loss': 0.0002, 'grad_norm': 0.010721373371779919, 'learning_rate': 4e-05, 'epoch': 60.0}
{'loss': 0.0002, 'grad_norm': 0.010178590193390846, 'learning_rate': 3.5e-05, 'epoch': 65.0}
{'loss': 0.0002, 'grad_norm': 0.009332481771707535, 'learning_rate': 3e-05, 'epoch': 70.0}
{'loss': 0.0002, 'grad_norm': 0.009383821859955788, 'learning_rate': 2.5e-05, 'epoch': 75.0}
{'loss': 0.0002, 'grad_norm': 0.008890513330698013, 'learning_rate': 2e-05, 'epoch': 80.0}
{'loss': 0.0002, 'grad_norm': 0.008669395931065083, 'learning_rate': 1.5e-05, 'epoch': 85.0}
{'loss': 0.0002, 'grad_norm': 0.00943685695528984, 'learning_rate': 1e-05, 'epoch': 90.0}
{'loss': 0.0002, 'grad_norm': 0.0088260592892766, 'learning_rate': 5e-06, 'epoch': 95.0}
{'loss': 0.0002, 'grad_norm': 0.008713439106941223, 'learning_rate': 0.0, 'epoch': 100.0}
{'train_runtime': 3008.4296, 'train_samples_per_second': 0.532, 'train_steps_per_second': 0.033, 'train_loss': 0.2857893861143384, 'epoch': 100.0}

报错1

训练时报错：NotImplementedError: Cannot copy out of meta tensor; no data! Please use torch.nn.Module.to_empty() instead of torch.nn.Module.to() when moving module from meta to a different device.

训练时在调用transformers/trainer.py的时候，会报该错。

源码如下：

model = model.to(device)

尝试了如下方式:

#修改方式
#origin: new_value=old_value.to("cpu"),下面两种写法任选其一
new_value=torch.tensor(old_value,device="cpu")
new_value=torch.empty_like(old_value,device="cpu")

不好使！

最后好使的方式是关掉电脑中高内存的应用，给程序提供足够的资源。

报错2

推理时候报错：RuntimeError: Placeholder storage has not been allocated on MPS device!

解决方案：关掉电脑高内存应用，强制设置 device = “cpu”。

报错3

合并模型出现报错，自己尝试时候只出现过一次，报错为，模型某一层的key值在某个模块中没找到

解决方案：重新微调模型，可能是模型微调出现了中断or其他原因，导致模型结构出现异常

参考文档：

Mac M2之LLaMA3-8B微调（llama3-fine-tuning）

【个人开发】macbook m1 Lora微调qwen大模型

本项目参考网上各类教程整理而成，为个人学习记录。项目github源码地址：Lora微调大模型项目中微调模型为：qwen/Qwen1.5-4B-Chat。去年新发布的Qwen/Qwen2.5-3B-Instruct同样也适用。微调步骤 step0: 环境准备 conda create --name fin…...

编程日记 2025/7/6 18:04:54

开源项目OpenIM单机部署生产环境异常处理及数据恢复

在生产环境中，通常会采用集群部署来保证组件和服务的高可用性。然而，在资源有限的情况下，一些开发者可能会选择在生产环境中进行单机部署（使用源码部署或docker容器）。本文将介绍在单机部署环境下如何进行数据备份、异…...

编程日记 2025/7/5 22:17:37

天津三石峰科技——汽车生产厂的设备振动检测项目案例

汽车产线有很多传动设备需要长期在线运行，会出现老化、疲劳、磨损等问题，为了避免意外停机造成损失，需要加装一些健康监测设备，监测设备运行状态。天津三石峰科技采用 12 通道振动信号采集卡（下图 1）对…...

编程日记 2025/7/6 18:04:27

MySQL-5.7.44安装（CentOS7）

目录 1、下载安装包并解压 2、创建数据目录与日志目录 3、设置环境变量 4、刷新环境变量 5、执行初始化 6、创建配置文件目录 7、新建配置文件 8、为安装目录赋予可执行权限 9、创建服务启动脚本 10、启动服务并将启动脚本加入开机自启动 11、查看服务状态 12、创建…...

编程日记 2025/7/6 18:04:03

什么是网络安全

1) 什么是网络安全作为程序员，主要是面向产品的安全的问题。比如sql注入，xss，csrf，cookie窃取等等，都值得我们去思考。保证网站运行正常，客户数据安全。 2) sql注入简单的说，就是利用表单提…...

编程日记 2025/7/6 18:03:50

即时通讯开源项目OpenIM配置离线推送全攻略

如何进行二次开发如果您需要基于 OpenIM 开发新特性，首先要确定是针对业务侧还是即时通讯核心逻辑。由于 OpenIM 系统本身已经做好了比较多的抽象，大部分聊天的功能已经具备了，不建议修改 IM 本身。如果需要增加 IM 的能力，可以…...

编程日记 2025/7/6 18:03:39

快速上手——.net封装使用DeekSeek-V3 模型

📢欢迎点赞：👍 收藏 ⭐留言 📝 如有错误敬请指正，赐人玫瑰，手留余香！📢本文作者：由webmote 原创📢作者格言：新的征程，用爱发电，去丈量人心，是否能达到人机合一？开工大吉新的一年就这么水灵灵的开始了，在这里，祝各位读者新春快乐，万事如意！新年伊…...

编程日记 2025/7/6 18:03:19

【原创】Android Studio Ladybug 中Gradle配置

使用Android Studio创建项目后，由于需要下载的一下文件在国外，加上网速的问题，以及防火墙的问题，不少文件难以下载。常常导致项目创建后，要等很长时间，各种折腾，结果一个demo都跑不起来。经过…...

编程日记 2025/7/6 18:02:58

Java版本与JDK版本

两者关联 Java版本指的Java语言和平台的版本，例如Java8、Java11、Java17等，每个版本会引入新特性、改进和修复。 JDK(Java Development Kit)版本则是开发工具包，包含编译器、调试器等工具，通常与Java版本对应，例如JDK…...

编程日记 2025/7/4 18:32:55

【GeeRPC】Day3：服务注册（Service Register）

Day3：服务注册（Service Register） 今天的任务是： 通过反射实现服务注册功能；在服务端实现服务调用，代码约 150 行； 结构体映射为服务 RPC 框架的一个基本能力是：像调用本地程序一…...

编程日记 2025/7/2 14:53:44

c/c++蓝桥杯经典编程题100道（17）二叉树遍历

二叉树遍历 ->返回c/c蓝桥杯经典编程题100道-目录目录二叉树遍历一、题型解释二、例题问题描述三、C语言实现解法1：递归前序遍历（难度★） 解法2：迭代中序遍历（难度★★） 解法3&#xff1a…...

编程日记 2025/7/4 9:19:18

mysql系统库介绍,数据字典(介绍,存储方式,常见表,访问权限),系统表(介绍,不同功能的表)

目录 mysql系统库介绍数据字典介绍不同版本下的存储方式常见的数据字典表访问权限系统表介绍权限授予系统表对象信息系统表服务器端帮助系统表时区系统表 mysql系统库介绍 MySQL 默认创建的特殊数据库，主要用于存储服务器运行时所需的信…...

编程日记 2025/7/6 17:14:09

如何在macOS上安装Ollama

安装Ollama 安装Ollama的步骤相对简单，以下是基本的安装指南： 访问官方网站：打开浏览器，访问Ollama的官方网站。下载安装包：根据你的操作系统，选择相应的安装包进行下载。运行安装程序：下载完…...

编程日记 2025/7/1 0:15:11

【JavaScript】《JavaScript高级程序设计 (第4版) 》笔记-Chapter6-集合引用类型

六、集合引用类型 Object 是 ECMAScript 中最常用的类型之一。虽然 Object 的实例没有多少功能，但很适合存储和在应用程序间交换数据。显式地创建 Object 的实例有两种方式。第一种是使用 new 操作符和 Object 构造函数。另一种方式是使用对象字面量（ob…...

编程日记 2025/7/1 1:41:12

Spring Boot Actuator使用

说明：本文介绍Spring Boot Actuator的使用，关于Spring Boot Actuator介绍，下面这篇博客写得很好，珠玉在前，我就不多介绍了。 Spring Boot Actuator 简单使用项目里引入下面这个依赖 <!--Spring Boot Actuator依…...

编程日记 2025/7/3 21:54:12

SwanLab x verl：可视化LLM强化学习后训练教程

文章目录介绍Verl和SwanLab1. 环境安装2. 使用方法3. 查看训练日志介绍Verl和SwanLab verl 是一个灵活、高效且可用于生产环境的强化学习（RL）训练框架，专为大型语言模型（LLMs）的后训练设计。它由字节跳动火山引擎团…...

编程日记 2025/6/29 13:47:33

安装安装前检查配置： 挂载50g盘： vgcreate oravg /dev/sdb lvcreate -L 49.8G -n oralv oravg lvscan mkfs.xfs /dev/oravg/oralv 查看uuid blkid 复制分区表 cp /etc/fstab /etc/fstab.bakvi /etc/fstab内容为: /dev/oravg/oralv /u01 xfs defau…...

编程日记 2025/6/28 4:30:58

半导体制造工艺讲解

目录一、半导体制造工艺的概述二、单晶硅片的制造 1.单晶硅的制造 2.晶棒的切割、研磨 3.晶棒的切片、倒角和打磨 4.晶圆的检测和清洗三、晶圆制造 1.氧化与涂胶 2.光刻与显影 3.刻蚀与脱胶 4.掺杂与退火 5.薄膜沉积、金属化和晶圆减薄 6.MOSFET在晶圆表面的形…...

编程日记 2025/7/4 19:57:51

VMware下Linux和macOS安装VSCode一些总结

本文介绍VMware下Linux和macOS安装VSCode的一些内容，包括VSCode编译器显示中文以及安装.NET环境和Python环境。 VSCode下载地址：Download Visual Studio Code - Mac, Linux, Windows 一.Linux系统下 1.安装中文包按 Ctrl Shift P 打开命令面板。输…...

编程日记 2025/6/29 22:14:29

STC51 单片机中，定时器 / 计数器相关的寄存器

在 STC51 单片机中，定时器 / 计数器相关的寄存器主要有定时器控制寄存器（TCON）、定时器工作方式寄存器（TMOD）以及定时器初值寄存器（TH0、TL0、TH1、TL1），下面详细解释这些寄存器各位…...

编程日记 2025/7/3 18:00:46

DeepSeek与人工智能的结合：探索搜索技术的未来

云边有个稻草人-CSDN博客目录引言一、DeepSeek的技术背景 1.1 传统搜索引擎的局限性 1.2 深度学习在搜索中的优势二、DeepSeek与人工智能的结合 2.1 自然语言处理（NLP） 示例代码：基于BERT的语义搜索 2.2 多模态搜索示例代码&…...

编程日记 2025/7/5 22:43:59

OpenCV：图像修复

目录简述 1. 原理说明 1.1 Navier-Stokes方法（INPAINT_NS） 1.2 快速行进方法（INPAINT_TELEA） 2. 实现步骤 2.1 输入图像和掩膜（Mask） 2.2 调用cv2.inpaint()函数 2.3 完整代码示例 2.4 运行结果 …...

编程日记 2025/7/6 10:03:45

解决基于FastAPI Swagger UI的文档打不开的问题

基于FastAPI Swagger UI的文档链接/docs和/redoc在没有外网的状态下无法打开，原因是Swagger依赖的JS和CSS来自CDN。 https://cdn.jsdelivr.net/npm/swagger-ui-dist5/swagger-ui-bundle.js https://cdn.jsdelivr.net/npm/swagger-ui-dist5/swagger-ui.css https://…...

编程日记 2025/7/4 13:15:34

前端开发知识梳理 - HTMLCSS

1. 盒模型由内容区（content）、内边距（padding）、边框（border）和外边距（margin）组成。 （1）标准盒模型（box-sizing默认值, content-box&#xff…...

编程日记 2025/7/1 22:02:58

Win10环境使用ChatBox集成Deep Seek解锁更多玩法

Win10环境使用ChatBox集成Deep Seek解锁更多玩法前言之前部署了14b的Deep Seek小模型，已经验证了命令行及接口方式的可行性。但是纯命令行或者PostMan方式调用接口显然不是那么友好： https://lizhiyong.blog.csdn.net/article/details/145505686 纯…...

编程日记 2025/7/6 12:39:24

LM Studio 部署本地大语言模型

一、下载安装 1.搜索：lm studio LM Studio - Discover, download, and run local LLMs 2.下载 3.安装 4.更改成中文二、下载模型(软件内下载) 1.选择使用代理，否则无法下载 2.更改模型下载目录默认下载位置 C:\Users\用户名\.lmstudio\models 3.搜…...

编程日记 2025/7/6 22:28:18

Qt：QWidget核心属性

目录 QWidget核心属性 enab geometry WindowFrame的影响 windowTitle windowIcon qrc文件管理资源 windowOpacity cursor font toolTip focusPolicy styleSheet QWidget核心属性在Qt中使用QWidget类表示"控件"，如按钮、视图、输入框、滚动…...

编程日记 2025/7/4 18:27:31

unity学习29：摄像机camera相关skybox 和 Render Texture测试效果

目录 1 摄像机 1.1 每个Scene里都自带一个摄像机 camera 1.2 可以创建多个camera 1.3 下面先看backgroundtype: 2 backgroundtype: 天空盒 skybox 2.1 清除标志,清除：天空盒自选天空盒 2.2 window /Asset Store 2.3 导入skybox 3 backgroundtype: 纯色…...

编程日记 2025/7/5 12:44:13

吴恩达深度学习——卷积神经网络的特殊应用

内容来自https://www.bilibili.com/video/BV1FT4y1E74V，仅为本人学习使用。文章目录人脸识别相关定义Similarity函数使用Siamese网络实现函数d使用Triplet损失学习参数神经风格迁移深度卷积网络可视化神经风格迁移的代价函数内容损失函数风格损失函数人脸识别 …...

编程日记 2025/7/2 10:41:14

go语言文件和目录

打开和关闭文件 os.Open()函数能够打开一个文件，返回一个*File 和一个 err。操作完成文件对象以后一定要记得关闭文件。 package mainimport ("fmt""os" )func main() {// 只读方式打开当前目录下的 main.go 文件file, err : os.Open(".…...

编程日记 2025/7/6 20:20:18

c++ 面试题

C 面试题通常涵盖基础知识、面向对象编程、内存管理、模板、STL（标准模板库）等方面。以下是一些常见的 C 面试题及其简要解答，供你参考： 1. C 基础知识 1.1 C 和 C 的区别是什么？ C 是 C 的超集，支持面向…...

编程日记 2025/7/2 21:33:59

JAVA安全—FastJson反序列化利用链跟踪autoType绕过

前言 FastJson这个漏洞我们之前讲过了，今天主要是对它的链条进行分析一下，明白链条的构造原理。 Java安全—log4j日志&FastJson序列化&JNDI注入_log4j漏洞-CSDN博客漏洞版本 1.2.24及以下没有对序列化的类做校验,导致漏洞产生 1.2.25-1.2.41增加了黑名单限制，…...

编程日记 2025/7/4 5:19:08

Java Stream API：高效数据处理的利器引言

Java Stream API：高效数据处理的利器引言在 Java 编程中，数据处理是一项极为常见且关键的任务。传统的 for 循环在处理数据集合时，往往会导致代码变得冗长、复杂，这不仅增加了代码的编写难度，还降低了代码的可读性和…...

编程日记 2025/7/1 8:25:13

kubeadm构建k8s源码阅读环境

目标前面看了minikube的源码了解到其本质是调用了kubeadm来启动k8s集群，并没有达到最初看代码的目的。所以继续看看kubeadm的代码，看看能否用来方便地构建源码调试环境。 k8s源码编译 kubeadm源码在k8s源码库中，所以要先克隆k8s源码。之…...

编程日记 2025/7/5 5:34:27

Java架构设计亿级流量场景下的本地缓存方案选型

在当今的互联网时代，亿级流量的应用场景已经司空见惯。无论是大型电商平台的促销活动，还是热门社交应用的日常运营，都可能面临每秒数万甚至数十万的请求流量。在这样的高并发、高流量场景下，系统的性能和稳定性面临着巨大的挑战。…...

编程日记 2025/7/6 7:47:36

ChatGPT怎么回事？

纯属发现，调侃一下~ 这段时间deepseek不是特别火吗，尤其是它的推理功能，突发奇想，想用deepseek回答一些问题，回答一个问题之后就回复服务器繁忙（估计还在被攻击吧~_~） 然后就转向了GPT&#xf…...

编程日记 2025/7/4 11:28:33

离线安装Appium Server

1、问题概述？安装Appium通常有两种方式：第一种：下载exe安装包，这种是Appium Server GUI安装方式，缺点是通过命令启动不方便。第二种：通过cmd安装appium server,可以通过命令方式启动，比较方便。问题：在没有外网的情况下，无法通过命令在cmd中安装appium server…...

编程日记 2025/7/6 19:22:18

Jetpack ViewModel

private val deviceViewModel: IDeviceViewModel by viewModels<DeviceViewModel>() 这句代码是 Jetpack ViewModel 在 Fragment 或 Activity 中的标准用法，它的作用是创建并获取 ViewModel 实例，同时确保 ViewModel 的生命周期与 UI 组件保持一…...

编程日记 2025/7/1 20:33:28

2025年2月9日（数据分析，在最高点和最低点添加注释，添加水印）

要在最高点和最低点添加文本注释，可以使用 plt.annotate() 函数。这个函数允许你在图表中的特定位置添加文本注释，并且可以指定箭头指向特定的数据点。以下是修改后的代码，添加了在最高点和最低点的文本注释： from matplotlib import pyplot as plt from matplotlib imp…...

编程日记 2025/7/4 5:57:16

如何导入第三方sdk | 引入第三方jar 包

0. 背景1. 上传私有仓库2. 使用本地文件系统 0. 背景对接一些第三方功能，会拿到第三方的sdk，也就是jar包，如何导入呢 1. 上传私有仓库最好的方式就是将第三方jar包，上传到私有的仓库，这样直接正常在pom引用即可如果只…...

编程日记 2025/7/6 14:55:01

掌握内容中台与人工智能技术的新闻和应用场景分析

内容概要在当今数字化快速发展的时代，内容中台与人工智能技术的结合为各行各业带来了新的机遇。这一切都源自于对内容生产和管理能力的需求不断提升，尤其在新闻行业中更是如此。内容中台作为一种集中管理内容资源的平台，能够有效整合与调配…...

编程日记 2025/7/6 20:18:17

c#-枚举

//可空类型：int? num 等价 Nullable<int> num Nullable<int> a null; a 99; Console.WriteLine(a);//合并运算符?? ： a有值的话，赋值给b int b a ?? 1; Console.WriteLine(b); 枚举成员不能相同，但枚举的值可…...

编程日记 2025/7/3 0:29:15

青少年编程与数学 02-008 Pyhon语言编程基础 22课题、类的定义和使用

青少年编程与数学 02-008 Pyhon语言编程基础 22课题、类的定义和使用一、类类的定义和使用示例二、定义1. 类定义语法2. 属性和方法3. 构造器和初始化4. 实例化5. 类变量和实例变量6. 类方法和静态方法7. 继承8. 多态总结三、使用1. 创建类的实例2. 访问属性3. 调用方法4. 修…...

编程日记 2025/7/6 22:30:57

【通俗易懂说模型】反向传播（附多元回归与Softmax函数）

🌈 个人主页：十二月的猫-CSDN博客 🔥 系列专栏： 🏀深度学习_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录 1. 前言 2. …...

编程日记 2025/7/6 8:14:34

【人工智能】Python中的深度学习优化器：从SGD到Adam

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在深度学习模型的训练过程中，优化器起着至关重要的作用，它决定了模型的收敛速度以及最终的性能。本文将介绍深度学习中常用的优化器，从传…...

编程日记 2025/7/3 12:15:43

仅128个token达到ImageNet生成SOTA性能！MAETok:有效的扩散模型的关键是什么？(卡内基梅隆港大等)

论文链接：https://arxiv.org/pdf/2502.03444 项目链接：https://github.com/Hhhhhhao/continuous_tokenizer 亮点直击理论与实验分析：通过实验和理论分析建立了潜空间结构与扩散模型性能之间的联系。揭示了具有更少高斯混合模型（G…...

编程日记 2025/7/5 5:56:03

Listener监听器和Filter过滤器

一.监听器 1.是javaweb的三大组件之一,分别是Servlet程序,Listener监听器,Filter过滤器 2.Listener是JvaEE的规范,就是接口,监听器的作用就是监听某种变化(一般是对象创建/销毁,属性变化),触发对应方法完成相应的任务 3.ServletContextListener:/*当一个类实现了ServletContex…...

编程日记 2025/7/5 1:24:43