当前位置：首页 > news >正文

pytorch逻辑回归实现垃圾邮件检测

news 来源：原创 2025/9/6 5:56:30

人工智能例子汇总：AI常见的算法和例子-CSDN博客

完整代码：

import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np# 增强的数据集：更多的垃圾邮件与正常邮件样本
X = ["Congratulations! You've won a $1000 gift card. Claim it now!","Dear friend, I hope you are doing well. Let's catch up soon.","Urgent: Your bank account has been compromised. Please contact support immediately.","Hello, just wanted to confirm our meeting at 2 PM today.","You have a new message from your friend. Click here to read.","Get a free iPhone now! Limited offer, click here.","Last chance to claim your prize, you won $500!","Meeting scheduled for tomorrow. Please confirm.","Hello! You are invited to an exclusive event!","Click here to get free lottery tickets. Hurry up!","Reminder: Your subscription will expire soon, renew now.","Don't forget to submit your report by end of day today."
]
y = [1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0]  # 1 为垃圾邮件，0 为正常邮件# 使用 TfidfVectorizer 进行文本向量化
vectorizer = TfidfVectorizer(stop_words='english')  # 去除停用词
X_vec = vectorizer.fit_transform(X).toarray()# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_vec, y, test_size=0.33, random_state=42)# 定义逻辑回归模型
class LogisticRegressionModel(nn.Module):def __init__(self, input_dim):super(LogisticRegressionModel, self).__init__()self.fc = nn.Linear(input_dim, 1)  # 线性层，输入维度是特征的数量，输出是1def forward(self, x):return torch.sigmoid(self.fc(x))  # 使用sigmoid激活函数输出0到1之间的概率# 定义训练过程
def train_model(model, X_train, y_train, num_epochs=200, learning_rate=0.001):criterion = nn.BCELoss()  # 二分类交叉熵损失optimizer = optim.Adam(model.parameters(), lr=learning_rate)  # 使用Adam优化器X_train_tensor = torch.tensor(X_train, dtype=torch.float32)y_train_tensor = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)for epoch in range(num_epochs):model.train()optimizer.zero_grad()outputs = model(X_train_tensor)loss = criterion(outputs, y_train_tensor)loss.backward()optimizer.step()if (epoch + 1) % 10 == 0:print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')# 测试模型
def evaluate_model(model, X_test, y_test):model.eval()X_test_tensor = torch.tensor(X_test, dtype=torch.float32)y_test_tensor = torch.tensor(y_test, dtype=torch.float32).view(-1, 1)with torch.no_grad():outputs = model(X_test_tensor)predictions = (outputs >= 0.5).float()  # 阈值设为0.5accuracy = accuracy_score(y_test, predictions.numpy())print(f'Accuracy: {accuracy * 100:.2f}%')# 训练并评估模型
input_dim = X_train.shape[1]  # 输入特征的数量
model = LogisticRegressionModel(input_dim)
train_model(model, X_train, y_train, num_epochs=200, learning_rate=0.001)
evaluate_model(model, X_test, y_test)# 预测新邮件
def predict(model, new_email):model.eval()new_email_vec = vectorizer.transform([new_email]).toarray()new_email_tensor = torch.tensor(new_email_vec, dtype=torch.float32)with torch.no_grad():prediction = model(new_email_tensor)return "Spam" if prediction >= 0.5 else "Not Spam"# 检测新邮件
email_1 = "Congratulations! You have a limited time offer for a free cruise."
email_2 = "Hi, let's discuss the project updates tomorrow."print(f"Email 1: {predict(model, email_1)}")  # 可能输出：Spam
print(f"Email 2: {predict(model, email_2)}")  # 可能输出：Not Spam

1. 数据预处理

准备数据集：包含垃圾邮件（Spam）和正常邮件（Not Spam）。
文本向量化：使用 TfidfVectorizer 将文本转换为数值特征，使模型能够处理。
去除停用词：排除无意义的常见词（如 "the", "is", "and"），提高模型性能。

2. 训练集与测试集划分

将数据集拆分为训练集和测试集，以 67% 训练，33% 测试，保证模型有足够数据训练，同时可以评估其泛化能力。

3. 逻辑回归模型

搭建 PyTorch 逻辑回归模型：
- 采用 nn.Linear() 构建一个单层神经网络（输入为文本特征，输出为 1 个数值）。
- 使用 sigmoid 作为激活函数，将输出转换为 0-1 之间的概率值。

4. 训练模型

定义损失函数：使用二元交叉熵损失 (BCELoss)，适用于二分类问题。
优化器：采用 Adam 优化器，以 0.001 学习率进行参数优化。
训练流程：
1. 计算前向传播的输出。
2. 计算损失值，衡量预测结果与真实标签的差距。
3. 进行反向传播，更新权重参数。
4. 迭代多轮（如 200 轮），不断优化模型。

5. 评估模型

将测试数据输入模型，预测结果并与真实标签进行对比。
计算准确率，评估模型在未见过的数据上的表现。

6. 预测新邮件

将新邮件转换为数值特征（与训练时相同的方法）。
使用训练好的模型进行预测。
阈值判断：如果输出概率 ≥ 0.5，则判断为垃圾邮件，否则为正常邮件。

pytorch逻辑回归实现垃圾邮件检测

人工智能例子汇总：AI常见的算法和例子-CSDN博客完整代码： import torch import torch.nn as nn import torch.optim as optim from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selection import train_test_split …...

编程日记 2025/9/6 5:56:30

一次线程数超限导致的hive写入hbase作业失败分析

1.集群配置操作系统：SuSe操作系统集群节点：100台相同配置的服务器单台：核心112Core，内存396G 2.问题现象现象1：跑单个入库任务报错，批量提交任务后出现OOM异常执行12个hivesql,将数据写入hbase.hbase入库有近一半的任务报错。每次报错的任务不是同一个，hivesql…...

编程日记 2025/9/4 12:15:59

JAVA安全—反射机制攻击链类对象成员变量方法构造方法

前言还是JAVA安全，哎，真的讲不完，太多啦。今天主要是讲一下JAVA中的反射机制，因为反序列化的利用基本都是要用到这个反射机制，还有一些攻击链条的构造，也会用到，所以就讲一下。什么是反射…...

编程日记 2025/9/4 12:15:05

Java集合面试总结（题目来源JavaGuide）

问题1：说说 List,Set,Map 三者的区别？ 在 Java 中，List、Set 和 Map 是最常用的集合框架（Collection Framework）接口，它们的主要区别如下： 1. List（列表） 特点&#xf…...

编程日记 2025/9/4 4:13:20

【区块链】深入理解椭圆曲线密码学(ECC)

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈｜ 炫酷HTML | JavaScript基础 💫个人格言: "如无必要，勿增实体" 文章目录深入理解椭圆曲线密码学(ECC)1. 概述2. 椭圆曲线的数学基础2.1 基本定义2.2 有限…...

编程日记 2025/9/3 18:02:17

接口游标分页

由于数据库本身的的限制（以MySQL为例），以 page_num，page_size 为代表的偏移分页方式不可避免的会遇到深分页问题。不过用户若要找符合条件的少量数据，通过翻页则十分低效，且大多用户也不会往后翻很多页，故对于C端筛选数据场景，限制分页数量增加筛选条件才是标准解决方…...

编程日记 2025/9/5 3:04:00

大数据数仓实战项目（离线数仓+实时数仓）2

目录 1.课程目标和课程内容介绍 2.数仓维度建模设计 3.数仓为什么要分层 4.数仓分层思想和作用 5.数仓中表的种类和同步策略 6.数仓中表字段介绍以及表关系梳理订单表itcast_orders 订单明细表 itcast_order_goods 商品信息表 itcast_goods 店铺表 itcast_shops 商…...

编程日记 2025/9/5 15:21:46

C++输入输出(上)

cin和cout cin是C中提供的标准输入流对象,一般针对的是键盘,也就是从键盘上输入的字符流,使用 cin来进行数据的提取,cin一般是和 >> (流提取运算符) 配合使用的。 cin的功能和scanf是类似的 cout是C中提供的标准输出流对象,一般针对的是控制台的窗口,也就是将数据以字符…...

编程日记 2025/9/4 14:51:41

SpringBoot 连接Elasticsearch带账号密码认证 ES连接加密连接

依赖 <dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId> </dependency>配置文件 es:ip: 172.23.4.130port: 9200user: elasticpassword: qwertyuiop读取配置文件…...

编程日记 2025/9/6 1:20:40

选择排序

选择排序的基本思想： 每⼀次从待排序的数据元素中选出最⼩（或最⼤）的⼀个元素，存放在序列的起始位置，直到全部待排序的数据元素排完。直接选择排序 1. 在元素集合 array[i]--array[n-1] 中选择关键码最⼤(⼩)的数据…...

编程日记 2025/9/4 14:51:34

Linux——进程概念

目录一、系统调用和库函数概念二、基本概念三、描述进程-PCB3.1 task_struct-PCB的一种3.2 task_ struct内容分类四、组织进程五、查看进程六、通过系统调用获取进程标示符七、通过系统调用创建进程- fork初始7.1 fork函数创建子进程7.2 fork 之后通常要用 if 进行分流八、进…...

编程日记 2025/9/6 3:04:55

强化学习笔记（5）——PPO

PPO视频课程来源首先理解采样期望的转换变量x在p(x)分布下，函数f(x)的期望等于f(x)乘以对应出现概率p(x)的累加经过转换后变成 x在q(x)分布下，f(x)*p(x)/q(x) 的期望。起因是：求最大化回报的期望，所以对ceta求梯度具体举例…...

编程日记 2025/9/3 23:56:04

Java设计模式：行为型模式→状态模式

Java 状态模式详解 1. 定义状态模式（State Pattern）是一种行为型设计模式，它允许对象在内部状态改变时改变其行为。状态模式通过将状态需要的行为封装在不同的状态类中，实现对象行为的动态改变。该模式的核心思想是分离不同状态…...

编程日记 2025/9/4 14:51:24

postgresql的用户、数据库和表

在 PostgreSQL 中，用户、数据库和表是关系型数据库系统的基本组成部分。理解这些概念对数据库管理和操作至关重要。下面是对这些概念的详细解释： 1. 用户（User） 在 PostgreSQL 中，用户（也称为角色&#…...

编程日记 2025/9/5 15:45:49

什么是Rust？它有什么特点？为什么要学习Rust？

什么是Rust？它有什么特点？为什么要学习Rust？ 如果你是一名编程初学者，或者已经有一些编程经验但对Rust感兴趣，那么这篇文章就是为你准备的！我们将用简单易懂的语言，带你了解Rust是什么、它有什…...

编程日记 2025/9/4 21:04:18

Maven（Ⅱ）：依赖范围，依赖传递，依赖阻断，可选依赖

1. Maven 依赖范围概念依赖范围（Dependency Scope）用于控制依赖在不同构建阶段的可见性和可用性。Maven 定义了几种不同的依赖范围，每种范围都有其特定的使用场景。常见依赖范围及用途 compile：默认的依赖范围，…...

编程日记 2025/9/4 21:21:59

个人c项目 java项目解释

1. 测试环境与方法中文： 本地测试环境：可以在一台配置中等的电脑上构建一个测试环境，利用现成的大词库数据（例如英文词典或自定义数据集）来构建 Trie。使用 C 语言的编译器（例如 gcc）编译项目&…...

编程日记 2025/9/6 2:20:03

51单片机看门狗系统

在 STC89C52 单片机中，看门狗控制寄存器的固定地址为 0xE1。此地址由芯片厂商在硬件设计时确定，但是它在头文件中并未给出，因此在使用看门狗系统时需要声明下这个特殊功能寄存器 sfr WDT_CONTR 0xE1; 本案将用一个小灯的工作状况来展示看门…...

编程日记 2025/9/6 0:17:20

爬虫基础（五）爬虫基本原理

目录一、爬虫是什么二、爬虫过程 （1）获取网页 （2）提取信息 （3）保存数据三、爬虫可爬的数据四、爬虫问题一、爬虫是什么互联网，后面有个网字，我们可以把它看成一张蜘蛛网…...

编程日记 2025/9/5 3:29:03

Android 使用ExpandableListView时，需要注意哪些细节

1. 布局属性设置尺寸属性宽度和高度：要合理设置 android:layout_width 和 android:layout_height 属性。如果设置为 match_parent，它会填满父容器；设置为 wrap_content，则会根据内容自动调整大小。例如，若想让 Exp…...

编程日记 2025/9/5 23:10:41

人工智能赋能企业系统架构设计：以ERP与CRM系统为例

一、引言 1.1 研究背景与意义在数字化时代，信息技术飞速发展，人工智能（Artificial Intelligence, AI）作为一项具有变革性的技术，正深刻地影响着各个领域。近年来，AI 在技术上取得了显著突破，…...

编程日记 2025/9/5 1:04:54

使用HttpClient和HttpRequest发送HTTP请求

项目中经常会用到向第三方系统发送请求来传递数据或者获得信息，一般用的比较多的为HttpClient 和 HttpRequest，这里简要总结一下 HttpClient 和 HttpRequest 的用法一、HttpClient 1. 发送get请求 public static String get(String url, Map<Stri…...

编程日记 2025/9/5 19:27:22

深度解析：网站快速收录与服务器性能的关系

本文转自：百万收录网原文链接：https://www.baiwanshoulu.com/37.html 网站快速收录与服务器性能之间存在着密切的关系。服务器作为网站运行的基础设施，其性能直接影响到搜索引擎对网站的抓取效率和收录速度。以下是对这一关系的深度解析&am…...

编程日记 2025/9/6 5:34:07

Android记事本App设计开发项目实战教程2025最新版Android Studio

平时上课录了个视频，从新建工程到打包Apk，从头做到尾，没有遗漏任何实现细节，欢迎学过Android基础的同学参加，如果你做过其他终端软件开发，也可以学习，快速上手Android基础开发。 Android记事本课…...

编程日记 2025/9/5 19:27:04

DeepSeek-R1大模型学习笔记

DeepSeek-R1模型架构设计 DeepSeek-R1基于DeepSeek-V3 base模型，提出了一系列训练策略，包括基于纯强化学习的训练（DeepSeek-R1-Zero）、基于多阶段的训练和冷启动（DeepSeek-R1）、知识蒸馏等。下面的思维导图…...

编程日记 2025/9/5 6:01:10

Unity游戏(Assault空对地打击)开发(4) 碰撞体和刚体的添加

前言飞机和世界的大小关系不太对，我稍微缩小了一下飞机。详细步骤选中所有地形对象，如果没有圈起的部分，点击Add Component搜索添加。接着选中Player对象，添加这两个组件，最好（仅对于本项目开发&#x…...

编程日记 2025/9/5 0:38:44

每日一题——滑动窗口的最大值

滑动窗口的最大值题目描述示例说明解题思路双端队列的特点实现步骤代码实现（C语言）代码解析总结题目描述给定一个长度为 n 的数组 num 和滑动窗口的大小 size，找出所有滑动窗口里数值的最大值。例如，如果输入数组 {2, 3, …...

编程日记 2025/9/5 11:58:46

DeepSeek 的含金量还在上升

大家好啊，我是董董灿。最近 DeepSeek 越来越火了。网上有很多针对 DeepSeek 的推理测评，除此之外，也有很多人从技术的角度来探讨 DeepSeek 带给行业的影响。比如今天就看到了一篇文章，探讨 DeepSeek 在使用 GPU 进行模型训练…...

编程日记 2025/9/4 22:58:22

list容器（详解）

list的介绍及使用（了解，后边细讲） 1.1 list的介绍（双向循环链表） https://cplusplus.com/reference/list/list/?kwlist（list文档介绍） 1. list是可以在常数范围内在任意位置进行插入和删除的序…...

编程日记 2025/9/5 4:05:56

FinRobot：一个使用大型语言模型的金融应用开源AI代理平台

“FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models” 论文地址：https://arxiv.org/pdf/2405.14767 Github地址：https://github.com/AI4Finance-Foundation/FinRobot 摘要在金融领域与AI社区间&a…...

编程日记 2025/9/5 19:26:20

【llm对话系统】大模型 Llama 源码分析之 LoRA 微调

1. 引言微调 (Fine-tuning) 是将预训练大模型 (LLM) 应用于下游任务的常用方法。然而，直接微调大模型的所有参数通常需要大量的计算资源和内存。LoRA (Low-Rank Adaptation) 是一种高效的微调方法，它通过引入少量可训练参数，固定预训练模型的权重，从而在保持性能的同时大…...

编程日记 2025/9/5 19:26:11

为AI聊天工具添加一个知识系统之86 详细设计之27 数据处理：ETL

本文要点 ETL 数据提取作为数据项目的起点。数据的整个三部曲--里程碑式的发展进程： ETL : 1分形 Type()-层次Broker / 2完形 Method() - 维度Delegate /3 整形 Class() - 容器 Agent 1变象。变象脸谱Extractor - 缠度（物理皮肤缠度&#xf…...

编程日记 2025/9/5 8:21:47

「全网最细 + 实战源码案例」设计模式——策略模式

核心思想策略模式（Strategy Pattern）是一种行为型设计模式，用于定义一系列算法或策略，将它们封装成独立的类，并使它们可以相互替换，而不影响客户端的代码，提高代码的可维护性和扩展性。结构 …...

编程日记 2025/9/5 19:26:00

框架与代码的形状

作为一个代码的设计者，我之前讨论过代码的形状，从“名字”出发，进行讨论。代码的形状：重构的方向-CSDN博客从比喻的角度来看，名字似代码的血和肉，而框架则似代码的骨架。猎豹和大象在大自然中&…...

编程日记 2025/9/5 19:25:56

解决vscode扩展插件开发webview中的请求跨域问题

在webview中是无法发送跨域请求的，可以通过消息机制，在插件中发请求，然后将请求结果传递给webview 我的代码是基于vscode-webview-ui-toolkit-samples-vue来写的 webview vue组件中的代码示例 async function initData() {// 向插件发送消…...

编程日记 2025/9/5 19:25:50

junit5定制点

一、JUnit 5 自定义定制点是什么？ JUnit 5 提供了强大的扩展模型（Extension Model），允许开发者通过实现特定接口（如 BeforeEachCallback、ParameterResolver）自定义测试行为。这些接口称为定制点&#xff…...

编程日记 2025/9/5 19:25:45

基于SpringBoot的信息技术知识赛系统的设计与实现(源码+SQL脚本+LW+部署讲解等)

专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：…...

编程日记 2025/9/5 19:25:39

【Rust自学】20.1. 最后的项目：单线程Web服务器

喜欢的话别忘了点赞、收藏加关注哦（加关注即可阅读全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(･ω･) 20.1.1. 什么是TCP和HTTP Web 服务器涉及的两个主要协议是超文本传输协议(Hypertext T…...

编程日记 2025/9/5 19:25:33

LabVIEW涡轮诊断系统

一、项目背景与行业痛点涡轮机械是发电厂、航空发动机、石油化工等领域的核心动力设备，其运行状态直接关系到生产安全与经济效益。据统计，涡轮故障导致的非计划停机可造成每小时数十万元的经济损失，且突发故障可能引发严重安全事故。传统人…...

编程日记 2025/9/5 9:50:28

想品客老师的第十天：类

类是一个优化js面向对象的工具类的声明 //1、class User{}console.log(typeof User)//function//2、let Hdclass{}//其实跟1差不多class Stu{show(){}//注意这里不用加逗号，对象才加逗号get(){console.log(后盾人)}}let hdnew Stu()hd.get()//后盾人类的原理类…...

编程日记 2025/9/5 19:25:21

注解（Annotation）

注解（Annotation）在 Java 中可以用来简化类的使用，使得被注解的类能够被自动发现、自动创建并在需要的地方直接调用，而不需要手动创建实例。具体来说，注解是用来标识类、方法、字段等的，它们通常与一些框架…...

编程日记 2025/9/5 19:25:14

使用开源项目：pdf2docx，让PDF转换为Word

目录 1.安装python 2.安装 pdf2docx 3.使用 pdf2docx 转换 PDF 到 Word pdf2docx：GitCode - 全球开发者的开源社区,开源代码托管平台环境：windows电脑 1.安装python Download Python | Python.org 最好下载3.8以上的版本安装时记得选择上&#…...

编程日记 2025/9/5 12:09:50

编程AI深度实战：AI编程工具哪个好? Copilot vs Cursor vs Cody vs Supermaven vs Aider

Cursor自己可以看成一个IDE，而且有强大的RAG功能，这让它对你的意图感知非常厉害，可以精确补全，可以感受代码片段 Aider可以看作一个袖珍，灵活，强大的扳手，怎么用都行，可以放在脚本里调用，可以看代码，可以修改代码。相比Cursor而言，它感受的是文件级别，颗粒度有些不…...

编程日记 2025/9/5 19:24:57

如何安全地管理Spring Boot项目中的敏感配置信息

在开发Spring Boot应用时，我们经常需要处理一些敏感的配置信息，比如数据库密码、API密钥等。以下是一个最佳实践方案： 1. 创建配置文件 application.yml（版本控制） spring:datasource:url: ${MYSQL_URL:jdbc:mysql…...

编程日记 2025/9/5 19:24:52

为AI聊天工具添加一个知识系统之77 详细设计之18 正则表达式之5

本文要点昨天讨论了本项目（AI聊天工具添加一个知识系统）中正则表达式模板的设计中可能要考虑到的一些问题（讨论到的内容比较随意，暂时无法确定那些考虑是否应该是正则表达式模板设计要考虑的以及是否完整）。今天…...

编程日记 2025/9/5 12:01:46

Ubuntu下Tkinter绑定数字小键盘上的回车键（PySide6类似）

设计了一个tkinter程序，在Win下绑定回车键，直接绑定"<Return>"就可以使用主键盘和小键盘的回车键直接“提交”，到了ubuntu下就不行了。经过搜索，发现ubuntu下主键盘和数字小键盘的回车键，名称不一样。…...

编程日记 2025/9/5 4:46:19

安全实验作业

一拓扑图二要求 1、R4为ISP，其上只能配置IP地址；R4与其他所有直连设备间均使用共有IP 2、R3-R5-R6-R7为MGRE环境，R3为中心站点； 3、整个OSPF环境IP基于172.16.0.0/16划分； 4、所有设备均可访问R4的环回&#x…...

编程日记 2025/9/5 19:24:38

NOTEPAD++编写abap

参考下面三个链接 Notepad ABAP代码高亮显示_notepad代码高亮颜色-CSDN博客百度安全验证 ABAP Syntax Highlighting in Notepad Part 2 - SAP Community 最后XML文件看看你可以自己增加些新语法的高亮显示...

编程日记 2025/9/5 2:24:41

基于python的体育新闻数据可视化及分析

项目 ：北京冬奥会体育新闻数据可视化及分析摘要随着社会的不断进步与发展，新时代下的网络媒体获取的信息也更加庞大和繁杂，相比于传统信息来源更加难以分析和辨别，造成了新时代媒体从业者撰写新闻的难度。在此背景下&#xff…...

编程日记 2025/9/5 19:24:25

C# 精炼题18道题(类,三木运算,Switch,计算器)

1.数组元素和 2.数组元素乘积 3.数组元素平均数 4.数组中最大值 5.数组中的偶数 6.数组中的阶乘 7.数组反转 8.字符串反转 9.回文字符串 10.检查回文 11.最小最大值 12.找素数 13.字符串中的最长无重复字符串 14.字符串去重 15.数组中计算两数之和 16.数字到字符…...

编程日记 2025/9/5 18:55:36