当前位置: 首页 > news >正文

# 基于BERT的文本分类

基于BERT的文本分类项目的实现

一、项目背景

该文本分类项目主要是情感分析,二分类问题,以下是大致流程及部分代码示例:


二、数据集介绍

2.1 数据集基本信息

数据集自定义
类型二分类(正面/负面)
样本量训练集 + 验证集 + 测试集
文本长度平均x字(最大x字)
领域商品评论、影视评论
# 加载数据集
dataset = pd.read_csv('data/train.txt', sep='\t')
print(dataset['train'][0])
# 输出:{'text': '这个手机性价比超高,拍照效果惊艳!', 'label': 1}

2.2 数据分析

2.2.1 句子长度分布
import matplotlib.pyplot as pltdef analyze_length(texts):lengths = [len(t) for t in texts]plt.figure(figsize=(12,5))plt.hist(lengths, bins=30, range=(0,256), color='blue', alpha=0.7)plt.title("文本长度分布", fontsize=14)plt.xlabel("字符数")plt.ylabel("样本量")plt.show()analyze_length(dataset['train']['text'])
2.2.2 标签分布
import pandas as pdpd.Series(dataset['train']['label']).value_counts().plot(kind='pie',autopct='%1.1f%%',title='类别分布(0-负面 1-正面)'
)
plt.show()
2.2.3 类别平衡处理
from torch.utils.data import WeightedRandomSampler# 计算类别权重
labels = dataset['train']['label']
class_weights = 1 / torch.Tensor([len(labels)-sum(labels), sum(labels)])
sampler = WeightedRandomSampler(weights=[class_weights[label] for label in labels],num_samples=len(labels),replacement=True
)

三、数据处理

3.1 BERT分词器

from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-chinese')def collate_fn(batch):texts = [item['text'] for item in batch]labels = [item['label'] for item in batch]# BERT编码inputs = tokenizer(texts,padding=True,truncation=True,max_length=256,return_tensors='pt')return {'input_ids': inputs['input_ids'],'attention_mask': inputs['attention_mask'],'labels': torch.LongTensor(labels)}

3.2 数据加载器

from torch.utils.data import DataLoadertrain_loader = DataLoader(dataset['train'],batch_size=32,collate_fn=collate_fn,sampler=sampler
)val_loader = DataLoader(dataset['validation'],batch_size=32,collate_fn=collate_fn
)

四、模型构建

4.1 BERT分类模型

import torch.nn as nn
from transformers import BertModelclass BertClassifier(nn.Module):def __init__(self):super().__init__()self.bert = BertModel.from_pretrained('bert-base-chinese')self.dropout = nn.Dropout(0.1)self.fc = nn.Linear(768, 2)def forward(self, input_ids, attention_mask):outputs = self.bert(input_ids, attention_mask)pooled = self.dropout(outputs.pooler_output)return self.fc(pooled)

4.2 模型配置

import torchdevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = BertClassifier().to(device)
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)
criterion = nn.CrossEntropyLoss()

五、模型训练与验证

5.1 训练流程

from tqdm import tqdmdef train_epoch(model, loader):model.train()total_loss = 0for batch in tqdm(loader):optimizer.zero_grad()input_ids = batch['input_ids'].to(device)attention_mask = batch['attention_mask'].to(device)labels = batch['labels'].to(device)outputs = model(input_ids, attention_mask)loss = criterion(outputs, labels)loss.backward()optimizer.step()total_loss += loss.item()return total_loss / len(loader)

5.2 验证流程

def evaluate(model, loader):model.eval()correct = 0total = 0with torch.no_grad():for batch in loader:input_ids = batch['input_ids'].to(device)attention_mask = batch['attention_mask'].to(device)labels = batch['labels'].to(device)outputs = model(input_ids, attention_mask)preds = torch.argmax(outputs, dim=1)correct += (preds == labels).sum().item()total += len(labels)return correct / total

六、实验结果

6.1 评估指标

Epoch训练Loss验证准确率测试准确率
# 绘制混淆矩阵
from sklearn.metrics import confusion_matrix
import seaborn as snsdef plot_confusion_matrix(loader):y_true = []y_pred = []model.eval()with torch.no_grad():for batch in loader:input_ids = batch['input_ids'].to(device)attention_mask = batch['attention_mask'].to(device)labels = batch['labels'].to(device)outputs = model(input_ids, attention_mask)preds = torch.argmax(outputs, dim=1)y_true.extend(labels.cpu().numpy())y_pred.extend(preds.cpu().numpy())cm = confusion_matrix(y_true, y_pred)sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')plt.title('混淆矩阵')plt.xlabel('预测标签')plt.ylabel('真实标签')plt.show()plot_confusion_matrix(test_loader)

6.2 学习曲线

# 记录训练过程
from torch.utils.tensorboard import SummaryWriterwriter = SummaryWriter()
for epoch in range(3):train_loss = train_epoch(model, train_loader)val_acc = evaluate(model, val_loader)writer.add_scalar('Loss/Train', train_loss, epoch)writer.add_scalar('Accuracy/Validation', val_acc, epoch)

七、流程架构图

原始文本
分词编码
BERT特征提取
全连接分类
损失计算
反向传播
模型评估

相关文章:

# 基于BERT的文本分类

基于BERT的文本分类项目的实现 一、项目背景 该文本分类项目主要是情感分析,二分类问题,以下是大致流程及部分代码示例: 二、数据集介绍 2.1 数据集基本信息 数据集自定义类型二分类(正面/负面)样本量训练集 验证…...

Verilog学习-1.模块的结构

module aoi(a,b,c,d,f);/*模块名为aoi,端口列表a、b、c、d、f*/ input a,b,c,d;/*模块的输入端口为a,b,c,d*/ output f;;/*模块的输出端口为f*/ wire a,b,c,d,f;/*定义信号的数据类型*/ assign f~((a&b)|(~(c&d)));/*逻辑功能描述*/ endmoduleveirlog hdl 程…...

界面控件DevExpress WPF v25.1新功能预览 - 数据网格、报表性能增强

DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…...

【创新实训个人博客】prompt嵌入

通过对camel技术的理解,修改了项目内容 能够初步实现广告内容相关的文本 修改了typing.py中的定义 class RoleType(Enum): ASSISTANT "assistant" USER "user" CRITIC "critic" EMBODIMENT "embodiment" DEFAULT &q…...

Linux 进程的替换

进程程序替换 要讲好这个我为大家准备了五个步骤 1. 先用代码给大家展示一下现象 2.解释原理 3.将代码改成多进程版 4.使用所有的方法,并认识函数参数的含义。 5.其他 我们现在开始第一个 1. 先用代码给大家展示一下现象 关于进程的替换一共有七个函数&…...

netty启用websocket的压缩机制

netty启用websocket的压缩机制 package com.aerotop.connector.websocket.base;import io.netty.channel.ChannelInitializer; import io.netty.channel.ChannelPipeline; import io.netty.channel.socket.SocketChannel; import io.netty.handler.codec.compression.JZlibDec…...

【python】针对Selenium中弹框信息无法定位的问题,以下是综合解决方案及注意事项:

一、常见原因分析 1.1 弹窗类型不匹配 若弹窗为alert,需使用driver.switch_to.alert处理; 若为confirm或prompt,同样适用该方法。 1.2 窗口句柄切换问题 新窗口或弹窗可能开启新句柄,需先通过driver.window_handles切换到对应句…...

进程与信号

前言 接触计算机的时候我们就接触过信号。比如说当我们进程卡死的时候,windows系统会跳出来一个弹窗告诉我们是否等待进程响应,如果关闭进程那么系统就会发信号给进程然后终止掉它。再比如我们打开任务管理器的时候,想要关闭进程那也是在发送…...

SQL解析器:实现进阶功能

SQL解析器:实现进阶功能 在上一篇文章中,我们介绍了SQL解析器的基础架构和核心功能实现,包括基本的SELECT、INSERT、UPDATE语句解析。本文将深入探讨SQL解析器的进阶功能实现,重点关注我们新增的DROP、JOIN、DELETE语句解析以及嵌…...

字体从版权合规到技术适配,你好字库全场景解决方案解析

一、开发者字体使用的三大核心困境 在软件开发与设计过程中,字体选择往往成为「甜蜜的负担」: 版权风险高:商业项目误用未授权字体,可能面临数万元赔偿(某创业公司曾因使用「方正粗黑」被索赔 8 万元) …...

深入理解 Java ArrayList 扩缩容机制(含源码分析)

标签: Java, ArrayList, 集合框架, 源码分析, 扩容机制, 性能优化, CSDN 摘要: java.util.ArrayList 作为 Java 集合框架中最常用的类之一,其动态数组的特性深受开发者喜爱。然而,“动态”背后的扩容与缩容机制是怎样的&#xff…...

LeetCode详解之如何一步步优化到最佳解法:26. 删除有序数组中的重复项

LeetCode详解系列的总目录(持续更新中): LeetCode详解之如何一步步优化到最佳解法:前100题目录(更新中...)-CSDN博客 LeetCode详解系列的上一题链接: LeetCode详解之如何一步步优化到最佳解法…...

doris基础使用

目录 1、一般使用 2、数据源通过catalog连接 1、es 2、clickhouse 3、db2 3、问题 (1)doris连接es一直报错 1、一般使用 (1)查询doris的catalog show catalogs; (2)查询catlog的连接信息 以catalog…...

Python 3.x cxfreeze打包exe教程

Python 3.x cxfreeze打包exe教程 https://blog.csdn.net/qq_33704787/article/details/123926953 去官网 下载安装 pip install cx-Freeze7.2.9 https://pypi.org/project/cx-Freeze/7.2.9/ 安装到 你的 python 的 script文件夹下面 (全局或是 虚拟环境都行&#x…...

SQL开发的智能助手:通义灵码在IntelliJ IDEA中的应用

SQL 是一种至关重要的数据库操作语言,尽管其语法与通用编程语言有所不同,但因其在众多应用中的广泛使用,大多数程序员都具备一定的 SQL 编写能力。然而,当面对复杂的 SQL 语句或优化需求时,往往需要专业数据库开发工程…...

nginx或tengine服务器,配置HTTPS下使用WebSocket的线上环境实践!

问题描述: HTTPS 下发起WS连接,连接失败,Chrom 浏览器报错。 socket.js:19 Mixed Content: The page at https://app.XXX.com was loaded over HTTPS, but attempted to connect to the insecure WebSocket endpoint ws://172.16.10.80:903…...

原创工具scoopex - scoop增强工具,提供github proxy和url净化功能

说明 scoop是一款十分优秀的windows下软件管理工具,但是在国内使用,总会遇到网络问题,不得不翻墙或者梯子才能解决。 网上有很多提供了cn版本的bucket,虽然解决了一些问题,但是也带来了默认proxy不可用问题&#xff0…...

TPS入门DAY03 服务器篇

1.创建按钮和对应的回调函数 /* 大厅按钮 */UPROPERTY(meta (BindWidget))UButton* HostButton;/* 加入会话按钮 */UPROPERTY(meta (BindWidget))UButton* JoinButton;private:UFUNCTION()void OnHostButtonClicked();UFUNCTION()void OnJoinButtonClicked(); 创建调试助手 …...

STM32单片机入门学习——第30节: [9-6] FlyMcu串口下载STLINK Utility

写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难,但我还是想去做! 本文写于:2025.04.09 STM32开发板学习——第30节: [9-6] FlyMcu串口下载&STLINK Utility 前言开发…...

基于springboot钻孔数据管理系统的设计与实现(源码+lw+部署文档+讲解),源码可白嫖!

摘要 本钻孔数据管理系统采用B/S架构,数据库是MySQL,网站的搭建与开发采用了先进的Java语言、Hadoop、数据可视化技术进行编写,使用了Spring Boot框架。该系统从两个对象:由管理员和用户来对系统进行设计构建。用户主要功能包括&…...

asp.net core 项目发布到 IIS 服务器

目录 一、VS2022 发布 二、设置IIS服务 三、配置IIS管理器 (一)打开IIS管理器 (二)添加站台 (三)配置应用程式集区 四、安装ASP.NET Core Hosting Bundle 五、设定IIS的日志位置 六、测试 一、VS2…...

自动化 Markdown 图片上传到 GitHub

自动化 Markdown 图片上传到 GitHub 1. 代码介绍 本代码用于自动扫描指定目录下的 Markdown 文章,提取其中的本地图片,并上传到 GitHub 仓库,最后替换文章中的图片路径,实现图片的托管和访问加速。 2. 主要功能 读取本地配置文…...

Java中23种设计模式之代理模式

一、什么是代理模式? 代理模式(Proxy Pattern)是一种结构型设计模式,其核心思想是: 通过引入一个代理对象作为中间层,控制对目标对象(真实对象)的访问,并在访问前后添加…...

git单独跟踪远程分支及处理合并异常情况

在 Git 中,自动跟踪远程分支(Tracking Remote Branch)是指: 当你创建一个本地分支时,让它直接关联(绑定)到对应的远程分支。这样,后续的 git pull、git push 等操作可以省略参数&…...

口腔助手|口腔挂号预约小程序|基于微信小程序的口腔门诊预约系统的设计与实现(源码+数据库+文档)

口腔小程序 目录 基于微信小程序的口腔门诊预约系统的设计与实现 一、前言 二、系统功能设计 三、系统实现 1、小程序前台界面实现 2、后台管理员模块实现 四、数据库设计 1、实体ER图 2、具体的表设计如下所示: 五、核心代码 六、论文参考 七、最新计算…...

Windows本地账户后门被关,微软强制使用在线账户

初次接触Windows10或者Windows11的同学应该都被微软一开始激活注册的在线账户坑过吧。 一切都按照微软的正向指引激活步骤,但到了账户注册的步骤时,不明所以的小白会按照微软的步骤进行新注册账户。 但坑就在这里,由于微软的账户服务器在国外…...

分类算法的介绍和应用场景

分类算法 1.算法介绍 和聚类是有区别的聚类是没有标签的 数据集中必须包含明确的类别标签,即已知每个样本所属的类别。这些标签作为学习的目标,指导模型的训练过程。 2.应用场景 广泛应用于需要对数据进行明确分类和预测的场景,如医疗诊断…...

将 CrewAI 与 Elasticsearch 结合使用

作者:来自 Elastic Jeffrey Rengifo 学习如何使用 CrewAI 为你的代理团队创建一个 Elasticsearch 代理,并执行市场调研任务。 CrewAI 是一个用于编排代理的框架,它通过角色扮演的方式让多个代理协同完成复杂任务。 如果你想了解更多关于代理…...

n8n自动化之添加jenkins

n8n自动化之添加jenkins Jenkins添加Api Token 点击“账户”点击“设置” 添加API Token 找到API Token,点击“添加新 Token”输入用户名点击“生成” 复制并保存秘钥 用生成token的用户名和密码填充下面的用户名和密码Jenkins instance URL是Jenkins文件夹的…...

DFS--

数字的全排列 #include <bits/stdc.h> using namespace std;//最大的排列数目 const int N10; int n; //存储排列的路径 int path[N]; //标记数字是否已经被使用 bool st[N];void dfs(int u){//到达递归边界&#xff0c;输出一个排列if(un){//输出循环for(int i0; i<…...

Vue:路由切换表格塌陷

目录 一、 出现场景二、 解决方案 一、 出现场景 当路由切换时&#xff0c;表格操作栏会出现行错乱、塌陷的问题 二、 解决方案 在组件重新被激活的时候刷新表格 <el-table ref"table"></el-table>activated(){this.$nextTick(() > {this.$refs[t…...

Ubuntu进入Recovery模式遇到问题

Ubuntu进入Recovery模式需要按ESC&#xff0c;但是没人告诉你进入后并不显示Advanced option.... 这种菜单&#xff0c;而是下面这个界面: 我分别测试了Ubuntu18和24的版本&#xff0c;都存在这个问题&#xff0c;就是不管你按一次ESC还是一直按着ESC都会进入到这个模式里。 非…...

淘宝API驱动跨境选品:多语言详情页自动翻译与本地化定价

淘宝 API 驱动跨境选品实现多语言详情页自动翻译与本地化定价&#xff0c;为跨境电商业务带来诸多便利与优势&#xff0c;以下是详细介绍&#xff1a; 一、多语言详情页自动翻译 技术原理 借助淘宝的 API 接口&#xff0c;获取商品详情页的各类文本信息&#xff0c;包括标题、描…...

IDEA 2024 Maven 设置为全局本地仓库,避免新建项目重新配置maven

使用idea创建Java项目时每次都要重新配置Maven&#xff0c;非常麻烦。其实IDEA可以配置全局Maven。方法如下&#xff1a; 1.关闭所有项目进入初始页面 2.选择所有配置 3.设置为自己的路径...

C++类成员内存分布详解

本文将探讨C类中成员变量的内存分布情况&#xff0c;包括普通成员、静态成员、虚函数等不同情况下的内存布局。 一、基本成员内存布局 1. 普通成员变量 普通成员变量按照声明顺序在内存中连续排列&#xff08;受访问修饰符和内存对齐影响&#xff09;&#xff1a; class Nor…...

【PVR】《Palm Vein Recognition and Large-scale Research based on Deep Learning》

邬晓毅. 基于深度学习的掌静脉识别及规模化研究[D]. 四川:电子科技大学,2024. 文章目录 1、背景2、相关工作3、创新点和贡献4、方法和实验4.1、知识介绍4.2、基于自适应损失函数的掌静脉识别算法研究4.3、退化图像的掌静脉识别鲁棒性提升研究4.4、掌静脉识别系统规模化 5、总结…...

【码农日常】vscode编码clang-format格式化简易教程

文章目录 0 前言1 工具准备1.1 插件准备1.2 添加.clang-format1.3 添加配置 2 快速上手 0 前言 各路大神都说clangd好&#xff0c;我也来试试。这篇主要讲格式化部分。 1 工具准备 1.1 插件准备 照图安装。 1.2 添加.clang-format 右键添加文件&#xff0c;跟添加个.h或者.c…...

CExercise_08_字符串_2统计该字符串中每个字符出现的次数,统计过程中忽略大小写的差异,并打印最终每个字符出现的次数。

题目&#xff1a;CExercise_ 给定一个字符串&#xff0c;要求它可能包含数字和字母。 请编写函数&#xff0c;统计该字符串中每个字符出现的次数&#xff0c;统计过程中忽略大小写的差异&#xff0c;并打印最终每个字符出现的次数。 提示&#xff1a; 用一个int数组存储字符出现…...

LabVIEW 中 JSON 数据与簇的转换

在 LabVIEW 编程中&#xff0c;数据格式的处理与转换是极为关键的环节。其中&#xff0c;将数据在 JSON 格式与 LabVIEW 的簇结构之间进行转换是一项常见且重要的操作。这里展示的程序片段就涉及到这一关键功能&#xff0c;以下将详细介绍。 一、JSON 数据与簇的转换功能 &am…...

分布式文件存储系统FastDFS

文章目录 1 分布式文件存储1_分布式文件存储的由来2_常见的分布式存储框架 2 FastDFS介绍3 FastDFS安装1_拉取镜像文件2_构建Tracker服务3_构建Storage服务4_测试图片上传 4 客户端操作1_Fastdfs-java-client2_文件上传3_文件下载4_获取文件信息5_问题 5 SpringBoot整合 1 分布…...

DNS域名解析(以实操为主)

目录 一.正向解析&#xff08;在Linux下&#xff09; 1.1什么是正向解析 1.2具体操作 1编辑主配置文件 /etc/named.conf 2编辑域名文件 /etc/named.rfc1912.zones 3根据域名文件中定义的名称&#xff0c;来建立数据库文件 4重启服务 5验证 二.正向解析&#xff08;在…...

Spark运行架构 RDD相关概念Spark-Core编程

以下是今天学习的知识点&#xff1a; 第三节 Spark运行架构 运行架构 Spark 框架的核心是一个计算引擎&#xff0c;整体来说&#xff0c;它采用了标准 master-slave 的结构。 核心组件 对于 Spark 框架有两个核心组件&#xff1a; Driver Spark 驱动器节点&#xff0c;用…...

校园智能硬件国产化的现状与意义

以下是校园智能硬件国产化的现状与意义&#xff1a; 现状 政策支持力度大&#xff1a;近年来&#xff0c;国家出台了一系列政策推动教育数字化和国产化发展。如2022年教育部等六部门印发《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》&#xff0c;明确提出…...

Android里面如何优化xml布局

在 Android 开发中&#xff0c;以下是系统化的优化方案&#xff0c;从基础到高级分层解析&#xff1a; 一、基础优化策略 1. 减少布局层级 问题&#xff1a;每增加一层布局&#xff0c;测量/布局时间增加 1-2ms 解决方案&#xff1a; <!-- 避免嵌套 --> <LinearLayo…...

Android10.0 framework第三方无源码APP读写断电后数据丢失问题解决

1.前言 在10.0中rom定制化开发中,在某些产品开发中,在某些情况下在App用FileOutputStream读写完毕后,突然断电 会出现写完的数据丢失的问题,接下来就需要分析下关于使用FileOutputStream读写数据的相关流程,来实现相关 功能 2.framework第三方无源码APP读写断电后数据丢…...

LabVIEW驱动开发的解决思路

在科研项目中&#xff0c;常面临将其他语言开发的定制采集设备驱动转换为 LabVIEW 适用形式的难题。特别是当原驱动支持匮乏、开发人员技术支持不足时&#xff0c;如何抉择解决路径成为关键。以下提供具体解决思路&#xff0c;助力高效解决问题。 ​ 一、评估现有驱动死磕的可…...

【C++】 —— 笔试刷题day_13

一、牛牛冲钻五 题目描述 题目说&#xff0c;牛牛在玩炉石传说&#xff0c;现在牛牛进行了n场游戏&#xff0c;让我们判断牛牛上了几颗星。 首先输入一个T&#xff0c;表示T组数据&#xff1b; 然后输入n和k&#xff0c;表示一个进行了n场数据&#xff0c;k表示连胜三场及以上…...

【ROS】分布式通信架构

【ROS】分布式通信架构 前言环境要求主机设置&#xff08;Master&#xff09;从机设置&#xff08;Slave&#xff09;主机与从机通信测试本文示例启动ROS智能车激光雷达节点本地计算机配置与订阅 前言 在使用 ROS 时&#xff0c;我们常常会遇到某些设备计算能力不足的情况。例…...

【第39节】windows编程:打造MFC版本任务管理器

目录 一、项目概述 二、项目开发的各种功能关键 2.1 进程信息的获取 2.2 线程信息的获取 2.3 进程模块信息的获取 2.3.1 模块快照 2.3.2 枚举模块 2.4 进程堆信息的获取 2.5 窗口信息的获取 2.6 文件信息的获取 2.7 内存信息和CPU占用率的获取 2.7.1 内存信息相关结…...

1.认识C语言

上层&#xff1a;应用软件 下层&#xff1a;操作系统、硬件 C语言擅长于下层方面 计算机语言的发展&#xff1a;低级 ——> 高级 用计算机的二进制指令写代码&#xff08;低级语言&#xff09; —— > 汇编指令&#xff08;低级语言&#xff0c;用到了助记符&#xff…...