当前位置：首页 > news >正文

无标注文本的行业划分（行业分类）算法 —— 无监督或自监督学习

news 来源：原创 2025/9/24 15:09:09

对于无标注文本的行业划分（行业分类），属于典型的无监督或自监督学习任务。以下是几种常见的算法方法及实现思路，适用于缺乏标注数据的场景：

一、基于关键词匹配的规则方法

核心思想：通过预定义的行业关键词库，计算文本与各行业的关键词匹配度，选择匹配度最高的行业。
实现步骤：

构建行业关键词库：

按行业（如“汽车”“金融”“医疗”等）收集高频关键词，可通过行业报告、百科或现有分类体系提取。

示例：

industry_keywords = {"汽车": ["车型", "引擎", "油耗", "新能源", "4S店"],"金融": ["利率", "贷款", "股票", "保险", "理财"],"医疗": ["医院", "药品", "手术", "患者", "医保"]
}

文本特征提取：
- 对输入文本进行分词、去停用词，提取高频词或名词短语作为特征。

匹配与分类：

计算文本特征与各行业关键词的重叠率（如Jaccard系数、TF-IDF权重），选择重叠率最高的行业。

示例代码：

from collections import defaultdictdef classify_industry(text, industry_keywords):text_tokens = set(text.lower().split())scores = defaultdict(float)for industry, keywords in industry_keywords.items():common_tokens = text_tokens.intersection(keywords)scores[industry] = len(common_tokens) / max(len(keywords), 1)  # 归一化得分return max(scores, key=lambda k: scores[k]) if scores else None

优缺点：

优点：简单直观，无需训练数据，适合快速上线。
缺点：依赖关键词库的完整性，无法处理新词或语义变体（如“新能源车”未在关键词库中）。

二、基于主题模型的聚类方法

核心思想：通过主题模型（如LDA、NMF）挖掘文本中的潜在主题，再根据主题分布将文本聚合成若干“行业簇”，最后人工标注簇的行业标签。
实现步骤：

文本预处理：
- 分词、去停用词、词形还原，构建文档-词矩阵（如TF-IDF矩阵）。

主题模型训练：

使用LDA模型推断文本的主题分布（如假设每个主题对应一个行业）。

from gensim import corpora, models
from sklearn.feature_extraction.text import TfidfVectorizer# 假设documents是文本列表
tfidf = TfidfVectorizer()
X = tfidf.fit_transform(documents)
lda = models.LdaModel(corpus=X, num_topics=5, id2word=dict(zip(tfidf.vocabulary_.values(), tfidf.vocabulary_.keys())))

文本聚类：
- 将文本的主题分布作为特征，使用K-Means、DBSCAN等聚类算法聚合成簇。
簇标注：
- 人工分析每个簇的高频主题词，赋予行业标签（如含“股票”“基金”的簇标注为“金融”）。
  优缺点：

优点：能发现隐含的行业模式，适合长文本或领域分布较散的场景。
缺点：需要人工参与簇标注，主题数量需经验设定，短文本效果较差。

三、基于自监督学习的表示学习方法

核心思想：利用无标注数据预训练文本编码器（如BERT），生成文本的语义向量，再通过聚类或分类头实现行业划分。
实现步骤：

预训练语言模型：
- 使用掩码语言模型（MLM）等自监督任务在无标注文本上预训练模型（如RoBERTa）。

文本嵌入生成：

将文本输入预训练模型，提取句子级嵌入（如CLS token或平均池化后的向量）。

from transformers import BertTokenizer, BertModel
import torchtokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertModel.from_pretrained("bert-base-uncased")def get_text_embedding(text):inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)with torch.no_grad():outputs = model(**inputs)return outputs.last_hidden_state.mean(dim=1).squeeze().numpy()  # 平均池化

无监督分类：
- 方法1：直接聚类。使用K-Means等算法对嵌入向量聚类，人工标注簇的行业标签。
- 方法2：伪标签训练。通过规则方法生成少量伪标签数据， fine-tune 分类头（如Dense层）。
  优缺点：

优点：能捕捉语义信息，泛化能力强，适合复杂文本（如新闻、评论）。
缺点：需要大量计算资源预训练模型，或依赖少量伪标签辅助。

四、基于层次聚类的行业树构建

核心思想：通过文本相似度构建层次聚类树，从根节点到叶子节点逐层划分行业类别（如先区分“消费”“科技”，再细分“汽车”“电子”）。
实现步骤：

文本相似度计算：
- 使用余弦相似度、编辑距离等度量文本之间的相似性，构建相似度矩阵。
层次聚类：
- 使用凝聚层次聚类（Agglomerative Clustering），从单个文本开始，逐步合并相似文本为簇，形成树状结构。
行业树剪枝与标注：
- 根据业务需求剪枝（如保留3-5层结构），人工为每个子树节点赋予行业标签。
  优缺点：

优点：可自动发现行业层级关系，适合行业体系复杂的场景。
缺点：计算复杂度高（O(n³)），大文本集效率低。

五、方法对比与选择建议

方法	适用场景	数据需求	精度	开发成本
关键词匹配	垂直领域、关键词明确	少量行业词典	中低	低
主题模型+聚类	长文本、行业隐含关联	大量无标注文本	中等	中
自监督表示学习	通用领域、需语义理解	大量无标注文本	高	高
层次聚类	行业体系复杂、需层级划分	中等规模文本	中等	中高

六、实战工具推荐

关键词匹配：
- 中文：哈工大LTP、jieba分词 + 行业词典（如阿里行业关键词库）。
- 英文：spaCy + 行业Thesaurus。
主题模型：
- Gensim（LDA）、Scikit-learn（NMF）。
自监督学习：
- Hugging Face Transformers（BERT/RoBERTa）、Sentence-BERT（句子嵌入优化）。
聚类工具：
- Scikit-learn（K-Means/DBSCAN）、HDBSCAN（层次密度聚类）。

总结

无标注数据的行业划分需结合业务特点选择方法：

快速落地：优先用关键词匹配，配合人工校准。
中长期需求：采用自监督学习预训练模型，结合少量伪标签或人工标注提升精度。
领域知识不足：通过主题模型或层次聚类探索数据分布，辅助构建行业体系。

实际应用中，常采用“规则+统计学习”的混合方案（如关键词匹配过滤候选行业，再用LDA细化分类），以平衡效率与准确性。

—— —— —— —— ——
以上，咨询豆包而来，问题是“有没有对一段文字进行行业划分的算法方法？无标注的数据“。先备忘，有空再逐个方法试一试。

无标注文本的行业划分（行业分类）算法 —— 无监督或自监督学习

对于无标注文本的行业划分（行业分类），属于典型的无监督或自监督学习任务。以下是几种常见的算法方法及实现思路，适用于缺乏标注数据的场景： 一、基于关键词匹配的规则方法核心思想：通过预定义的行业关键…...

编程日记 2025/9/24 15:09:09

电子病历高质量语料库构建方法与架构项目（计划篇）

电子病历(EMR)作为医疗信息化的重要产物，包含了丰富的医疗信息和临床知识，是辅助临床决策、药物挖掘和医学研究的重要资源。然而，电子病历数据具有非结构化、噪声大、专业性强等特点，如何构建高质量电子病历语料库成为医疗自然语言处理领域的核心挑战。本全计划将从项目背景…...

编程日记 2025/9/23 18:36:25

什么混合检索？在基于大模型的应用开发中，混合检索主要解决什么问题？

混合检索的定义混合检索（Hybrid Retrieval）是一种结合多种检索技术优势的信息检索方法，旨在通过整合不同检索策略提升检索系统的准确性、召回率和适应性。其核心思想是将基于关键词的检索（如BM25、TF-IDF）与基于语义的检索（如向量检索、深度学习模型）相结合，以应对单…...

编程日记 2025/9/16 23:04:42

优化uniappx页面性能，处理页面滑动卡顿问题

问题：在页面遇到滑动特别卡的情况就是在页面使用了动态样式或者动态类，做切换的时候页面重新渲染导致页面滑动卡顿解决：把动态样式和动态类做的样式切换改为通过获取元素修改样式属性值循环修改样式示例 bannerList.forEach((_, index)…...

编程日记 2025/9/19 2:26:34

Yocto meta-toradex-security layer 创建独立数据分区

By Toradex 胡珊逢简介 Toradex 为其产品使用的软件系统如 Linux 提供了诸多的安全功能，例如 Secure Boot、分区加密、OP-TEE 等，帮助用户应对安全合规。这些功能可以通过在 Yocto Project 中添加由 Toradex 开发的 meta-toradex-securitylayer 被轻松…...

编程日记 2025/9/19 8:53:28

uniapp 安卓离线本地打包,Android Studio生成apk包

第一步：HbuilderX生成本地资源包下载最新的SDK 下载完后压缩下来是这样的将HbuilderX生成的复制到这里，替换 Android Studio引入下载的最新文件里的HBuilder-Integrate-AS目录好，接下来开始修改配置把你的证书签名&#xff…...

编程日记 2025/9/10 2:15:46

C语言教程（十四）：C 语言指针详解

一、指针的基本概念指针是一个变量，其值为另一个变量的内存地址。简单来说，指针指向了内存中的某个位置，通过指针可以间接访问该位置存储的数据。指针的使用可以让程序更加高效地处理数据，特别是在处理数组、动态内存分配等方面。…...

编程日记 2025/9/18 18:31:22

2025年04月24日Github流行趋势

项目名称：markitdown 项目地址url：https://github.com/microsoft/markitdown项目语言：Python历史star数：53,351今日star数：822项目维护者：afourney, gagb, sugatoray, PetrAPConsulting, l-lumin项目简介&a…...

编程日记 2025/9/23 4:22:07

切割PDF使用python，库PyPDF2

使用 Python 将大型 PDF 文件分割成多个小文件理解任务将一个 170M 的 PDF 文件分割成多个 10M 左右的小文件。这在处理大型 PDF 文件时非常有用，例如： 减少单个文件的大小，方便传输或存储分别处理不同的文件部分提高 PDF 处理的效率选…...

编程日记 2025/9/21 1:52:49

网络IP冲突的成因与解决方案

网络IP冲突的成因与解决方案一、IP冲突的常见现象与危害二、IP冲突的常见原因三、6种实用解决方案四、预防IP冲突的4个最佳实践五、总结前言肝文不易，点个免费的赞和关注，有错误的地方请指出，看个人主页有惊喜。作者：神的孩子…...

编程日记 2025/9/18 20:30:39

python版本得数独游戏

python版本得数独游戏游戏说明： 游戏使用9x9数独棋盘，.表示可填写的空格输入格式为行,列,数值（如3,5,7表示第3行第5列填7） 系统会自动检查以下内容： 输入格式是否正确数字是否在1-9范围内是否修改固定数字是…...

编程日记 2025/9/22 15:50:50

64位系统上编译32位openh264 x264

在64位系统上要使用i386(32位库)的时候，有些是找不到apt可以安装的版本，所以需要手动编译安装，下面是openh264和x264的编译过程。默认编译openh264 git clone https://github.com/cisco/openh264make ARCHi386 OSlinux PREFIX/lib/i386-li…...

编程日记 2025/9/19 12:06:25

加深对vector理解OJ题

17. 电话号码的字母组合 - 力扣（LeetCode） OJ（一）电话号码的字母组合思路：这里以引用leetcode里面的一个大佬里面的图 1.这道题中，我们用递归的方法来写。为了简洁展示，我们举例子”456“&am…...

编程日记 2025/9/15 20:17:37

协作开发攻略：Git全面使用指南 — 第三部分特殊应用场景

协作开发攻略：Git全面使用指南 — 第三部分特殊应用场景 Git 是一种分布式版本控制系统，用于跟踪文件和目录的变更。它能帮助开发者有效管理代码版本，支持多人协作开发，方便代码合并与冲突解决，广泛应用于软件开发领域…...

编程日记 2025/9/17 13:16:57

机器学习（9）——随机森林

文章目录 1. 随机森林的基本原理想2. 算法流程2.1. 数据采样（Bootstrap）：2.2. 构建决策树：2.3. 聚合预测： 3. 随机森林的构建过程3.1. 数据集的随机抽样3.2. 决策树的训练3.3. 树的生长3.4. 多棵树的集成3.5. 输出预测…...

编程日记 2025/8/24 1:58:24

（第三篇）Springcloud之Ribbon负载均衡

一、简介 1、介绍 Spring Cloud Ribbon是Netflix发布的开源项目，是基于Netflix Ribbon实现的一套客户端负载均衡的工具。主要功能是提供客户端的软件负载均衡算法，将Netflix的中间层服务连接在一起。Ribbon客户端组件提供一系列完善的配置项如连接超时&…...

编程日记 2025/9/23 2:47:44

Linux并发与竞争：从生活例子到内核实战

Linux并发与竞争：从生活例子到内核实战一、并发与竞争：多车道公路的交通问题想象一条四车道的高速公路（多核CPU），所有车辆（线程/进程）都想通过同一个收费站（共享资源&#xff09…...

编程日记 2025/9/19 11:08:25

【金仓数据库征文】——金仓数据库：国产数据库的卓越之选

目录一、金仓数据库的核心技术优势 （一）强大的事务处理能力 （二）高度安全 （三）全面兼容与深度适配 （四）强大的扩展性 （五）智能便捷的工具二、电信行…...

编程日记 2025/9/9 7:15:43

人脸识别考勤系统实现教程：基于Face-Recognition、OpenCV与SQLite

引言随着人工智能技术的飞速发展，人脸识别技术已广泛应用于安防、金融、教育等多个领域。本文将带领大家利用Python的face-recognition库、OpenCV和SQLite数据库，从零开始构建一个具备异常报警功能的人脸识别考勤系统。该系统能够实时检测视频流中的人…...

编程日记 2025/9/24 9:40:59

Golang 闭包学习

引言在平常的 Go 语言开发中，常常需要将一段函数逻辑封装起来，异步执行、作为回调传递，甚至保持某些运行时状态。此时，闭包成为一种非常自然的编程手段。它允许我们在函数内部“记住”外部作用域中的变量，从而实现变…...

编程日记 2025/9/6 22:48:23

Trae+DeepSeek学习Python开发MVC框架程序笔记（四）:使用sqlite验收用户名和密码

继续通过Trae向DeepSeek发问并修改程序，实现程序运行时生成数据库，用户在系统登录页面输入用户名和密码后，控制器通过模型查询用户数据库表来验证用户名和密码，验证通过后显示登录成功页面，验证失败则显示登录失败页面…...

编程日记 2025/9/22 16:03:42

【mdlib】0 全面介绍 mdlib - Rust 实现的 Markdown 工具集

mdlib 是由开发者 bahdotsh 创建的一个多功能 Markdown 工具集合，包含两个主要组件：一个轻量级 Markdown 解析库和一个功能完善的个人 Wiki 系统。该项目完全采用 Rust 实现，兼具高性能与跨平台特性。核心组件 Markdown 解析库特性&#…...

编程日记 2025/9/9 2:27:43

使用Django REST Framework快速开发API接口

以下是使用 Django 和 Django REST Framework (DRF) 开发 API 接口的核心步骤，涵盖模型、迁移、序列化、视图、路由等关键环节： 前言什么是DRF？ Django REST Framework（DRF） 是基于Django的一个强大且灵活的工具包&…...

编程日记 2025/9/8 4:02:22

Vue3项目中 npm 依赖安装 --save 与 --save-dev 的区别解析

这两个命令的区别如下： bash npm install --save types/crypto-js # 安装到 dependencies（生产依赖） npm install --save-dev types/crypto-js # 安装到 devDependencies（开发依赖） 核心区别依赖分类不同…...

编程日记 2025/9/22 14:54:10

开源模型应用落地-语音合成-MegaTTS3-零样本克隆与多语言生成的突破

一、前言在人工智能技术飞速发展的今天，文本转语音（TTS）技术正以前所未有的速度改变着人机交互的方式。近日，字节跳动与浙江大学联合推出了一款名为MegaTTS3 的开源TTS模型，再次刷新了行业对高质量语音合成的认知。作为一款轻量化设计的模型，MegaTTS3以仅0.45亿参数的规…...

编程日记 2025/9/23 8:26:03

connection.cursor() 与 models.objects.filter

在 Django 中操作数据库时，connection.cursor() 和 models.objects.filter 是两种不同的方式，各有特点和适用场景： models.objects.filter (ORM 方式) 特点‌： 基于 Django 的 ORM（对象关系映射）框架&am…...

编程日记 2025/9/21 1:42:03

深入浅出JavaScript常见设计模式：从原理到实战(1)

深入浅出JavaScript常见设计模式：从原理到实战(1) 设计模式是一种在特定情境下解决软件设计中常见问题的通用方案或模板。在特定的开发场景中使用特定的设计模式，可以提升代码质量，增强代码可读性和可维护性，提高团队开发效率&…...

编程日记 2025/9/22 22:15:41

RCE学习

一、远程代码执行漏洞 1. 远程代码执行的定义定义：远程代码执行漏洞（Remote Code Execute，简称RCE）是指程序预留了执行命令或代码的接口并被黑客利用的漏洞。广义上也包括远程命令执行（Remote Command Execute&…...

编程日记 2025/9/23 8:29:37

Redis安装及入门应用

应用资料：https://download.csdn.net/download/ly1h1/90685065 1.获取文件，并在该文件下执行cmd 2.输入redis-server-lucifer.exe redis.windows.conf，即可运行redis 3.安装redis客户端软件 4.安装后运行客户端软件，输入链接地址…...

编程日记 2025/9/21 4:37:59

【棒球运动】户外运动安全技巧·棒球1号位

以棒球运动为例，在棒球这项结合力量、速度与策略的户外运动中，安全防护是保障运动表现的核心。以下是针对棒球特点的户外安全指南，涵盖装备、环境与行为规范三大维度： 一、场景化防护装备选择击球场景击球手需佩戴双重防护头盔…...

编程日记 2025/9/5 1:17:41

卸载rpm包

昨天了解了查询rpm包的流程和命令,那么今天了解一下删除rpm包的语法,那么话不多说,来看. 1.基本语法 rpm -e RPM包的名称注：e erase擦除 2.案例删除firefox软件包 ：rpm -e firefox 3.细节讨论 1.如果其它软件包依赖于要卸载的软件包,卸载时…...

编程日记 2025/9/19 11:59:12

【AI提示词】艺人顾问

提示说明专业艺人顾问，专注于为客户提供全面的艺术、娱乐和商业咨询服务，帮助他们在竞争激烈的行业中树立品牌影响力，提升市场竞争力提示词 # Role: 艺人顾问## Profile - language: 中文 - description: 专业艺人顾问，专注于…...

编程日记 2025/9/9 2:11:25

第七部分：向量数据库和索引策略

什么是矢量数据库？ 简单来说，向量数据库是一种专门化的数据库，旨在优化存储和检索以高维向量形式表示的文本。为什么这些数据库对RAG至关重要？因为向量表示能够在大规模文档库中进行高效的基于相似性的搜索，根据用户…...

编程日记 2025/9/24 14:30:49

26考研|数学分析：数项级数

数项级数这一章的开始，开启了新的关于“级数”这一新的概念体系的学习进程，此部分共包含四章的内容，分别为数项级数、函数项级数、幂级数以及傅里叶级数。这一章中，首先要掌握级数的相关概念与定义，重难点在于掌握判断…...

编程日记 2025/9/10 21:22:17

2025 年免费 Word 转 PDF 转换器有哪些？

我们列出了最好的 Word 到 PDF 转换器，以便轻松轻松地将 .doc 文件导出到 .pdf 而不会丢失原始格式。尽管 Microsoft 365 包含一个 Word 版本，该版本可以将您正在处理的 .docx 文档无缝导出为 PDF 格式，但仍在使用旧版 Word 的人可能缺少此…...

编程日记 2025/9/19 3:03:15

【Spring Boot】深入解析：#{} 和 ${}

1.#{} 和 ${}的使用 1.1数据准备 1.1.1.MySQL数据准备 （1）创建数据库： CREATE DATABASE mybatis_study DEFAULT CHARACTER SET utf8mb4;（2）使用数据库 -- 使⽤数据数据 USE mybatis_study;（3&#xff…...

编程日记 2025/9/24 6:22:22

SpringMVC知识体系

SpringMVC 知识体系 1. SpringMVC 基础 MVC 设计模式 Model: 模型层，处理业务逻辑View: 视图层，负责界面展示Controller: 控制层，处理请求并协调模型和视图核心组件 DispatcherServlet: 前端控制器HandlerMapping: 处理器映射Controller: …...

编程日记 2025/9/20 5:28:21

如何将 PDF 中的文本提取为 JSON 格式

一些 PDF 文件是“带标签”的，意味着它们包含关于文件结构的信息。这种结构作为元数据嵌入在 PDF 中，由一系列标签组成，用于标记诸如标题、段落、列表、表格和图像等元素。这非常类似于 HTML，其中的文本包含在具有语义意义的元素…...

编程日记 2025/8/29 1:56:27

深度解析：基于Python的微信小程序自动化操作实现

引言在当今数字化时代，自动化技术正在改变我们与软件交互的方式。本文将深入解析一个使用Python实现的微信小程序自动化操作脚本，该脚本能够自动识别屏幕上的特定图像并执行点击操作。这种技术在自动化测试、批量操作和效率工具开发中有着广泛的应用前…...

编程日记 2025/9/21 23:12:38

【网络安全】网络钓鱼的类型

1. 网络钓鱼简介网络钓鱼是最常见的社会工程学类型之一，它是一种利用人为错误来获取私人信息、访问权限或贵重物品的操纵技术。之前，您学习了网络钓鱼是如何利用数字通信诱骗人们泄露敏感数据或部署恶意软件的。有时，网络钓鱼攻击会伪装成…...

编程日记 2025/9/20 12:29:11

Python----深度学习（基于深度学习Pytroch线性回归和曲线回归）

一、引言在当今数据驱动的时代，深度学习已成为解决复杂问题的有力工具。它广泛应用于图像识别、自然语言处理和预测分析等领域。回归分析是统计学的一种基础方法，用于描述变量之间的关系。通过回归模型，我们可以预测连续的数值输出&#xf…...

编程日记 2025/9/23 11:49:22

重构智能场景：艾博连携手智谱，共拓智能座舱AI应用新范式

2025年4月24日，智能座舱领域创新企业艾博连科技与国产大模型独角兽智谱，在上海国际车展艾博连会客厅签署合作协议。双方宣布将深度整合智谱在AI大模型领域的技术积淀与艾博连在汽车智能座舱场景的落地经验，共同推进下一代"有温度、懂需求…...

编程日记 2025/9/20 15:17:04

Streamlit从入门到精通：构建数据应用的利器

在数据科学与机器学习日益普及的今天，如何快速将模型部署为可交互的应用成为了许多数据科学家的重要任务。Streamlit，作为一个开源的Python库，专为数据科学家设计，能够帮助我们轻松构建美观且直观的Web应用。本文将从入门到精通&a…...

编程日记 2025/9/21 7:44:48

4.1.1 类的序列化与反序列化（XmlSerializer）

本文介绍XML序列化和反序列化操作本例子中被序列化的类(Devices)中有一个List,其元素类型为：DigitalInputInfo. 序列化以及反序列化都很简单： 序列化：即把类的对象输出到文件中。 StreamWriter streamWriter new StreamWriter(filePath); …...

编程日记 2025/9/17 10:05:20

新增优惠券

文章目录概要整体架构流程技术细节小结概要接口分析一个基本的新增接口，按照Restful风格设计即可，关键是请求参数。之前表分析时已经详细介绍过这个页面及其中的字段，这里不再赘述。需要特别注意的是，如果优惠券限定了使…...

编程日记 2025/9/9 12:07:28

Qt 处理 XML 数据

在 Qt 中，处理 XML 数据通常使用 Qt 提供的 QDomDocument、QXmlStreamReader 和 QXmlStreamWriter 类。这些类可以帮助你读取、修改和写入 XML 数据。 1. 使用 QDomDocument 处理 XML QDomDocument 提供了对 XML 文档的 DOM（Document Object Model&…...

编程日记 2025/9/20 23:55:48

STM32F407使用ESP8266实现阿里云OTA（下）

文章目录前言一、函数分析1.get_bin()函数2.download_bin()函数3.串口1中断函数二、完整工程分析前言从上一章中，我们已经成功连接阿里云并且成功拿到了升级包的下载地址，在本文我们将升级包下载下来并且存储到SD卡中，最终将程序写入FLASH中完成APP的跳转，至此我们的OTA…...

编程日记 2025/9/23 9:17:17