当前位置：首页 > news >正文

整合 CountVectorizer 和 TfidfVectorizer 绘制词云图

news 来源：原创 2025/9/21 1:01:44

本文分别整合 CountVectorizer 和 TfidfVectorizer 绘制词云图

✨ CountVectorizer

CountVectorizer 是 scikit-learn 中用于 文本特征提取 的一个工具，它的主要作用是将一组文本（文本集合）转换为词频向量（Bag-of-Words，词袋模型）。

简单来说：

CountVectorizer 会把文本中的每一个词（token）当作特征，然后统计每个词在每个文本中出现的次数，最终输出一个稀疏矩阵表示文本的“词频”。

🔧 作用与功能详解：

分词：自动将每个句子切分成词（默认以空格分割，也可以自定义分词器）。
构建词典：对整个语料中所有出现的词汇建立一个词汇表（字典）。
向量化：将每个文本表示为一个向量，每个维度是某个词在该文本中出现的次数。

📚 应用场景：

文本分类（如垃圾邮件识别、情感分析）
文本聚类
信息检索
自然语言处理（NLP）中的特征工程

⚠️ 注意：

CountVectorizer 不考虑词语顺序，即是典型的“词袋模型”。
它也不考虑语义（两个同义词视为不同词）。
你可以设置 max_features、stop_words、ngram_range 等参数来优化结果。

✨ TfidfVectorizer

TfidfVectorizer 是 scikit-learn 提供的一个类，用于将原始文本转化为TF-IDF 特征矩阵，常用于文本分类、聚类、信息检索等任务。

🧠 TF-IDF 是什么？

TF-IDF = Term Frequency - Inverse Document Frequency

它是一种权重计算方法，用来衡量某个词对某个文档的重要性。

📌 1. TF（词频）公式：

$\frac{\text{词 } t \text{ 在文档 } d \text{ 中出现的次数}}{\text{文档 } d \text{ 中总词数}}$

表示某个词在文档中出现的频率。

📌 2. IDF（逆文档频率）公式：

$\log \left( \frac{1 + N}{1 + DF(t)} \right) + 1$

( N )：语料库中的总文档数
( DF(t) )：包含词 ( t ) 的文档数量

这个公式会让出现在越少文档中的词权重越高，因为它更能“区别”文档。

📌 3. TF-IDF 综合计算：

$TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t)$

⚙️ 常用参数解释

参数名	含义
`ngram_range=(1, 2)`	提取 uni-gram 和 bi-gram
`max_df=0.85`	忽略出现在超过85%文档中的词
`min_df=2`	忽略出现在少于2个文档中的词
`stop_words='english'`	去除英文停用词（中文需自定义）
`tokenizer`	自定义分词函数（适用于中文，结合 jieba）
`use_idf=True`	是否使用逆文档频率
`smooth_idf=True`	是否进行平滑（避免分母为0）

🧪 中文处理建议

因为 TfidfVectorizer 默认不适合中文，需要配合 jieba 分词：

import jiebadef chinese_tokenizer(text):return jieba.lcut(text)vectorizer = TfidfVectorizer(tokenizer=chinese_tokenizer)
X = vectorizer.fit_transform(docs)

📊 输出样例

假设你有：

docs = ["我 爱 你", "你 爱 他", "他 爱 我"]

输出的 TF-IDF 词向量矩阵如下：

文档索引	我	爱	你	他
Doc1	0.70	0.50	0.50	0
Doc2	0	0.50	0.50	0.70
Doc3	0.50	0.50	0	0.70

✨ `CountVectorizer` vs `TfidfVectorizer`

特性	`CountVectorizer`	`TfidfVectorizer`
核心思想	统计词频（TF）	统计 TF × IDF
向量值	每个词的出现次数	每个词的重要性权重
词频高是否意味着重要	是	不一定（可能是常见词）
适用场景	适合简单建模（如朴素贝叶斯）	更适合文本分类、信息检索等
是否考虑语料库整体信息	❌ 只考虑当前文档	✅ 考虑所有文档的分布
是否支持平滑	❌	✅ 支持平滑处理

✨ 什么是 n-gram？

n-gram 是指连续的 n 个词。例如：

输入句子："I love machine learning"
1-gram（unigram）: "I", "love", "machine", "learning"
2-gram（bigram）: "I love", "love machine", "machine learning"
3-gram（trigram）: "I love machine", "love machine learning"

🛠️ `ngram_range=(min_n, max_n)` 说明

ngram_range=(1, 1)：只提取 1-gram（默认）
ngram_range=(1, 2)：提取 1-gram 和 2-gram
ngram_range=(2, 3)：提取 2-gram 和 3-gram

✅ 示例代码

from sklearn.feature_extraction.text import CountVectorizertext = ["I love machine learning"]# 提取1-gram和2-gram
vectorizer = CountVectorizer(ngram_range=(1, 2))
X = vectorizer.fit_transform(text)print(vectorizer.get_feature_names_out())
print(X.toarray())

输出结果：

['i' 'i love' 'learning' 'love' 'love machine' 'machine' 'machine learning']
[[1 1 1 1 1 1 1]]

这表示：

单个词（unigram）和两个词组合（bigram）都被统计了。

🎯 使用场景建议

ngram_range=(1, 2)：适合大多数 NLP 应用，可以捕捉常见词和短语搭配。
ngram_range=(2, 2)：适合挖掘关键词对（如“机器学习”）
ngram_range=(2, 3)：更强调上下文结构，但维度较高，需要更多数据支持。

⚠️ 注意：

提取更多的 n-gram 会导致维度爆炸（特征太多），要结合 max_features 或 min_df 限制特征数量。
高阶 n-gram 更稀疏，也更依赖大规模语料支持。

✨ 词云可视化

安装相关的依赖

pip install wordcloud scikit-learn matplotlib

代码

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt
from wordcloud import WordCloud# 示例文本
texts = ["Natural language processing is fun and exciting.","Machine learning and deep learning are key techniques in AI.","I love studying machine learning and natural language tasks.",
]# 初始化向量器，提取 1-gram 到 2-gram，可以使用CountVectorizer或TfidfVectorizer
vectorizer = CountVectorizer(ngram_range=(1, 2), stop_words='english')
# vectorizer = TfidfVectorizer(ngram_range=(1, 2), stop_words='english')X = vectorizer.fit_transform(texts)# 提取关键词和其对应的 分数值，对于 TF-IDF 是分数值，对于 CountVectorizer 是频率值
feature_names = vectorizer.get_feature_names_out()
print("Features:", feature_names)# 每个词语在所有文档中分数的总和
_scores = X.sum(axis=0).A1# 构建关键词:权重的字典
word_dict = dict(zip(feature_names, _scores))# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies(word_dict)# 显示图形
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.title("TF-IDF Weighted WordCloud (1-2 gram)")
plt.show()

运行结果
在这里插入图片描述

整合 CountVectorizer 和 TfidfVectorizer 绘制词云图

本文分别整合 CountVectorizer 和 TfidfVectorizer 绘制词云图 ✨ CountVectorizer CountVectorizer 是 scikit-learn 中用于文本特征提取的一个工具，它的主要作用是将一组文本（文本集合）转换为词频向量（Bag-of-Words&#xf…...

编程日记 2025/9/21 1:01:44

国产AI大模型超深度横评：技术参数全解、商业落地全场景拆解

评测方法论与指标体系评测框架设计采用三层评估体系，涵盖技术性能、商业价值、社会效益三大维度，细分为12个二级指标、36个三级指标： 测试环境配置项目配置详情硬件平台8NVIDIA H100集群，NVLink全互联，3TB内存软…...

编程日记 2025/9/21 1:01:44

Shell脚本-流程控制语句应用案例

在Shell脚本编程中，流程控制语句是实现逻辑控制和自动化任务处理的关键。通过合理运用条件判断、循环等流程控制语句，可以编写出高效、灵活的脚本程序。本文将通过几个实际的应用案例来展示如何使用这些流程控制语句解决具体的编程问题。案例一&#x…...

编程日记 2025/9/20 22:31:44

HarmonyOS NEXT应用开发-Notification Kit（用户通知服务）notificationManager.addSlot

1.notificationManager.addSlot 支持设备Phone2in1TabletCarWearable addSlot(type: SlotType, callback: AsyncCallback<void>): void 创建指定类型的通知渠道。使用callback异步回调。系统能力：SystemCapability.Notification.Notification 示例&#xf…...

编程日记 2025/9/19 7:36:43

计算机网络核心知识点全解析（面试通关版）

一、网络体系结构：从OSI到TCP/IP的分层设计 1.1 七层模型与四层模型对比 OSI七层模型核心功能TCP/IP四层对应典型协议生活类比应用层为应用程序提供服务（如文件传输、邮件、Web浏览）应用层HTTP、FTP、SMTP、DNS快递面单信息（收件…...

编程日记 2025/9/21 0:59:39

表示学习与部分域适应

表示学习（Representation Learning） 表示学习是机器学习的一个分支，旨在自动从原始数据中提取有意义的特征或表示，使得这些表示更适合后续任务（如分类、检测、回归等）。其核心思想是将高维、复杂、冗余的原…...

编程日记 2025/9/21 1:01:28

AI与思维模型【77】——PDCA思维模型

一、定义 PDCA思维模型是一种用于持续改进和优化工作流程、项目实施以及问题解决的科学管理方法。它由四个英文字母组成，分别代表计划（Plan）、执行（Do）、检查（Check）和处理（Act&…...

编程日记 2025/9/19 7:46:13

Flink 系列之七 - Data Stream API的源算子原理

之前做过数据平台，对于实时数据采集，使用了Flink。现在想想，在数据开发平台中，Flink的身影几乎无处不在，由于之前是边用边学，总体有点混乱，借此空隙，整理一下Flink的内容&#xff0c…...

编程日记 2025/9/21 1:01:43

使用 SSE + WebFlux 推送日志信息到前端

为什么使用 SSE 而不使用 WebSocket, 请看 SEE 对比 Websocket 的优缺点。特性SSEWebSocket通信方向单向（服务器→客户端）双向（全双工）协议基于 HTTP独立协议（需 ws:// 前缀）兼容性现代浏览器&#xff08…...

编程日记 2025/9/21 0:51:52

Java多线程同步有哪些方法?

大家好，我是锋哥。今天分享关于【Java多线程同步有哪些方法?】面试题。希望对大家有帮助； Java多线程同步有哪些方法? 1000道互联网大厂Java工程师精选面试题-Java资源分享网在 Java 中，多线程同步是确保多个线程在访问共享资源时不会…...

编程日记 2025/9/19 7:42:45

Java—数组

数组就是一个容器，用来存一批同种类型的数据。一、静态初始化数组 1.1 定义方式语法： 完整格式：数据类型 [ ] 数组名 new 数据类型 []{ 元素 1 ，元素 2 ，元素3… };简化格式：数据类型 [ ] 数组名 {…...

编程日记 2025/9/20 22:46:52

iOS/Android 使用 C++ 跨平台模块时的内存与生命周期管理

在移动应用开发领域，跨平台开发已经成为一种不可忽视的趋势。随着智能手机市场的持续扩张，开发者需要同时满足iOS和Android两大主流平台的需求，而这往往意味着重复的工作量和高昂的维护成本。跨平台开发的目标在于通过一套代码库实现多平台的支持，从而降低开发成本、加速产…...

编程日记 2025/9/21 0:59:41

为什么vue的key值，不用index？

在 Vue 中，key 的作用是帮助框架高效地识别和复用 DOM 节点或组件实例。使用数组索引 (index) 作为 key 值可能会导致以下问题，因此通常不建议这样做： 1. 列表数据变化时，可能导致错误的 DOM 复用问题：当列表的顺序…...

编程日记 2025/9/21 1:01:30

Hi3516CV608 超高清智慧视觉 SoC 芯片可提供开发资料

Hi3516CV608 超高清智慧视觉SoC 产品简介总体介绍 Hi3516CV608是一颗面向消费类市场的IPC SoC，在新一代视频编解码标准、网络安全、隐私保护和人工智能方面引领行业发展。主要应用于室内外场景下的云台机、枪机、球机、枪球一体机、双目长短焦机等产品形态&#…...

编程日记 2025/9/20 20:35:02

Flink部署与应用——部署方式介绍

引入我们通过Flink相关论文的介绍，对于Flink已经有了初步理解，这里简单的梳理一下Flink常见的部署方式。 Flink 的部署方式 StandAlone模式介绍 StandAlone模式是Flink框架自带的分布式部署模式，不依赖其他的资源调度框架&#xff0c…...

编程日记 2025/9/19 0:48:17

数据挖掘技术与应用课程论文——数据挖掘中的聚类分析方法及其应用研究

数据挖掘中的聚类分析方法及其应用研究摘要聚类分析是数据挖掘技术中的一个重要组成部分，它通过将数据集中的对象划分为多个组或簇，使得同一簇内的对象具有较高的相似性，而不同簇之间的对象具有较低的相似性。本文系统地研究了数据挖掘中的多种聚类分析方法及其应用。首先…...

编程日记 2025/9/19 7:37:14

SIEMENS PLC程序解读 ST 语言车型识别

1、ST程序代码 IF #Type1_MIX < #CFG_Type.Type.CT AND #CFG_Type.Type.CT < #Type1_MAX AND #CFG_Type.Type.CT<>0 THEN#Type[1] : 1;FOR #I : 0 TO 39 DOIF #CFG_Type.Type.CT/10 (#Type1_MIX 10 * #I)/10 THEN#Sub_Type."1"[#I 1] : 1;END_IF; E…...

编程日记 2025/9/19 7:43:45

神经网络基础[损失函数,bp算法,梯度下降算法 ]

关于神经网络的基础的概念可以看我前面的文章损失函数在深度学习中, 损失函数是用来衡量模型参数的质量的函数, 衡量的方式是比较网络输出和真实输出的差异作用:指导模型的训练过程，通过反向传播算法计算梯度，从而更新网络的参数，最终使…...

编程日记 2025/9/19 7:58:13

python打印颜色（python颜色、python print颜色、python打印彩色文字、python print彩色、python彩色文字）

文章目录 python怎么打印彩色文字1. 使用ANSI转义码：2. 使用colorama库（更好的跨平台支持）：3. 使用termcolor库： python怎么打印彩色文字在Python中打印彩色文字有几种方法： 1. 使用ANSI转义码&#xff…...

编程日记 2025/9/19 7:41:13

数字域残留频偏的补偿原理

模拟域的频谱搬移一般通过混频器实现。一般情况下模拟域调整完频偏后数字域还会存在一部分残留频偏这部分就需要在数字域补偿。原理比较简单本文进行下粗略总结。首先我们需要了解下采样具体可参考下信号与系统笔记(六)：采样 - 知乎。采样前和采样后，角…...

编程日记 2025/9/19 7:56:20

Linux文件管理2

Linux 文件管理是系统操作的核心内容之一，涉及文件和目录的创建、删除、移动、查看、权限管理等操作。以下是 Linux 文件管理的核心知识点和常用操作总结： 一、文件系统结构 Linux 文件系统采用树形结构，以 /（根目录&#xff0…...

编程日记 2025/9/20 16:22:29

C++----模拟实现string

模拟实现string，首先我们要知道成员变量有哪些： class _string{private:char* _str;size_t capacity;//空间有多大size_t size;//有效字符多少const static size_t npos;};const size_t _string::npos-1;//static在外面定义不需要带static，np…...

编程日记 2025/9/20 10:22:09

Python torch.optim.lr_scheduler 常用学习率调度器使用方法

在看学习率调度器之前，我们先看一下学习率的相关知识： 学习率学习率的定义学习率（Learning Rate）是深度学习中一个关键的超参数，它决定了在优化算法（如梯度下降法）更新模型参数时&#xff0…...

编程日记 2025/9/19 8:27:43

从零开始学Python游戏编程39-碰撞处理1

在《从零开始学Python游戏编程38-精灵5》代码的基础上，添加两个敌人的防御塔，玩家的坦克无法移动到防御塔所在的空格中，如图1所示。图1 游戏中的碰撞处理 1 游戏中空格的坐标在《从零开始学Python游戏编程36-精灵3》中提到，可…...

编程日记 2025/9/18 12:38:13

同步定时器的用户数要和线程组保持一致，否则jmeter会出现接口不执行’stop‘和‘×’的情况

调试压测时发现了一个问题就是线程计划总是出现‘stop’的按钮无法执行完毕发现时同步定时器导致的，就是有接口使用了同步定时器，但是这个同步定时器的用户数量设置的＜线程组用户数量时，会出现执行无法结束的情况，如下…...

编程日记 2025/9/19 8:13:43

如何在Linux用libevent写一个聊天服务器

废话少说，先看看思路因为libevent的回调机制，我们可以借助这个机制来创建bufferevent来实现用户和用户进行通信如果成功连接后我们可以直接在listener回调函数里创建一个bufferevent缓冲区，并为每个缓冲区设置相应的读回调和事件回调&…...

编程日记 2025/9/19 8:05:44

Virtuoso ADE采用Spectre仿真中出现MOS管最小长宽比满足要求依然报错的情况解决方法

在ADE仿真中错误问题如下： ERROR (CMI-2440): "xxx.scs" 46338: I2.M1: The length, width, or area of the instance does not fit the given lmax-lmin, wmax-wmin, or areamax-areamin range for any model in the I2.M3.nch_hvt group. The channel w…...

编程日记 2025/9/19 8:37:15

防火墙原理与应用总结

防火墙介绍： 防火墙（Firewall）是一种网络安全设备，其核心目标是通过分析数据包的源地址、端口、协议等内容，保护一个网络区域免受来自另一个网络区域的网络攻击和网络入侵行为，同时允许合法流量自由通行。…...

编程日记 2025/9/19 8:32:43

Graph Database Self-Managed Neo4j 知识图谱存储实践2：通过官方新手例子入门（未完成）

官方入门例子：neo4j-graph-examples/get-started: An introduction to graph databases and Neo4j for new users 官方例子仓库：https://github.com/neo4j-graph-examples 下载数据 git clone https://github.com/neo4j-graph-examples/get-started …...

编程日记 2025/9/19 8:35:15

GIT下载步骤

git官方链接： 添加链接描述...

编程日记 2025/9/19 8:30:45

C++中的vector和list的区别与适用场景

区别特性vectorlist底层实现动态数组双向链表内存分配连续内存块非连续内存块随机访问支持，通过索引访问，时间复杂度O(1)不支持，需遍历，时间复杂度O(n)插入/删除末尾操作效率高，时间复杂度O(1)任意位置操作效率高&am…...

编程日记 2025/9/20 17:17:24

软件测试入门学习笔记

今天学习新知识，软件测试。什么是软件测试？ 使用人工和自动手段来运行或测试某个系统的过程，目的在于检验它是否满足规定的需求或弄清实际结果与预期结果之间的差别。软件测试的目的？ 1）为了发现程序&#xff0…...

编程日记 2025/9/19 8:46:25

2025年深度学习模型发展全景透视（基于前沿技术突破与开源生态演进的交叉分析）

2025年深度学习模型发展全景透视 （基于前沿技术突破与开源生态演进的交叉分析） 一、技术突破与能力边界拓展智能水平跃升 2025年开源模型如Meta Llama-4、阿里Qwen2.5-VL参数规模突破1300亿，在常识推理能力测试中首次超越人类基准线7.2%谷歌…...

编程日记 2025/9/19 8:39:45

时间复杂度分析

复杂度分析的必要性： 当给我们一段代码时，我们是以什么准则来判断代码效率的高低呢？每一段代码都会消耗一段时间，或占据一段数据空间，那么自然是在实现相同功能的情况下，代码所耗时间最少，所占…...

编程日记 2025/9/20 20:21:24

BGE-m3 和 BCE-Embedding 模型对比分析

以下是对 BGE-m3 和 BCE-Embedding 模型在 embedding 领域的多维度对比分析，基于公开的技术文档和实验数据： 1. 基础信息对比维度BGE-m3 (智源研究院)BCE-Embedding (网易)发布时间2024 年 1 月2023 年 9 月模型架构Transformer-basedTransformer-base…...

编程日记 2025/9/19 8:48:45

题目 3320: 蓝桥杯2025年第十六届省赛真题-产值调整

题目 3320: 蓝桥杯2025年第十六届省赛真题-产值调整时间限制: 2s 内存限制: 192MB 提交: 549 解决: 122 题目描述偏远的小镇上，三兄弟共同经营着一家小型矿业公司 “兄弟矿业”。公司旗下有三座矿山：金矿、银矿和铜矿，它们的初始产值分别用…...

编程日记 2025/9/20 1:29:41

计算机组成原理第二章数据的表示和运算——2.1数制与编码

计算机组成原理第二章数据的表示和运算——数制与编码一、基本概念与核心知识点 1.1 数制系统基础 1.1.1 进位计数制定义：以固定基数（如2、8、10、16）表示数值的系统核心要素： 基数（R）：允…...

编程日记 2025/9/20 14:48:15

基于归纳共形预测的大型视觉-语言模型中预测集的数据驱动校准

摘要本研究通过分离共形预测（SCP）框架，解决了大型视觉语言模型（LVLMs）在视觉问答（VQA）任务中幻觉缓解的关键挑战。虽然LVLMs在多模态推理方面表现出色，但它们的输出常常表现出具有…...

编程日记 2025/9/19 23:35:35

Golang | 自行实现并发安全的Map

核心思路，读写map之前加锁！哈希思路，大map化分为很多个小map...

编程日记 2025/9/6 23:08:46

【Python数据库编程实战】从SQL到ORM的完整指南

目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明技术选型对比二、实战演示环境配置要求核心代码实现案例1：SQLite基础操作案例2：MySQL连接池案例3：SQLAlchemy ORM …...

编程日记 2025/9/18 11:11:32

深入剖析扣子智能体的工作流与实战案例

前面我们已经初步带大家体验过扣子工作流，工作流程是 Coze 最为强大的功能之一，它如同扣子中蕴含的奇妙魔法工具，赋予我们的机器人处理极其复杂问题逻辑的能力。这篇文章会带你更加深入地去理解并运用工作流解决实际问题目录一、工作流…...

编程日记 2025/9/6 14:12:40

【计算机网络】IP地址

IPv4 五类地址 1.0.0.0 ~ 126.255.255.255A类子网8位，主机24位128.0.0.0 ~ 191.255.255.255B类子网16位，主机16位192.0.0.0 ~ 223.255.255.255C类子网24位，主机8位224.0.0.0 ~ 239.255.255.255D类不分网络地址和主机地址，作为组播…...

编程日记 2025/9/10 22:37:04