NLP基础知识 与 词向量的转化方法 发展
目录
1.NLP 基础知识点
为什么需要自然语言处理?
自然语言处理有哪些分类?
自然语言处理有哪些实际应用?
为什么需要自然语言处理?
自然语言处理有哪些分类?
自然语言处理有哪些实际应用?
自然语言处理的技术/工作原理是什么?
2.NLP文本转化为词向量的方法
2.1 one-hot
2.1.1one-hot 优点
2.1.2one-hot 缺点
2.2TF-IDF
2.2.1TF-IDF优点
2.2.2TF-IDF缺点
2.3 N-gram优缺点
2.3.1语言模型
2.4分布式 编辑
2.4.1分布式优缺点
2.4.2共现矩阵
2.4.3共现矩阵优缺点
2.4.4共现矩阵+SVD(奇异值降维)的代码实现
2.4.4 .1共现矩阵+SVD的优缺点
2.5NNLM(深度学习模型)
2.5.1NNLM模型主要流程
2.5.2NNLM的优缺点
2.6word2vec
2.6.1CBOW的word2vec框架 (哈夫曼树优化)
2.6.2skip-gram优化的word2vec框架
2.6.3 word2vec 的优缺点
1.NLP 基础知识点
自然语言处理(Natural Language Processing,简称NLP)属于人工智能的一个分支,旨在让计算机能够理解并处理人类语言,从中提取出有用的信息,帮助人类更高效地处理各种任务。
为什么需要自然语言处理?
自然语言处理通过对人类日常语言进行理解和响应,为人类带来更多的便利和创新。随着人工智能的不断发展,自然语言处理也逐渐融入到电商、文娱、公安、医疗、电力等各大行业领域中,帮助人类高效地处理信息。
自然语言处理具有以下优势:
支持自然语言交互、简便易用:NLP技术使得计算机可以理解和处理人类语言,从而实现了人与计算机的自然语言交互。用户可以通过人类语言的方式表达自己的需求,无需使用计算机指令或编程知识,提高了人机交互的效率和易用性。
支持海量信息分析和处理:NLP技术可以自动化处理大量的文本和语音信息,是处理、分析和挖掘数据中有价值信息的关键工具。
提供个性化服务:NLP技术可以根据用户的个人偏好和习惯进行个性化设置和推荐,提供更加个性化的服务。例如,智能客服可以根据用户的语言风格和问题类型提供定制化的回答和解决方案。
自然语言处理有哪些分类?
词性标注:通过词性标注服务,用户可以快速为每一个词附上对应的词性,结合分词服务,可以快速进行更深层次的文本挖掘处理,有效实现新词发现、歧义消除等能力。
命名实体识别:命名实体服务可以帮助您快速识别文本中的实体,进而挖掘各实体间的关系,是进行深度文本挖掘,知识库构建等常用自然语言处理领域里的必备工具。
情感分析:基于海量大数据研发,为有情感分析需求的产品提供服务。能够对短文本情感的正负向及中性进行分析,识别和分析用户的情感状态和意图,并给出结果。在舆情监控、话题审核、口碑分析聚类等商业领域有广大的应用空间对于企业了解用户满意度、产品评价等方面非常有帮助。
中心词提取:基于海量数据,使用电商标题中心词以及类目进行训练,通过给每个词计算一个相关性分数来衡量每个词与句子的相关性程度,进而识别并提取出句子的中心词。适用于提取电商搜索query、标题及其他类似短文本的中心词。
文本信息抽取:结合AI技术,通过自动阅读文档内容,将用户关心的关键核心信息进行提取,简化机械性和重复性的工作,协助企业完成文档审阅及录入工作。
商品评价解析:商品评价解析主要用于分析消费者反馈的评价、点评内容,同时也可以对类似微博的口语化、短文本进行分析。
关系抽取:从文本中提取实体之间的关系,例如人物关系、公司与股票价格之间的关系等。
知识图谱构建:自然语言处理技术可以自动抽取和整理知识图谱,帮助人们更好地组织和理解复杂的信息,提高知识管理的效率和质量。
商业决策支持:通过对市场和用户需求的深入分析,自然语言处理技术可以为企业的商业决策提供有力支持,帮助企业做出更明智的决策。
自然语言处理有哪些实际应用?
自然语言在不同的行业中被广泛应用。结合不同行业的特点,主要包含以下应用场景:
金融-简历抽取于合同审核比对:依靠算法分析相关非结构化文本(文档、描述、网页等),并从文本中获取结果,用于银行简历抽取与合同审核比对等场景,快速高效缩短审批流程,极大减少了人工成本和时间成本。
司法-信息抽取、分类:针对大量裁判文书中的判决时间、案发地点、原告信息、被告信息等信息的抽取,私有化部署,在本地化通过平台进行文书的数据标注、模型训练,快速对大量裁判文书进行结构化处理,大大提升审核效率。
医疗-病历质检/DRGs:基于非结构化文本病历数据,通过医学知识图谱能力构建医学质检引擎,支持病历质量管理,做到事中提醒、事后检查,减少医疗事故,提高服务质量;同时根据病案数据进行DRGs分组,保障医院运营及医保正常结算。
互联网-外呼意图识别:在与客户的通话过程中,通过实时语音识别客户意图,根据预设的流程话术精准回复,以真人语音或语音合成播报的形式与客户进行沟通交流,从而帮助企业从海量用户中高效、精准地触达目标客户,实现数据全链路管理。
新零售-商品评价解析:用于分析消费者反馈的评价、点评内容,同时也可以对类似微博的口语化内容、短文本进行分析。品牌商从中可以解析出商品最吸引人的卖点,以及最需要改进的地方,进而获知当前的消费者理念,预判流行趋势,提高购买转化。
客户服务:聊天机器人和虚拟客服代表利用NLP提供7x24小时的客户服务,能够理解和回应客户的咨询,减轻客服人员的工作负担。
为什么需要自然语言处理?
自然语言处理通过对人类日常语言进行理解和响应,为人类带来更多的便利和创新。随着人工智能的不断发展,自然语言处理也逐渐融入到电商、文娱、公安、医疗、电力等各大行业领域中,帮助人类高效地处理信息。
自然语言处理具有以下优势:
支持自然语言交互、简便易用:NLP技术使得计算机可以理解和处理人类语言,从而实现了人与计算机的自然语言交互。用户可以通过人类语言的方式表达自己的需求,无需使用计算机指令或编程知识,提高了人机交互的效率和易用性。
支持海量信息分析和处理:NLP技术可以自动化处理大量的文本和语音信息,是处理、分析和挖掘数据中有价值信息的关键工具。
提供个性化服务:NLP技术可以根据用户的个人偏好和习惯进行个性化设置和推荐,提供更加个性化的服务。例如,智能客服可以根据用户的语言风格和问题类型提供定制化的回答和解决方案。
自然语言处理有哪些分类?
词性标注:通过词性标注服务,用户可以快速为每一个词附上对应的词性,结合分词服务,可以快速进行更深层次的文本挖掘处理,有效实现新词发现、歧义消除等能力。
命名实体识别:命名实体服务可以帮助您快速识别文本中的实体,进而挖掘各实体间的关系
相关文章:
NLP基础知识 与 词向量的转化方法 发展
目录 1.NLP 基础知识点 为什么需要自然语言处理? 自然语言处理有哪些分类? 自然语言处理有哪些实际应用? 为什么需要自然语言处理? 自然语言处理有哪些分类? 自然语言处理有哪些实际应用? 自然语言处理的技术/工作原理是什么? 2.NLP文本转化为词向量的方法 2…...
VectorBT量化入门系列:第四章 高级策略开发与优化
VectorBT量化入门系列:第四章 高级策略开发与优化 本教程专为中高级开发者设计,系统讲解VectorBT技术在量化交易中的应用。通过结合Tushare数据源和TA-Lib技术指标,深度探索策略开发、回测优化与风险评估的核心方法。从数据获取到策略部署&am…...
JVM虚拟机篇(七):JVM垃圾回收器全面解析与G1深度探秘及四种引用详解
JVM垃圾回收器全面解析与G1深度探秘及四种引用详解 JVM虚拟机(七):JVM垃圾回收器全面解析与G1深度探秘及四种引用详解一、JVM有哪些垃圾回收器1. Serial回收器2. ParNew回收器3. Parallel Scavenge回收器4. Serial Old回收器5. Parallel Old回…...
【蓝桥杯】15届JAVA研究生组F回文字符串
一、思路 1.这题去年考的时候想的是使用全排列进行尝试,实际不用这么麻烦,只用找到第一个和最后一个非特殊字符串的位置,然后分别向内检查是否对称,向外检查是否对称直到左指针小于0(可以通过添加使其对称) 2.至于如何找到第一个…...
TDengine 语言连接器(Python )
简介 taospy 是 TDengine 数据库面向 Python 语言提供的官方连接器,连接器对外提供对数据库写入、查询、订阅等多种访问接口。 安装连接器命令如下: # 原生连接和 REST 连接 pip3 install taospy# WebSocket 连接,可选装 pip3 install tao…...
Android compose源码浅析——Modifier
Modifier浅析 Modifier的使用foldOutfoldInanyall总结Modifier的使用 先来一段代码1: @Preview(showBackground = true) @Composable fun GreetingPreview() {ComposeTestTheme {Box(modifier = Modifier.size(DpSize(Dp(100f),Dp(100f))).padding(Dp(10f)).background(Colo…...
基于机器视觉的多孔零件边缘缺陷检测(源码C++、opencv、凸包、凸缺陷检测)
👑主页:吾名招财 👓简介:工科学硕,研究方向机器视觉,爱好较广泛… 💫签名:面朝大海,春暖花开! 基于机器视觉的多孔零件边缘缺陷检测(源码C、ope…...
JAVAWeb_Servlet:前置准备与理论简易介绍
要写JAVA_Web:首先就得建个项目——如何在Eclipse新建一个Web项目-CSDN博客 然后我们考虑具体的代码细节(接下来就是我们的前置准备) 一、导包: 在 Eclipse 中,如果需要快速导入缺失的包(例如࿰…...
反射 tcp
反射 临时越过权限 获取成员变量1并进行修改 成员方法 TCP客户端...
UML综合实验四
1. 计算机包含内存(RAM)、CPU等硬件设备,根据下面的“产品等级结构-产品族”示意图,使用抽象工厂模式实现计算机设备创建过程并绘制相应的类图。 2. 电脑组装工厂可以将CPU、内存、硬盘、主机、显示器等硬件设备组装在一起构成一台完整的电脑,…...
<《AI大模型应知应会100篇》第8篇:大模型的知识获取方式及其局限性
第8篇:大模型的知识获取方式及其局限性 摘要 大模型(如GPT、BERT、Qwen、DeepSeek等)凭借其卓越的自然语言处理能力,已经成为人工智能领域的明星。然而,这些模型“知道”什么?它们如何获取知识?…...
【回眸】Linux 内核 (十六) 之 多线程编程 下
前言 前面介绍了互斥锁,本篇博文介绍死锁及其他多线程遇到的情况。 什么情况会造成死锁 死锁指的是两个或两个以上的运算单元(进程、线程或协程),互相持有对方所需的资源,导致它们都无法向前推进,从而导…...
学习笔记083——Java Stream API
文章目录 1、过滤数据 filter()2、转换元素 map()3、排序 sorted()3.1、自定义排序规则 4、去重 distinct()5、限制元素数量 limit()6、收集结果 collect()6.1、收集为List6.2、收集为Set6.3、转为Map6.4、基本用法(注意键冲突会抛异常)6.5、处理键冲突&…...
逍遥模拟器ARM过检测技术全解析
逍遥模拟器ARM框架安装magisk和修改设备型号隐藏应用隐藏root过检测 逍遥模拟器ARMmagisk改设备型号隐藏应用隐藏root 引言 逍遥模拟器以其出色的性能和丰富的功能,深受广大用户喜爱,让用户能在电脑上轻松运行各类安卓应用和游戏。然而,为保…...
Easysearch VS Opensearch 数据写入与存储性能对比
本文记录 Easysearch 和 Opensearch 数据写入和数据存储方面的性能对比。 准备 压测工具:INFINI Loadgen 对比版本: Easysearch 1.11.1(lucene 8.11.4)Opensearch 2.19.1(lucene 9.12.1) 节点 JVM 配置…...
C++中STL学习(一)——向量、栈、堆、集合
#include “bits/stdc.h” using namespace std; int main() { // -------------------- 1、向量vector:可以替换数组,不需要事先指定长度 // ------------------------- vector arr; // 构建int数组 vector arr1(100); // 构建初始长度100的int向量 ve…...
柑橘病虫害图像分类数据集OrangeFruitDataset-8600
文章目录 1. 前言2. 数据类别介绍3. 数据集地址 1. 前言 柑橘,作为水果界的 “宠儿”,不仅以其酸甜可口的味道深受大众喜爱,更是在全球水果产业中占据着举足轻重的地位。无论是早餐中的一杯橙汁,还是下午茶里的柑橘甜点ÿ…...
leetcode刷题-单调栈
代码随想录单调栈|739. 每日温度、496.下一个更大元素 I、503.下一个更大元素II、42. 接雨水、84.柱状图中最大的矩形 739. 每日温度496.下一个更大元素 I503.下一个更大元素II42. 接雨水 -- 面试常考题84.柱状图中最大的矩形 739. 每日温度 leetcode题目链接 代码随想录文档讲…...
【设计模式】访问者模式
**简介 假设你有一个购物车(对象结构),里面有多种商品(元素),如苹果、牛奶、书籍。每个商品的计价规则不同: 水果按重量计价牛奶按数量计价书籍按固定价格计价 现在需要实现两种功能࿱…...
【ISP】ISP pipeline(AI)
ISP Pipeline 全流程概览 ISP(Image Signal Processing,图像信号处理)流程通常从原始 Bayer 数据出发,经过一系列模块处理,逐步完成图像校正和增强,最终生成用于显示或编码的标准图像。常见处理模块包括&a…...
【设计模式】模板模式
简介 假设你要冲泡咖啡和茶,两者的流程相似但部分步骤不同: 烧水(公共步骤)加入主材料(咖啡粉/茶叶)添加调料(糖/牛奶)→ 可选步骤倒进杯子(公共步骤) 模板…...
GDB调试程序的基本命令和用法(Qt程序为例)
1. 引言 GDB(GNU Debugger)是一个强大的命令行调试工具,它可以帮助开发者在程序运行时查找和修复错误。当调试Qt程序时,GDB同样适用,并且能够帮助开发者定位诸如数组越界挂死等复杂问题。 2. 基本命令 2.1 启动GDB …...
vue3腾讯云直播 前端推流
1、在index.html文件中引入(在body体中) <script src"https://video.sdk.qcloudecdn.com/web/TXLivePusher-2.1.1.min.js" charset"utf-8"></script> 2、vue文件中,添加video推流(我用的推流地…...
DP_AUX辅助通道介绍
DisplayPort(简称DP)是一个由PC及芯片制造商联盟开发,视频电子标准协会(VESA)标准化的数字式视频接口标准。该接口免认证、免授权金,主要用于视频源与显示器等设备的连接,并也支持携带音频、USB…...
【微机及接口技术】- 第九章 串行通信与串行接口(下)
文章目录 第二节 串行通信协议一、异步串行通信协议二、同步串行通信协议 第三节 串行接口标准RS-232C一、RS-232C信号线定义二、电气特性 第四节 可编程串行接口芯片8251A一、基本性能二、内部结构三、外部引脚功能1. 同CPU的连接信号2. MODEM控制信号(4个…...
人形机器人制造—3D打印推动微型化与轻量化设计
在人形机器人仿生架构的构建中,多模态传感器集群与仿生关节矩阵的拓扑融合,正催生第三代具身智能的力学革命。通过分布式触觉薄膜、双目视觉惯性测量单元(200Hz采样率)与肌电模拟传感器的三重耦合,机器人获得了超越人类…...
前端性能优化高频面试题解析与实战指南(2025版)
一、前端性能优化核心面试题汇总 1. 浏览器加载优化相关问题 Q1:浏览器从输入URL到页面渲染的完整流程中,有哪些关键性能节点? 核心流程:DNS解析 → TCP连接(TLS握手)→ HTTP请求 → 资源下载 → 解析HT…...
【教程】xrdp修改远程桌面环境为xfce4
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 目录 xfce4 vs GNOME对比 配置教程 1. 安装 xfce4 桌面环境 2. 安装 xrdp 3. 配置 xrdp 使用 xfce4 4. 重启 xrdp 服务 5. 配置防火墙ÿ…...
递增子序列
递增子序列 难点: 结果集如何加:每次进入递归都判断是否sub中的个数>2;不允许对数组排序,如何在每层去重:不可以再用nums[i] nums[i-1](没有意义,重复的元素不一定挨着)&#x…...
Linux磁盘管理双雄:lsblk与df深度解析
在Linux系统管理的日常工作里,磁盘管理占据着极为重要的地位,这里重点介绍lsblk和df这两个命令。 一、lsblk命令:呈现磁盘物理架构 lsblk是用于罗列块设备信息的实用命令,它以直观的树状结构呈现系统中的块设备,帮助…...
C#里设计Modbus-RTU(Remote Terminal Unit)协议
Modbus-RTU(Remote Terminal Unit)是一种串行通信协议,广泛用于工业自动化领域,支持主从式(Master-Slave)通信架构。它是Modbus协议的两种传输模式之一(另一种是ASCII模式),具有高效、简洁、可靠性强的特点,常用于RS-485或RS-232物理层通信。 核心特性 物理层 通常基…...
spark学习内容总结
Spark运行架构总结 一、核心结构 Spark框架的核心是一个计算引擎,整体采用标准的master-slave结构。其中,Driver作为master,负责管理整个集群中的作业任务调度;Executor作为slave,负责实际执行任务。 二、核心组件 …...
MySQL多表查询、事务与索引的实践与应用
摘要:本文围绕MySQL数据库操作展开,通过构建部门与员工管理、餐饮业务相关的数据库表,并填充测试数据,系统地阐述了多表查询的多种方式,包括内连接、外连接和不同类型的子查询,同时介绍了事务的处理以及索引…...
MySQL【8.0.41版】安装详细教程--无需手动配置环境
一、MySQL 介绍 1. 概述 MySQL 是一个开源的关系型数据库管理系统,由瑞典公司 MySQL AB 开发,现属于 Oracle 旗下。它基于 SQL(结构化查询语言)进行数据管理,支持多用户、多线程操作,广泛应用于 Web 应用、…...
FRP练手:hello,world实现
方案一:使用 Flask(推荐) from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return "你好啊世界"if __name__ __main__:# 监听所有网络接口(0.0.0.0),端口 3344app.…...
Mysql | 主从复制的工作机制
主从复制的工作机制 Mysql的主从复制 从库主要是读取主库的binlog日志来完成数据同步的, binlog中存储了对数据库所有修改SQL的语句。 首先Master开启BinLog二进制的写入。Slave从库通过ip、port、账号、密码链接到Master主数据库,链接成功后从库会向主数据库获取B…...
清明之后叙
经历了漫长的冬季,春天的脚步近了,要说讲这一年的开始,绝大数人说是从春季,但是我说应该是从冬季开始,中国传统讲冬至是一阳生,冬季收藏好了,开始收敛精气,养精蓄锐,好好…...
Docker新型容器镜像构建技术,如何正确高效的编写Dockerfile
一、容器与容器镜像之间的关系 说到Docker管理的容器不得不说容器镜像,主要因为容器镜像是容器模板,通过容器镜像我们才能快速创建容器。 如下图所示: Docker Daemon通过容器镜像创建容器。 二、容器镜像分类 操作系统类 CentOSUbuntu在do…...
Starrocks的Bitmap索引和Bloom filter索引以及全局字典
写这个的主要作用是梳理一下Starrocks的索引效率以及使用场景。 Starrocks Bitmap索引 原理: Bitmap 索引是一种使用 bitmap 的特殊数据库索引。bitmap 即为一个 bit 数组,一个 bit 的取值有两种:0 或 1。 每一个 bit 对应数据表中的一行&…...
从 0 到上线:Java 项目打包 Docker 镜像全流程实战
📖 摘要 本文是一份超详细的Java项目Docker化实战手册,从环境准备到最终上线,手把手带你完成整个容器化部署流程。你将学会: Docker基础概念与核心原理如何为Java项目编写高效的Dockerfile多阶段构建优化镜像体积镜像推送与容器…...
【符号引用和直接引用是什么?有什么作用?什么场景下使用?为什么符号引用和直接引用在常量池里?】
符号引用与直接引用详解 1. 符号引用(Symbolic Reference) 定义: 符号引用是编译阶段使用的抽象标识符,通过全限定名、方法签名等符号描述目标(如类、方法、字段)。它不涉及具体内存地址,仅作为…...
ESModule和CommonJS在Node中的区别
ESModule console.log(require);//>errorconsole.log(module);//>errorconsole.log(exports);//>errorconsole.log(__filename);//>errorconsole.log(__dirname);//>error全部报错commonjs console.log(require);console.log(module);console.log(exports);co…...
阿里发布实时数字人项目OmniTalker,实时驱动技术再突破~
简介 OmniTalker 是一个由 阿里巴巴集团 Tongyi Lab(通义实验室) 开发的研究项目,专注于实时文本驱动的说话头像生成技术。该项目旨在通过文本输入生成同步的语音和视频内容,同时保留参考视频中的音视频风格。以下是关于 OmniTalk…...
Kubernetes-如何进入某POD中
Kubernetes 如何进入某POD中 工作中需要进入pod中查询比如pod 网络等问题 步骤: 1、 查询某pod, 比如该pod 为namespace test 下的 ip 为 192.168.1.100 #查询namespace 列表 #kubectl get ns #查询该ns下ip 为 192.168.1.100的pod # kubectl -n test get pods …...
java导出postgis空间数据几何对象shapefile文件
项目开发中,需要java后端实现导出postgis空间数据几何对象shapefile文件,以便能直观查看数据详情。注意事项Shapefile 默认的几何字段名为 the_geom,若导出时未显式指定或字段名被修改,部分软件(如 ArcGIS、QGI&#x…...
蓝桥杯嵌入式按键长按双击
直接上代码这个代码里面我们简单实现了如果按键按下时间超过0.8秒K1的值增加,短按只增加一次,按键2长按K2值增加,按键3双击K1的值减1,按键4双击K2的值减1 #include "fun.h" #define long_press_time 800//定义长按时间…...
深入解析Java中的栈:从JVM原理到开发实践
一、栈的双重身份:JVM运行时数据区 vs 数据结构 1. JVM层面的栈 线程私有:每个线程独立拥有自己的栈 LIFO结构:后进先出的方法调用模型 栈帧存储:每个方法对应一个栈帧(Stack Frame) 2. 数据结构中的栈…...
408 计算机网络 知识点记忆(6)
前言 本文基于王道考研课程与湖科大计算机网络课程教学内容,系统梳理核心知识记忆点和框架,既为个人复习沉淀思考,亦希望能与同行者互助共进。(PS:后续将持续迭代优化细节) 往期内容 408 计算机网络 知识…...
从ETL到ELT:大数据时代下两者的选型建议及优势
随着大数据时代的到来,数据量呈爆炸式增长,数据类型日益复杂,ETL与ELT两种技术路径的抉择直接影响着数据处理效率。我们这次来深入解析下两种模式的本质差异与应用场景,为企业提供选型建议。 一、ETL架构的优势 ETL架构遵循“提…...
Java蓝桥杯习题一:for循环和字符串的应用
知道循环次数用for循环 练习题1 小明对数位中含有2.0.1.9的数字很感兴趣,在1到40中这样的数包含1.2.9.10至32.39.40,共28个,他们的和是574.请问,在1到2019中,所有这样的数的和是多少?(2019Jav…...