自然语言处理-词性标注的基本概念
在自然语言处理过程中,进行词性标注是很有必要的一个步骤,词性揭示了一个词的类别,识别每个词的词性可以分析句子的语法和结构,从而为后续的命名实体识别、句法分析、情感分析、信息抽取以及机器翻译等文本分析任务提供必要且有用的信息。相比较英文词性标注,中文词性标注的难度要更大,很多中文词汇有多个词性,并且中文在做词性标注之前必须要对句子进行分词,这大大增加了词性标注的复杂度与难度。
本篇博客主要介绍了词性标注的基本原理与发展过程,然后提供了一些常用的统计机器学习方法或基于规则的方法进行词性标注,希望对读者产生一些启发。
词性标注的基本概念
词性是词的基本语法属性,根据词在句子中的角色与功能,词性可以分为主语、谓语、定语、状语、补语等。不同语言有不同的词性划分体系,汉语中,经常将词分为两大类:实词和虚词,其中虚词包括连词、介词、助词、叹词等,而实词主要包括名词、动词、形容词等。在英语中,词性被划分为10类,包括名词、动词、形容词、副词、连词、介词、叹词、代词和冠词。
词性标注指对句子中的每个词的词性进行标注的过程。通过词性标注可以分析句子的语法规则,短语结构和句子成分之间的关系。
词性标注集由标签与词构成,包含了一些前人标注完成的词集合。常见的词性标注集有PKU(北京大学)词性标注集、863词性标注集、CTB(Chinese Treebank,中文树库)词性标注集等,常见的英语词性标注集有布朗语料库(Brown corpus)的词性标注集、宾州树库(Penn Treebank)的词性标注集等。一个常见词性标注集如下表。
序号 | 符号 | 词性名称 | 示例 | 序号 | 符号 | 词性名称 | 示例 |
---|---|---|---|---|---|---|---|
1 | Ag | 形语素 | 前程似锦 | 23 | nt | 机构团体 | 国防科大 |
2 | a | 形容词 | 美丽 | 24 | nx | 外文字符 | Win11 |
3 | ad | 副形词 | 韶华易逝 | 25 | nz | 其他专名 | 京港澳高速公路 |
4 | an | 名形词 | 外交 | 26 | o | 拟声词 | 哈哈 |
5 | Bg | 区别语素 | 赤橙黄 | 27 | p | 介词 | 为人民服务 |
6 | b | 区别词 | 慢性咽炎 | 28 | q | 量词 | 首次 |
7 | c | 连词 | 支持与帮助 | 29 | Rg | 代语素 | 于斯为盛 |
8 | Dg | 副语素 | 交谈甚欢 | 30 | r | 代词 | 本书 |
9 | d | 副词 | 进一步交流 | 31 | s | 处所词 | 家里的空调 |
10 | e | 叹词 | 啊 | 32 | Tg | 时语素 | 现阶段 |
11 | f | 方位词 | 眼睛里 | 33 | t | 时间词 | 2025年 |
12 | h | 前接成分 | 准新郎 | 34 | u | 助词 | 技术的特点 |
13 | i | 成语 | 义无反顾 | 35 | Vg | 动语素 | 洗了个舒服的澡 |
14 | j | 简称略词 | 科教兴国 | 36 | v | 动词 | 扩大 |
15 | k | 后接成分 | 朋友们 | 37 | vd | 副动词 | 持续升温 |
我们可以使用Python中的NLTK库查看语料库中词性标注结果,代码如下:
import nltk# nltk.download('brown') # 如果没有下载过布朗语料库需要先进行下载,下载以后即可注释掉
# nltk.download('treebank')
print(nltk.corpus.brown.tagged_words()) # 输出结果:[('The', 'AT'), ('Fulton', 'NP-TL'), ...]
print(nltk.corpus.treebank.tagged_words()) # 输出结果:[('Pierre', 'NNP'), ('Vinken', 'NNP'), (',', ','), ...]brown_tagged = nltk.corpus.brown.tagged_words() # 获取布朗语料库中的标记
tag_fd = nltk.FreqDist(tag for (word, tag) in brown_tagged) # 统计词性使用频率
print(tag_fd.most_common(10)) # 输出结果:[('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ...]
基于规则的词性标注方法
词典
在了解到词性的基本概念与常见的词性标注集后,我们现在已经对词性标注的结果有了一个比较清晰的认知,所谓词性标注就是给不同的词打上对应的标签。
基于规则的词性标注方法是最早提出的词性标注方法,其主要根据语言学规则、专业知识和经验手动设计,也可以通过机器学习方法学习到。其基本思想是按兼类词搭配关系和上下文语境来建造词性消歧规则,主要包括词汇信息规则和上下文信息规则两类。
中文基于规则的词性标注方法步骤主要为:
- 构建词典和规则库。利用专家经验构建尽可能完善的词典和规则库,这种方法虽然易于实现,但仍有穷尽,无法覆盖到所有的规则。
- 分词。基于已构建的词典对待标注文本进行分词处理。
- 词典匹配。查词典,匹配待标注文本中各词所有可能的词性标记。
- 规则匹配。应用规则库中的规则进行词性消歧,,逐步删除初始标注结果中的错误标记。
基于上述步骤,我们来使用Python代码认识一下词典。
from nltk.corpus import wordnet as wn # 导入WordNet词典synsets = wn.synsets('help') # 在词典中查询"love"的所有同义项
posList = [] # 保存词性信息
for synset in synsets: # 获取词words = synset.lemma_names() # 获取词for word in words: # 遍历该义项中的所有词if word == 'help': # 获取并保存“love”的词性posList.append(synset.pos())
from collections import Counterprint(Counter(posList)) # Counter({'n': 6, 'v': 4})
正则表达式
下面展示一下使用正则表达式进行基于规则的匹配,输出匹配精确度
from nltk.tag.sequential import RegexpTaggerreggexp_tagger = RegexpTagger([(r'^-?\d+(.\d+)?$', 'CD'), # cardinal numbers(数字)(r'(The|the|A|a|An|an)$', 'AT'), # articles(冠词)(r'.*able$', 'JJ'), # adjectives (形容词)(r'.*(ness)$', 'NN'), # nouns (名词单数形式)(r'.*ly', 'RB'), # adverbs (副词)(r'.*(s)$', 'NNS'), # plural nouns (名词复数形式)(r'.*ing$', 'VBG'), # gerunds (动词的现在分词)(r'.*ed$', 'VBD'), # past tense verbs (动词的过去式)(r'.*', 'NN') # nouns (默认为名词)
])
from nltk.corpus import browntagged_sents = brown.tagged_sents()
test_data = tagged_sents[0:int(len(tagged_sents) * 0.1)]
print(reggexp_tagger.evaluate(test_data)) # 输出结果,准确率为:0.29721798738603233
基于统计机器学习的词性标注方法
常用的统计机器学习模型包括隐马尔可夫模型、最大熵模型、条件随机场等,基于统计机器学习的词性标注方法利用大规模已标注语料库训练机器学习模型,通过词的统计规律来预测词标签。其基本思想是将词性标注看作一个序列标注问题,即给定一段词预测下一个词的概率。
相关文章:
自然语言处理-词性标注的基本概念
在自然语言处理过程中,进行词性标注是很有必要的一个步骤,词性揭示了一个词的类别,识别每个词的词性可以分析句子的语法和结构,从而为后续的命名实体识别、句法分析、情感分析、信息抽取以及机器翻译等文本分析任务提供必要且有用…...
电机密集型工厂环境下的无线通信技术选型与优化策略
点击下面图片带您领略全新的嵌入式学习路线 🔥爆款热榜 88万阅读 1.6万收藏 在电机、变频器、电焊机等强电磁干扰源遍布的工业环境中,无线通信系统的可靠性面临严峻挑战。本文从抗干扰能力、传输稳定性、实时性需求三大核心维度出发,结合工…...
【软件安装那些事 2 】Multisim 14.3 安装教程(中文版)步骤完整不跳步 { 附百度网盘中软件提取下载链接,永久有效 }
百度网盘分享的文件:Multisim 14.3 安装包 中文 (永久有效) 链接: https://pan.baidu.com/s/1XE4X9_M496lyHCN3DGrOzw?pwd4yku 提取码: 4yku 1、解压完成后,打开【Setup】文件夹 2、右击【Install】,选择…...
NextDenovo2.5.2安装与使用-生信工具53
01 NextDenovo 简介 适用于三代数据基因组组装! NextDenovo 是一个基于字符串图(String Graph)的长读段(如 PacBio CLR, ONT)从头组装工具。它采用类似于 Canu 的“先纠错后组装”(correct-th…...
结构性变革与新兴机遇
近年来,全球就业市场正经历深刻的结构性变革。受技术进步、产业升级、人口结构变化及全球经济格局调整的影响,传统就业模式被重塑,新的职业机会不断涌现。本文将分析当前就业市场的主要趋势,并探讨其对劳动者、企业和政策制定者的…...
第20篇:Linux设备驱动程序入门<七>
Q:如何编写定时器中断驱动内核模块? A:使用在FPGA中实现的间隔定时器FPGA Timer0,寄存器接口基地址为0x00002000,时钟频率100MHz,中断ID为72。调用这个定时器需要向Counter start value寄存器写入适当的值…...
基于Transformer与SHAP可解释性分析的神经网络回归预测模型【MATLAB】
基于Transformer与SHAP可解释性分析的神经网络回归预测模型【MATLAB】 在当今的数据科学与人工智能领域,构建一个高精度的预测模型固然重要,但越来越多的应用场景开始关注模型的可解释性。尤其在金融、医疗、工业控制等对决策透明度要求较高的领域&…...
基于Java和GeoTools的根据矢量BBOx自动生成格网文件实践
目录 前言 一、基础数据介绍及生成方法简介 1、矢量数据处理 2、格网生成算法 二、代码实现 1、根据Shp计算Bounds 2、生成经纬网要素集合 3、写入 Shapefile 三、结果输出与验证 1、格网文件输出格式 2、GIS工具验证 四、总结 前言 在当今数字化与信息化高速发展的…...
[docker基础二]NameSpace隔离实战
目录 一 实战目的 二 基础知识 1)dd 命令详解 2)mkfs命令详解 3)df命令详解 4)mount 命令详解 5)unshare命令详解 三 实战操作一(PID隔离) 四 实战操作二(MOunt隔离) 1)创建 Mount 隔离进程 2)在新进程里边,创建空白文件&#…...
PIC18F45K80 ECAN模块使用
PIC18F45K80的CAN使用过程遇到一些问题,记录一下,主要是代码的理解。 在MPLAB X中配置工程: 1,在MCC中添加ECAN外设 2,CAN通讯有波特率的概念,整一个CAN网络需要运行在同一个速率。这里我们把他配置到12…...
RuntimeError: expected scalar type ComplexDouble but found Float
要解决 RuntimeError: expected scalar type ComplexDouble but found Float 错误,请按照以下步骤操作: 步骤 1:定位错误发生的位置 查看完整的错误堆栈跟踪,确定具体是哪一行代码引发了错误。例如:RuntimeError: exp…...
基于DeepSeek的韦恩图绘制:方法、优化与应用
一、研究背景与冲突 在生物信息学、医学研究、数据科学等众多领域,清晰展示数据集之间的交集关系至关重要。韦恩图(Venn diagram)作为一种有效的可视化工具,能以直观的图形呈现多个数据集之间的重叠情况,帮助研究者快…...
自动驾驶的“眼睛”:用Python构建智能障碍物检测系统
自动驾驶的“眼睛”:用Python构建智能障碍物检测系统 在自动驾驶技术日益成熟的今天,障碍物检测系统成了汽车智能化不可或缺的部分。无论是高速公路上的突发状况,还是城市街道中的行人与车辆,准确识别障碍物并及时反应,是保证行车安全的关键。 那么,我们如何用Python构…...
基于HTML+JavaScript+CSS实现教学网站
摘要 21世纪是信息化的时代,信息化物品不断地涌入我们的生活。同时,教育行业也产生了重大变革。传统的身心教授的模式,正在被替代。互联网模式的教育开辟了一片新的热土。 这算是对教育行业的一次重大挑战。截至目前,众多教育行…...
【Pandas】pandas DataFrame all
Pandas2.2 DataFrame Computations descriptive stats 方法描述DataFrame.abs()用于返回 DataFrame 中每个元素的绝对值DataFrame.all([axis, bool_only, skipna])用于判断 DataFrame 中是否所有元素在指定轴上都为 True pandas.DataFrame.all() pandas.DataFrame.all() 方…...
何时需要import css文件?怎么知道需要导入哪些css文件?为什么webpack不提示CSS导入?(导入css导入规则、css导入规范)
文章目录 何时需要import css文件?**1. 使用模块化工具(如 Webpack、Vite、Rollup 等)****适用场景:****示例:****优点:** **2. 动态加载 CSS(按需加载)****适用场景:***…...
智汇云舟亮相第二十七届北京科博会
5月8日,备受瞩目的第二十七届中国北京国际科技产业博览会(以下简称:北京科博会)在国家会议中心盛大开幕。作为我国科技领域的重要盛会,北京科博会汇聚了众多前沿科技成果与创新力量,为全球科技产业交流搭建…...
ThreadLocal
9.1.1 面试题 ThreadLocal中ThreadLocalMap的数据结构和关系ThreadLocal的key是弱引用,这是为什么?ThreadLocal内存泄漏问题你知道吗?ThreadLocal中最后为什么要加remove方法?...
【高并发内存池】从零到一的项目之centralcache整体结构设计及核心实现
个人主页 : zxctscl 专栏 【C】、 【C语言】、 【Linux】、 【数据结构】、 【算法】 如有转载请先通知 文章目录 前言1. central cache整体结构2. central cache基础结构2.1 span类设计2.2 SpanList带头双向循环链表设计2.3 central cache类设计 3. central cache核…...
(pnpm)引入 其他依赖失败,例如‘@element-plus/icons-vue‘失败
当我们在开发项目的时候,利用了 pnpm 来进行管理,可能有些依赖就无法引入,这是因为 pnpm 和 npm 管理包的方式不一样, 举个例子,假如我们现在需要安装一个 A 包,A 包依赖 B 包, 此时我们通过 …...
面试题:请解释Java中的线程池(ThreadPoolExecutor)的工作原理,并说明如何自定义线程池
线程池(ThreadPoolExecutor)的工作原理 线程池是一种用于管理和复用线程的机制,它可以减少线程创建和销毁的开销,提高程序的执行效率。ThreadPoolExecutor是Java中实现线程池的一个类,它位于java.util.concurrent 包中…...
Windows Server 2025开启GPU分区(GPU-P)部署DoraCloud云桌面
本文描述在ShareStation工作站虚拟化方案的部署过程。 将服务器上部署 Windows Server、DoraCloud,并创建带有vGPU的虚拟桌面。 GPU分区技术介绍 GPU-P(GPU Partitioning) 是微软在 Windows 虚拟化平台(如 Hyper-V)中…...
WEB前端表单及表格标签综合案例
表单标签综合案例: 源代码: <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>…...
HTML应用指南:利用POST请求获取全国德邦快递服务网点位置信息
德邦快递作为中国领先的综合性物流服务提供商,自1996年成立以来,始终致力于为客户提供高效、安全的大件快递及其他物流解决方案。德邦快递凭借其强大的直营模式、“最后一公里”的优质服务以及对科技的持续投入,在竞争激烈的物流市场中占据了重要位置。特别是在大件快递领域…...
【Linux网络】应用层自定义协议与序列化
应用层自定义协议与序列化 应用层 我们程序员写的一个个解决我们实际问题,满足我们日常需求的网络程序,都是在应用层. 协议是一种"约定".Socket的接口,在读写数据时,都是按"字符串"的方式来发送接收的.如果我们要传输一些"结构化的数据"怎么办…...
Excel提取单元格特定符号左右两边内容
公式: RIGHT(字符串, 字符个数) :从字符串右边开始,提取指定字数内容 公式应用: RIGHT(A1, LEN(A1) - SEARCH(“-”, A1))—提取单元格A1中符号“-”右边的字符串 LEN(A1) - SEARCH(“-”, A1) 即是返回符号“-”右边的字符串长…...
集群/微服务/分布式
目录 介绍 集群 微服务 优点 缺点 如何管理和监控微服务架构中的多个微服务? 服务治理 配置管理 监控与告警 容器化与编排 安全管理 分布式 三者关系 分布式和集群的区别是什么? 概念 工作方式 节点角色 应用场景 故障处理 微服务 微…...
安装docker
安装docker 一、关闭防火墙和SELinux 1.1systemctl stop firewalld 1.2setenfoce 0 二、配置内核转发以及网桥过滤 2.1vi /etc/sysctl.d/k8s.conf 2.2sysctl -p /etc/sysctl.d/k8s.conf :让文件生效 2.3modprobe br_netfilter:加载模块 若未生效成功…...
热力图是什么?三分钟学会热力图数据分析怎么做!
目录 一、热力图是什么? (一)基本概念 (二)常见类型 (三)优点 二、热力图分析工具 (一)FineBI (二)Tableau (三)P…...
Spring、SpringMVC、SpringBoot、SpringCloud 联系与区别
Spring、SpringMVC、SpringBoot、SpringCloud 联系与区别 一、引言 在 Java 企业级开发中,Spring 家族框架是绕不开的核心技术栈。从基础架构到 Web 开发,再到微服务架构,Spring 系列框架通过层层抽象,逐步简化开发复杂度。本文…...
操作系统导论——第26章 并发:介绍
本章介绍为单个运行进程提供的新抽象:线程(thread)。经典观点是一个程序只有一个执行点(一个程序计数器,用来存放要执行的指令),但多线程(multi-threaded)程序会有多个执…...
如何使用测试软件 Jmeter
第一步,点击 编辑 添加线程组 第二步,右键单击线程组,添加取样器 HTTP 请求 第三步,设置请求路径 第四步,添加 查看结果树 用于查看请求响应 最后点击绿色小三角启动即可...
HarmonyOS NEXT 免费无广告看电影app:从想法到实现的经验总结
学习一项新技能,最好也是最快的方法就是动手实战。学习鸿蒙也一样,给自己定一个小目标,直接找项目练,这样进步是最快的。最近,我在网上看到360周董的一句话:“想干什么就去干,干得烂总比不干强!…...
《算法导论(第4版)》阅读笔记:p14-p16
《算法导论(第4版)》学习第 9 天,p14-p16 总结,总计 3 页。 一、技术总结 无。 二、英语总结(生词:2) 1. in light of (1)释义 idiom. in light of 是美式用法,英式用法是 in the light of。take sth into consideration(鉴…...
kuka, fanuc, abb机器人和移动相机的标定
基础知识 : 一, 9点标定之固定相机标定: 图1: 固定位置相机拍照 因为相机和机器人的基坐标系是固定的, 所以在海康威视相机的9点标定功能栏中, 填上海康使用“圆查找”捕捉到的坐标值, 再将机器人显示的工具坐标系在基坐标系的实时位置pos_act值填入物理坐标X, Y中即可 图2:…...
【MyBatis-6】MyBatis动态SQL:灵活构建高效数据库查询的艺术
在现代企业级应用开发中,与数据库的交互是不可或缺的核心部分。MyBatis作为一款优秀的持久层框架,因其简洁、灵活和高效而广受开发者喜爱。其中,动态SQL功能更是MyBatis的一大亮点,它允许开发者根据不同条件灵活构建SQL语句&#…...
从零开始理解FlashAttention:算法细节图解
🧠 向所有学习者致敬! “学习不是装满一桶水,而是点燃一把火。” —— 叶芝 我的博客主页: https://lizheng.blog.csdn.net 🌐 欢迎点击加入AI人工智能社区! 🚀 让我们一起努力,共创…...
js原型污染 + xss劫持base -- no-code b01lersctf 2025
题目信息:Found this new web framework the other day—you don’t need to write any code, just JSON. 我们先来搞清楚究竟发生了什么 当我们访问 /index /*** 处理 /:page 路径的 GET 请求* param {Object} req - 请求对象* param {Object} reply - 响应对象* returns {Pro…...
面试题:Java集合框架高频面试题总结
# Java集合框架高频面试题总结 ## 集合框架概述 1. **Java集合框架的主要组成部分** - Collection接口 - List: 有序可重复 - Set: 无序不可重复 - Queue: 队列 - Map接口: 键值对存储 2. **集合框架的继承体系** - Collection - List → Arra…...
【大模型ChatGPT+ArcGIS】数据处理、空间分析、可视化及多案例综合应用
在数字化和智能化的浪潮中,GIS(地理信息系统)和GPT(生成式预训练模型)的结合正日益成为推动科研、城市规划、环境监测等领域发展的关键技术。GIS以其强大的空间数据处理、先进的空间分析工具、灵活的地图制作与可视化能…...
使用JMETER中的JSON提取器实现接口关联
一、JSON提取器介绍 JSON提取器是JMETER工具中用于从JSON响应中提取数据的重要组件,常常用于接口关联场景中(参数传递)。 二、添加JSON提取器 举例(积分支付接口请求数据依赖于创建订单接口响应的payOrderId) 1.在…...
Filecoin存储管理:如何停止Lotus向特定存储路径写入新扇区数据
Filecoin存储管理:如何停止Lotus向特定存储路径写入新扇区数据 引言背景问题场景解决方案步骤1:修改sectorstore.json文件步骤2:重新加载存储配置步骤3:验证更改 技术原理替代方案最佳实践结论 引言 在Filecoin挖矿过程中&#x…...
Elasticsearch太重?它的超轻量的替代品找到了!
简要介绍 在海量数据时代,快速而精准地找到所需信息至关重要。如果您正为此苦恼,或者您是 Elasticsearch 的用户,并对其资源消耗或性能有所关注,那么今天我要向您介绍一款名为 Manticore Search 的开源搜索数据库,它或…...
【计算机视觉】OpenCV实战项目: Fire-Smoke-Dataset:基于OpenCV的早期火灾检测项目深度解析
Fire-Smoke-Dataset:基于OpenCV的早期火灾检测项目深度解析 在当今数字化时代,火灾检测技术的智能化发展至关重要。传统的火灾检测方法依赖于烟雾传感器或人工监控,往往存在响应延迟或误报的问题。而随着计算机视觉技术的飞速发展࿰…...
STM32--PWM--函数
TIM_OCInitTypeDef TIM_OCInitTypeDef 是 STM32 标准外设库中用于配置定时器输出比较(Output Compare, OC)功能的结构体,主要用于 PWM 生成、单脉冲输出等场景。 typedef struct {uint16_t TIM_OCMode; // 输出比较模式uint16_t TIM_…...
软件测试应用技术(3) -- 软件评测师(十六)
5 事件驱动架构软件测试 5.1 事件驱动架构软件测试概述 事件驱动架构,简称EDA,是常用的架构范式中的一种,其关注事件的产生、识别、处理、响应。对于事件驱动架构系统的测试应特别注意其业务逻辑处理上的异步特性导致的缺陷和事件队列处理中…...
人工智能之数学基础:二次型
本文重点 二次型作为线性代数领域的重要概念,架起了代数方程与几何分析之间的桥梁。从古典解析几何中的圆锥曲线方程到现代优化理论中的目标函数,二次型以其简洁的数学表达和丰富的结构特性,在数学物理、工程技术和经济金融等领域发挥着不可替代的作用。 二次型的基本概念…...
MongoDB 创建索引原则
MongoDB索引创建原则 MongoDB索引是提高查询性能的关键工具,以下是创建索引的核心原则和最佳实践: 一、索引基础原则 1. 索引本质:索引类似书籍目录,通过B-Tree数据结构对字段值排序存储,使查询复杂度从O(n)降为…...
空间复杂度** 与 **所需辅助空间**
当我们说一个算法的 空间复杂度是 O(1),通常特指“辅助空间”是 O(1),即:除了输入数据本身之外,算法只使用常数级别的额外空间。 ✅ 正确认解: O(1) 空间复杂度 ≈ O(1) 辅助空间 这表示: 不随输入规模增长…...
Spring Web MVC快速入门
什么是Spring Web MVC Spring Web MVC 是基于 Servlet API 构建的原始 Web 框架,从⼀开始就包含在 Spring 框架中。它的正式名称“Spring Web MVC”来⾃其源模块的名称(Spring-webmvc),但它通常被称为"Spring MVC". View(视图) 指在应⽤程序…...