当前位置: 首页 > news >正文

自然语言处理(5)—— 中文分词

中文分词的基本原理及实现

    • 1. 什么是词
    • 2. 基本原理
    • 3. 发展趋势:多数场景无需显式分词

信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。

汉语词汇是语言中能够独立运用的最小的语言单位,是语言中的原子结构。由于中文缺乏类似英文的空格分隔,分词的准确性直接影响后续任务(如机器翻译、情感分析)的效果。因此,对中文进行分词就显得至关重要。

中文分词(Chinese Word Segmentation)是自然语言处理的基础任务,旨在将连续的中文字符序列切分成具有独立语义的词语。

以下从基本原理、主流方法、实现工具及挑战展开介绍。


1. 什么是词

古往今来,汉字虽然有5万多个,但常用的汉字大约仅有6000个。即便如此,其中很多汉字在日常生活中较少用到。然而,这些有限的汉字足以维持词汇的长期更新,因为扩大中文词汇的方法是通过构造汉字的复合新词,而不是创造新的字符来完成的。这就造成了汉语中所谓的词和短语之间没有明确的界限。

这可能也就是中国的一些语法学家认为,中文没有词语而只有汉字的原因,并创造了一个术语–“字短语”来代替传统的词汇。董振东就认为:“‘词或字符’的争论源于他们都急于给中国语言一个硬规范的共同基础。遗憾的是,中文不是那么明确的或硬的,它是软的。我们必须认识到其‘柔软度’”。

除构词法的原因之外,人们还因为自身的方言、受教育程度、亚文化等差异因素,对词汇的认识也不同。这些事实都成为制定统一的汉语分词标准的障碍。但是对于计算机系统而言,同一种语言应使用统一的规范来划分词汇,否则,很难想象在多重标准下的词汇系统能够计算出相同的语义结果。

随着 NLP的大规模应用,计算语言学界逐渐统一了汉语词汇的标准。
《信息处理用现代汉语分词规范》关于汉语词的定义给出了如下说明:汉语信息处理使用的、具有确定的语义或语法功能的基本单位

2. 基本原理

中文分词的实现依赖于三大类方法:

(1)基于规则(词典)的分词方法

  • 核心思想:通过预定义的词典匹配文本中的词条,优先匹配最长词。
  • 典型算法
    • 正向最大匹配(FMM):从左到右逐字扫描,优先匹配最长词(如“北京大学”优先于“北京”)。
    • 逆向最大匹配(BMM):从右到左扫描,适用于处理后缀歧义(如“为人民办公益”可能误分为“为人/民办/公益”)。
    • 双向最大匹配:结合FMM和BMM,若结果一致则采纳,否则按最小词数或上下文调整。
  • 特点:速度快、实现简单,但依赖词典质量,无法处理未登录词和新词。

(2)基于统计的分词方法

  • 核心思想:利用大规模语料训练语言模型,通过概率选择最优分词路径。
  • 典型模型
    • N-gram语言模型:计算词序列联合概率,例如“南京市长江大桥”的切分路径通过Bigram或Trigram概率比较。
    • 隐马尔可夫模型(HMM):将分词转化为序列标注问题(BEMS:词首/中/尾/单字),如“北京/大学”标注为“B-E B-E”。
    • 条件随机场(CRF):相比HMM,考虑全局特征,标注更精准。
  • 特点:能处理未登录词和歧义,但需大量标注数据。

(3)基于深度学习的分词方法

  • 核心思想:通过神经网络自动学习上下文特征,端到端输出分词结果。
  • 典型模型
    • BiLSTM-CRF:双向LSTM捕捉上下文,CRF优化标签序列。
    • Transformer:自注意力机制处理长距离依赖,如《Multi-Criteria Chinese Word Segmentation with Transformer》。
    • 预训练模型(如BERT):直接以字符为单位建模,无需显式分词(如“陈敬雷分布式机器学习实战”整体处理)。
  • 特点:准确率高,但依赖算力和数据量,模型复杂度高。

实现工具与案例

  1. 主流工具

    • jieba:基于HMM和前缀词典,支持精确模式、全模式和搜索引擎模式。
      • 原理:构建前缀词典生成DAG(有向无环图),动态规划选择最大概率路径。
      • 示例:“研究生物”可能切分为“研究生/物”(HMM纠正为“研究/生物”)。
    • HanLP:集成词典与统计模型,支持多任务(如词性标注、NER)。
    • THULAC:清华大学开源工具,结合CRF和深度学习。
  2. 代码实现(以jieba为例)

    import jieba
    # 精确模式
    seg_list = jieba.cut("南京市长江大桥", cut_all=False)
    print("/".join(seg_list))  # 南京/市/长江大桥
    # 搜索引擎模式
    seg_search = jieba.cut_for_search("陈敬雷分布式机器学习实战")
    print("/".join(seg_search))  # 陈敬雷/分布式/机器/学习/实战/分布式机器学习/机器学习
    

3. 发展趋势:多数场景无需显式分词

  • 预训练模型的突破
    BERT、GPT等模型直接以字符或子词(如WordPiece)为输入,通过上下文隐式学习词边界和语义组合。例如“机器学习”无需提前切分,模型能自动关联“机”与“器”、“学”与“习”形成整体语义。
  • 实验证据
    ACL 2019论文在语言模型、机器翻译等任务中验证,字符级模型效果优于词级模型。原因包括:
    • 数据稀疏性:词级模型面临低频词和OOV问题(如CTB数据集中约40%的词出现≤4次)。
    • 噪声传递:分词工具误差(如“南京市长江大桥”误切为“南京/市长/江大桥”)会损害模型性能。

无需分词的典型场景

场景原因
预训练语言模型直接处理字符或子词,通过自注意力机制学习长距离依赖和词组合规律。
文本分类/情感分析字符级CNN或Transformer能捕捉局部语义,如“好评”和“差评”无需依赖词边界。
机器翻译字符级输入减少OOV问题,如“Transformer”作为未登录词可通过子词拆分处理。

仍需分词的特定场景

场景原因
依赖词结构的任务如词性标注、句法分析,传统方法需显式分词定义词单位(但部分预训练模型已内化此类能力)。
信息检索(IR)若查询与文档使用相同分词规则,可提升召回率(如“机器学习”切分为“机器/学习”匹配更多结果)。
小数据场景数据量不足时,分词可提供词级特征辅助模型(如“苹果公司”作为整体提升实体识别准确率)。

深度学习模型并非完全不需要分词,但显式分词的场景已大幅减少

未来随着模型对细粒度语义的理解加深,分词的“中间层”角色将进一步弱化,但作为医疗、法律等专业领域知识载体仍具实用价值。

相关文章:

自然语言处理(5)—— 中文分词

中文分词的基本原理及实现 1. 什么是词2. 基本原理3. 发展趋势:多数场景无需显式分词 信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。 汉语词汇是语言中能够独立运用的最小的语言单位,是语…...

MP4音视频格式

1.MP4 MP4是一种用于封装音视频/字幕/图片/章节信息等数据的多媒体容器格式,是MPEG-4系列的成员之一 2.文件结构 MP4由一层层的嵌套Box(atom)组成 [ size (4 bytes) ][ type (4 bytes)][ payload (嵌套box或者数据) ] 3.常见Box 类型名称…...

NO.59十六届蓝桥杯备战|基础算法-前缀和|一维前缀和|最大子段和|二维前缀和|激光炸弹(C++)

前缀和与差分的核⼼思想是预处理,可以在暴⼒枚举的过程中,快速给出查询的结果,从⽽优化时间复杂度。 是经典的⽤空间替换时间的做法 前缀和 解法1:暴力模拟,q有几次,就套几次for循环 解法2:前…...

Node.js 模块加载机制--详解

目录 Node.js 模块加载机制详解 1. 什么是模块? 2. 模块加载顺序 3. 核心模块加载 4. 自定义模块加载 5. 目录作为模块(index.js) 6. require.resolve() 查找模块路径 7. module 对象解析 8. require.cache 机制(避免重复…...

Live555+Windows+MSys2 编译Androidso库和运行使用(三,实战篇)

文章目录 先上效果图VLC中打开日志权限cmakelist 和gradle建议直接去git查看源代码ui下一篇视频预览和采集 先上效果图 VLC中打开 日志 com.mq.qrtspclient E mystream stream, from the file /storage/emulated/0/Android/data/com.mq.qrtspclient/files/…...

验证码通过“Canvas 绘制”与“Base64 图片”渲染两种不同的实现方式显示

文章目录 🎉验证码通过“Canvas 绘制”与“Base64 图片”渲染两种不同的实现方式显示一、Canvas 绘制:接口回调“字符串”通过绘制的方式显示到前端✨1、前端代码(Canvas 绘制):包含验证码区域、绘制验证码方法&#x…...

FALL靶场通关攻略

1,下载好靶机后打开,通过kali扫描靶机ip和端口,得到靶机ip为192.168.50.144 2,扫描目录 3,访问靶机 4,访问扫描到的test.php,得到缺少GET请求参数的提示 5,使用FUZZ来扫出参数为file 6&#xff…...

(学习总结31)Linux 进程地址空间与进程控制

Linux 进程地址空间与进程控制 进程地址空间Linux 进程地址空间分布虚拟地址空间和页表创建子进程与写时拷贝权限访问缺页中断 Linux 虚拟内存管理mm_struct 内存描述符区域划分vm_area_struct 独立虚拟内存区域 虚拟地址空间的作用 进程控制进程创建fork 函数介绍写时拷贝作用…...

基于Springboot的网上订餐系统 【源码】+【PPT】+【开题报告】+【论文】

网上订餐系统是一个基于Java语言和Spring Boot框架开发的Web应用,旨在为用户和管理员提供一个便捷的订餐平台。该系统通过简化餐饮订购和管理流程,为用户提供快速、高效的在线订餐体验,同时也为管理员提供完善的后台管理功能,帮助…...

Axure设计之中继器表格——拖动行排序教程(中继器)

一、原理介绍 在Axure中实现表格行的拖动排序,主要依赖于中继器的排序事件。然而要实现拖动效果,就必须结合动态面板,因为动态面板可以设置拖动事件,之所以使用动态面板或许是因为它可以更灵活地处理位置变化。用户拖动行时&…...

GAUSSDB 分布式存储机制深度解析

GAUSSDB 分布式存储机制深度解析 一、核心机制概览 GAUSSDB 的分布式存储通过 数据分片、多副本管理 和 全局事务控制 实现高可用与水平扩展。以下为关键机制详解: 二、数据分片(Sharding) 1. 分片策略 GAUSSDB 支持多种分片规则&#xff…...

【NLP 46、大模型技术发展】

目录 一、ELMo 2018 训练目标 二、GPT-1 2018 训练目标 三、BERT 2018 训练目标 四、Ernie —— baidu 2019 五、Ernie —— Tsinghua 2019 六、GPT-2 2019 七、UNILM 2019 八、Transformer - XL & XLNet 2019 1.模型结构 Ⅰ、循环机制 Recurrence Mechanism Ⅱ、相对位置…...

汽车加气站操作工证书报考条件是什么?

关于汽车加气站操作工的资格证书: 一、核心证书要求 CNG充装人员上岗证 这是加气站加气工的核心资质证书,需通过专业培训并考核。该证书由相关部门颁发,证明持证人具备从事CNG(压缩天然气)充装操作的专业技能&#xf…...

材质及制作笔记

基本流程: 建中模——zb雕刻高模——maya拓扑低模——拆uv——sp烘焙贴图——sp绘制材质——渲染 1 材质贴图: diffuse/albedo/basecolor:漫反射 reflection/specular:反射 metalness:金属度 glossiness&#xf…...

Opencv 图像读取与保存问题

本文仅对 Opencv图像读取与保存进行阐述,重在探讨图像读取与保存过程中应注意的细节问题。 1 图像读取 首先看一下,imread函数的声明: // C: Mat based Mat imread(const string& filename, int flags1 );// C: IplImage based IplImage*…...

Flutter 2025生态全景:从跨端到嵌入式开发的新机遇

一、技术演进:从"一次编写多端运行"到"全场景覆盖" 1.1 渲染引擎革命:Impeller 2.0的性能突破 // 启用Impeller的配置示例(android/app/build.gradle) def enableImpeller true android {defaultConfig {…...

Idea中诡异的文件编码问题: 设置fileCodeing为UTF8但不生效

在fileCoding配置了编码utf-8,右下角的文件里编码格式却是ISO-8859-1,git后到远程仓库里却是ISO-8859-1的乱码,怎么修改都不生效,重启也不行,恶心的不行。 最后发现修复方案是: 1. 先随便做个变更&#x…...

Linux中逻辑卷的使用、扩容与磁盘配额

目录 一.逻辑卷概述 1.普通分区的优缺点 2.逻辑卷的优点 3.逻辑卷概述 二.逻辑卷的创建 1.逻辑卷相关命令 2.创建步骤 三.逻辑卷的扩容 1.扩容步骤 四.磁盘配额 1.概念及注意点 2.使用条件 3.相关命令 一.逻辑卷概述 1.普通分区的优缺点 普通分区优点&#xff1a…...

Java版Manus实现来了,Spring AI Alibaba发布开源OpenManus实现

此次官方发布的 Spring AI Alibaba OpenManus 实现,包含完整的多智能体任务规划、思考与执行流程,可以让开发者体验 Java 版本的多智能体效果。它能够根据用户的问题进行分析,操作浏览器,执行代码等来完成复杂任务等。 项目源码及…...

关于IP免实名的那些事

IP技术已成为个人与企业保护隐私、提升网络效率的重要工具。其核心原理是通过中介服务器转发用户请求,隐藏真实IP地址,从而实现匿名访问、突破地域限制等目标。而“免实名”代理IP的出现,进一步简化了使用流程,用户无需提交身份信…...

从零构建大语言模型全栈开发指南:第二部分:模型架构设计与实现-2.2.3实战案例:在笔记本电脑上运行轻量级LLM

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 实战案例:在笔记本电脑上运行轻量级LLM2.2.3 模型架构设计与实现1. 环境与工具准备1.1 硬件要求1.2 软件栈选择2. 轻量级模型架构设计2.1 模型参数配置2.2 关键技术优化3. 实战流程3.1 数据准备流程3.2…...

Labview信号分析系统(含报告)

1.摘要 本文详细介绍了基于LabVIEW的轴承故障信号分析系统的设计与实现。该系统以凯斯西储大学轴承驱动端的振动信号为研究对象,涵盖了正常信号以及内圈、滚珠、外圈三种故障信号的分析。系统可以对信号进行滤波、时域分析、频域分析和时频域分析等。系统的功能如下…...

基于FastAPI与Kimi AI的智能聊天应用开发实践

一、项目概述 本文介绍一个基于现代Web技术栈的智能对话系统,前端采用响应式设计实现聊天界面,后端通过FastAPI框架构建高性能API服务,集成Moonshot AI大语言模型实现智能对话功能。系统具备完整的消息交互流程,支持参数定制化配…...

Android 蓝牙/Wi-Fi通信协议之:经典蓝牙(BT 2.1/3.0+)介绍

在 Android 开发中,经典蓝牙(BT 2.1/3.0)支持多种协议,其中 RFCOMM/SPP(串口通信)、A2DP(音频流传输)和 HFP(免提通话)是最常用的。以下是它们在 Android 中的…...

介绍FRAMES:一个统一的检索增强生成评估框架

引言 大型语言模型(LLMs)在认知任务上取得了显著进步,检索增强生成(RAG)技术成为提升模型性能的重要方法。然而,现有的评估方法往往孤立地测试模型的检索能力、事实性和推理能力,无法全面反映模…...

云钥科技多通道工业相机解决方案设计

项目应用场景分析与需求挑战 1. 应用场景 ‌目标领域‌:工业自动化检测(如精密零件尺寸测量、表面缺陷检测)、3D立体视觉(如物体建模、位姿识别)、动态运动追踪(如高速生产线监控)等。 ‌核心…...

微信小程序逆向开发

一.wxapkg文件 如何查看微信小程序包文件: 回退一级 点击进入这个目录 这个就是我们小程序对应的文件 .wxapkg概述 .wxapkg是微信小程序的包文件格式,且其具有独特的结构和加密方式。它不仅包含了小程序的源代码,还包括了图像和其他资源文…...

Debian ubuntu源

配置文件路径 /etc/apt/sources.list 阿里 deb http://mirrors.aliyun.com/ubuntu/ $(lsb_release -cs) main restricted universe multiverse deb-src http://mirrors.aliyun.com/ubuntu/ $(lsb_release -cs) main restricted universe multiverse deb http://mirrors.aliyun.…...

几个工作中常用的网站

1.思维导图流程图 在线版 ProcessOn思维导图流程图-在线画思维导图流程图_在线作图实时协作 2.编码转换及报文格式化 ESJSON在线工具首页(ES JSON在线工具) JSON在线解析格式化验证 - JSON.cn 3.AI助手 通义 - 你的个人AI助手 文心一言 谷灵AI,你的工作好帮手…...

《Apipost如何超越Postman与Apifox?SocketIO调试工具横评》

实时通信调试工具可能已「过时」!许多主流工具如Apifox不支持SocketIO协议,导致调试效率低下。而Apipost作为国产工具,原生支持SocketIO,提供自定义事件管理、连接状态可视化等功能,极大提升了实时通信开发的效率和准确…...

为什么要将项目部署到外部tomcat

一、是什么 指将你的Java Web应用程序(如WAR包)安装并运行在一个独立安装的、位于项目外部的Tomcat服务器上,而不是使用内嵌的或开发环境自带的服务器。 外部Tomcat 指独立安装的Tomcat服务器(如从Apache官网下载的Tomcat&#…...

小迪安全109-php模型动态调试,反序列化,变量覆盖,tp框架,原生pop链

案例一 原生代码变量覆盖,duomicms 变量覆盖是什么 这个时候为什么会输出xiaodi呢 就是因为$ab所以$$a$b 所以就让$bxiaodi 搞不到源码,看老师的学吧 这一般在web端页面是看不到,也不好发现,代码可以看关键字和函数 例如$$这…...

Python 练习项目:MBTI 命令行测试工具

在当今数字化的时代,心理测试工具越来越受到欢迎,它们帮助人们更好地了解自己,做出更明智的职业选择,甚至改善人际关系。MBTI(迈尔斯-布里格斯性格分类法)是其中一种广为人知的人格测试,通过评估个人在四个维度上的偏好(外向-内向、实感-直觉、理智-情感、判断-理解),…...

zynq7000 + ucos3 + lwip202_v1_2调试过程

1 现在裸机应用上验证lwip 跑起来可能会报错,看下面的链接解决 zynq 网卡Phy setup error问题 zynq 网卡Phy setup error问题-CSDN博客 2 ping同以后,在zynq上添加ucos系统 链接如下: ZYNQ移植uCOSIII_zynq ucos-CSDN博客 3 移植lwip协议…...

Oracle数据库数据编程SQL<2.2 DDL 视图、序列>

目录 一、Oracle 视图(Views) (一) Oracle 视图特点 (二)Oracle 视图创建语法 关键参数: (三)Oracle 视图类型 1、普通视图 2、连接视图(可更新) 3、对象视图 4…...

关于bug总结记录

1、vs中出现bug error C1083:无法打开文件 链接:vs中出现bug error C1083:无法打开文件_vs20151083错误解决方法-CSDN博客 2、 VS小技巧:系统却提示:示msvcp120.dll丢失 链接:VS小技巧:系统却提示:示msvc…...

ClickHouse与TiDB实操对比:从入门到实战的深度剖析

ClickHouse与TiDB实操对比:从入门到实战的深度剖析 宝子们,在当今数据驱动的时代,选择合适的数据库对于处理海量数据和支撑业务发展至关重要。ClickHouse和TiDB作为两款备受关注的数据库,各自有着独特的优势和适用场景。今天&…...

【测试开发】OKR 小程序端黑盒测试报告

【测试报告】OKR 小程序端 项目名称版本号测试负责人测试完成日期联系方式OKR 小程序端4.0马铭胜2025-03-2515362558972 1、项目背景 1.1 OKR 用户端 在如今这个快节奏的时代中,个人和组织的成长往往依赖于清晰、明确且意义深远的目标。然而,如何设定…...

LibVLC —— 《基于Qt的LibVLC专业开发技术》视频教程

🔔 LibVLC/VLC 相关技术、疑难杂症文章合集(掌握后可自封大侠 ⓿_⓿)(记得收藏,持续更新中…) 《基于Qt的LibVLC专业开发技术》课程视频,(CSDN课程主页、51CTO课程主页) 适合具有一些C++/Qt编程基础,想要进一步提高或涉足音视频行业的。本课程分7章节,共计35小节。…...

故障识别 | 基于改进螂优化算法(MSADBO)优化变分模态提取(VME)结合稀疏最大谐波噪声比解卷积(SMHD)进行故障诊断识别,matlab代码

基于改进螂优化算法(MSADBO)优化变分模态提取(VME)结合稀疏最大谐波噪声比解卷积(SMHD)进行故障诊断识别 一、引言 1.1 机械故障诊断的背景和意义 在工业生产的宏大画卷中,机械设备的稳定运行…...

2025年最新自动化/控制保研夏令营预推免面试真题分享(东南大学苏州校区/华东理工/南航/天大)

笔者来2021级本科自动化专业,以下部分将介绍我在夏令营以及预推免期间发生经历和问题 东南大学苏州校区蒙纳士大学联培 东南大学苏州校区的项目算是一个比较小众的项目,是第一年在苏州校区,二三年到南京校区找导师(不提供住宿自…...

深度学习笔记19-YOLOv5-C3模块实现(Pytorch)

🍨 本文为🔗365天深度学习训练营中的学习记录博客 🍖 原作者:K同学啊 一、前期工作 1.导入数据并读取 import torch import torch.nn as nn import torchvision.transforms as transforms import torchvision from torchvisio…...

SpringCloud-环境和工程搭建

前言 JDK用17,MySQL用8.0 微服务就是微小的服务 一个微服务只做一个事情 基本概念 打开官网 spring springcloud就是给我们提供工具,方便我们来弄微服务 springcloud是分布式微服务架构的一站式解决方案 Distributed/versioned configuration 分布…...

React 中shouldComponentUpdate生命周期方法的作用,如何利用它优化组件性能?

大白话React 中shouldComponentUpdate生命周期方法的作用,如何利用它优化组件性能? 在 React 里,shouldComponentUpdate 这个生命周期方法就像是一个“关卡守卫”,它能决定组件是否需要重新渲染。组件重新渲染是个挺费性能的事儿…...

AI写一个视频转图片帧工具(python)

现在的AI写python太方便了 说的话 我想用python实现一个能够将视频的所有帧数转化为图片的软件,可以自由配置转换的帧率或者全部,需要有界面,我需要增加一点功能,就是我需要读取出视频的分辨率,然后设置输出帧的分辨…...

React第三十一章(组件实战)

组件实战 这一章建议大家看完hooks css 原理 组件 这些章节之后再来看,这样会更好理解。 本章是额外新增的,因为之前的知识大家都掌握的差不多了,所以这一章节主要是让大家动手实践,巩固一下前面的知识。 那么你会学到什么&#…...

详细介绍WideCharToMultiByte()

书籍:《Visual C 2017从入门到精通》的2.7 字符串 环境:visual studio 2022 内容:几个字符串类型->(将单字节char*转换为宽字节wchar_t *)(将宽字节wchar_t* 转换为单字节char *) WideChar…...

Qt开发:QFileDialog的使用

文章目录 一、QFileDialog的介绍二、QFileDialog的常用静态方法三、完整示例 一、QFileDialog的介绍 QFileDialog 是 Qt 框架中提供的一个用于文件选择的标准对话框类,它允许用户在应用程序中选择文件或目录。它是跨平台的,在不同操作系统上会自动适配本…...

深度学习篇---回归分类任务的损失函数

文章目录 前言一、分类任务常用损失函数1. 交叉熵损失(Cross-Entropy Loss)数学形式使用场景特点训练状态分析损失下降损失震荡训练损失低但是验证损失高 2. Hinge Loss(合页损失)数学形式适用场景特点训练状态分析损失趋近于0损失…...

【MLP-BEV(10)】BEVPooling V1和BEVPooling V2的view_transformer,进行鱼眼图片实践

文章目录 先说说 BEVPoolv1步骤1:3D点生成步骤2 2D特征采样和BEV特征生成特点再谈谈BEVPoolv2步骤1:3D点生成步骤2: 计算索引关系步骤3: `voxel_pooling`计算鱼眼图片进行实践步骤1、3D点生成(基于Kannala-Brandt 进行调整)步骤2、2D特征采样和BEV特征生成(1) 体素化 (Voxe…...