用Node.js施展文档比对魔法:轻松实现Word文档差异比较小工具,实现Word差异高亮标注(附完整实战代码)
引言:当「找不同」遇上程序员的智慧
你是否经历过这样的场景?
法务同事发来合同第8版修改版,却说不清改了哪里
导师在论文修改稿里标注了十几处调整,需要逐一核对
团队协作文档频繁更新,版本差异让人眼花缭乱
传统的手动比对不仅效率低下,还容易遗漏关键修改。今天,我将揭秘如何用30行Node.js代码,打造一个智能Word文档差异比对工具,实现:
✅ 自动识别文本差异
✅ 智能标注修改痕迹
✅ 生成专业比对报告
一、安装所需依赖
npm install docx mammoth diff fs-extra
二、代码注释与技术原理详解
1、完整代码以及注释
/*** Word文档差异比较工具* 本脚本使用Node.js比较两个Word(.docx)文件的内容差异,并生成带有颜色标注的比较结果文档*/const fs = require('fs');
const path = require('path');
const { Document, Paragraph, TextRun, HeadingLevel, Packer } = require('docx');
const mammoth = require('mammoth');
const diff = require('diff');/*** 比较两个Word文件并生成差异报告* @param {string} file1Path - 第一个Word文件路径(原始文件)* @param {string} file2Path - 第二个Word文件路径(修改后的文件)* @param {string} outputPath - 差异报告输出路径* * 技术原理:* 1. 使用mammoth库提取两个Word文档的纯文本内容* 2. 使用diff库进行文本差异比较,识别添加、删除和未更改的部分* 3. 使用docx库构建新的Word文档,用不同颜色和样式标注差异部分*/
async function compareWordFiles(file1Path, file2Path, outputPath) {try {// 提取两个Word文件的文本内容// mammoth.extractRawText会解析docx文件的XML结构,提取所有文本内容const file1Content = await extractTextFromDocx(file1Path);const file2Content = await extractTextFromDocx(file2Path);// 使用diff库比较文本差异// diffWords函数会将文本分解为单词级别的差异,返回一个差异对象数组// 每个差异对象包含value(文本内容)和added/removed标志const differences = diff.diffWords(file1Content, file2Content);// 使用docx库创建新的Word文档// Document对象表示整个Word文档,包含一个或多个sectionsconst doc = new Document({sections: [{properties: {},children: [// 文档标题new Paragraph({text: "Word文档差异比较结果",heading: HeadingLevel.HEADING_1,spacing: { after: 200 } // 设置段后间距(单位:twip,1/20磅)}),// 原始文件信息new Paragraph({text: `原文件: ${path.basename(file1Path)}`,spacing: { after: 100 }}),// 修改后文件信息new Paragraph({text: `新文件: ${path.basename(file2Path)}`,spacing: { after: 200 }}),// 插入差异内容段落...generateDiffParagraphs(differences)]}]});// 将Document对象转换为Buffer并写入文件// Packer.toBuffer内部使用JSZip库打包docx文件(本质上是ZIP格式的XML文件集合)const buffer = await Packer.toBuffer(doc);fs.writeFileSync(outputPath, buffer);console.log(`差异比较结果已保存到: ${outputPath}`);} catch (error) {console.error('比较过程中出错:', error);}
}/*** 从Word文档中提取纯文本内容* @param {string} filePath - Word文件路径* @returns {Promise<string>} 提取的纯文本内容* * 技术原理:* mammoth库解析docx文件(实际是ZIP压缩的XML文件),* 遍历document.xml中的段落和文本节点,拼接成纯文本字符串*/
async function extractTextFromDocx(filePath) {const result = await mammoth.extractRawText({ path: filePath });return result.value;
}/*** 根据差异结果生成带有样式标注的段落数组* @param {Array} differences - diff库生成的差异数组* @returns {Array} 包含Paragraph对象的数组* * 技术原理:* 1. 处理diff库输出的差异数组,每个部分可能是added/removed/unchanged* 2. 按换行符分割文本,确保每个段落独立* 3. 为不同差异类型创建不同样式的TextRun:* - 新增内容: 蓝色(#1800a1)、加粗* - 删除内容: 红色(#FF0000)、删除线* - 未更改内容: 黑色(#000000)*/
function generateDiffParagraphs(differences) {const paragraphs = [];let currentParagraph = [];// 遍历每个差异部分differences.forEach(part => {// 按换行符分割文本,处理多行内容const lines = part.value.split('\n');lines.forEach((line, lineIndex) => {// 跳过空行if (line.trim() === '') return;let textRun;if (part.added) {// 新增内容样式textRun = new TextRun({text: line,color: '1800a1', // 蓝色表示新增bold: true // 加粗突出显示});} else if (part.removed) {// 删除内容样式textRun = new TextRun({text: line,color: 'FF0000', // 红色表示删除strike: true // 删除线表示已移除});} else {// 未更改内容样式textRun = new TextRun({text: line,color: '000000' // 黑色表示未更改});}// 将文本段添加到当前段落currentParagraph.push(textRun);// 如果不是最后一行,创建新段落if (lineIndex < lines.length - 1) {paragraphs.push(new Paragraph({children: currentParagraph}));currentParagraph = []; // 重置当前段落}});});// 添加最后一个未完成的段落if (currentParagraph.length > 0) {paragraphs.push(new Paragraph({children: currentParagraph}));}return paragraphs;
}// 使用示例
const file1 = path.join(__dirname, './word/dl_v1.docx');
const file2 = path.join(__dirname, './word/js_xg_v1.docx');
const output = path.join(__dirname, './word/comparison_result.docx');// 执行比较
compareWordFiles(file1, file2, output);
2、关键技术原理详解
-
Word文档解析:
mammoth
库解析.docx文件(实际是ZIP压缩包),提取其中的document.xml
文件内容- 解析XML结构,提取所有文本节点,忽略格式、图片等非文本元素
-
差异比较算法:
diff
库使用Myers差分算法找出两个文本序列的最长公共子序列(LCS)diffWords
方法进行单词级别的比较,比字符级比较更符合文档比较的需求
-
Word文档生成:
docx
库构建符合Office Open XML标准的Word文档结构- 文档结构包含段落(Paragraph)、文本块(TextRun)等元素
- 颜色使用16进制RGB格式表示(如
1800a1
表示蓝色)
-
差异可视化:
- 新增内容用蓝色加粗显示,便于识别添加的内容
- 删除内容用红色删除线显示,表示已移除的内容
- 保留原始文本的段落结构,确保可读性
-
文件处理:
- 最终生成的.docx文件实际上是包含多个XML文件的ZIP压缩包
Packer.toBuffer
方法将内存中的文档结构打包成符合标准的.docx文件
结语:让机器做枯燥的事,让人做有创意的事
通过这个项目,我们不仅实现了一个实用的文档比对工具,更演示了如何:
🔧 组合现有工具解决实际问题
🚀 用少量代码创造高价值产出
🌐 将复杂技术转化为简单接口
下次当同事还在用"Ctrl+F"艰难找不同时,你可以优雅地说:“试试我的智能比对工具?”
原创技术博客,转载请注明出处。
相关文章:
用Node.js施展文档比对魔法:轻松实现Word文档差异比较小工具,实现Word差异高亮标注(附完整实战代码)
引言:当「找不同」遇上程序员的智慧 你是否经历过这样的场景? 法务同事发来合同第8版修改版,却说不清改了哪里 导师在论文修改稿里标注了十几处调整,需要逐一核对 团队协作文档频繁更新,版本差异让人眼花缭乱 传统…...
计算机基本理论与 ARM 相关概念深度解析
一、计算机基本理论 1. 计算机的组成 计算机硬件系统由五大部件构成: 运算器:负责算术运算(如加减乘除)与逻辑运算(如与、或、非),是数据处理的核心单元。控制器:从存储器中逐条提…...
adb常用的20个命令
ADB(Android Debug Bridge)是Android开发工具中的一个命令行工具,常用于与Android设备进行交互、调试和测试。以下是ADB常用的20个命令: adb devices:列出所有已连接的设备及其状态。adb connect <device_ip…...
C++如何使用调试器(如GDB、LLDB)进行程序调试保姆级教程(2万字长文)
C作为一门高性能、接近底层的编程语言,其复杂性和灵活性为开发者提供了强大的能力,同时也带来了更高的调试难度。与一些高级语言不同,C程序往往直接操作内存,涉及指针、引用、多线程等特性,这些都可能成为错误的温床。…...
【计算机哲学故事1-2】输入输出(I/O):你吸收什么,便成为什么
“我最近,是不是废了……”她瘫在沙发上,手机扣在胸口,盯着天花板自言自语。 我坐在一旁,随手翻着桌上的杂志,没接话,等着她把情绪发泄完。 果然,几秒后,她重重地叹了口气…...
驱动开发硬核特训 · Day 22(上篇): 电源管理体系完整梳理:I2C、Regulator、PMIC与Power-Domain框架
📘 一、电源子系统总览 在现代Linux内核中,电源管理不仅是系统稳定性的保障,也是实现高效能与低功耗运行的核心机制。 系统中涉及电源管理的关键子系统包括: I2C子系统:硬件通信基础Regulator子系统:电源…...
Linux一个系统程序——进度条
一、回车与换行 \n :回车加换行 \r:换行 观察我们发现以上的两个代码除了缺少/n没有任何区别,但是运行代码之后我们会发现有何大的不同,图一会先在屏幕上打印helloworld在进行休眠2,但是图二会先休眠2在打印helloworld,原因是pr…...
从零到精通:深入剖析GoFrame的gcache模块及其在项目中的实战应用
一、引言 在后端开发的世界里,Go语言凭借其简洁的语法、高效的并发模型和强大的标准库,已成为许多开发者的首选。从Web服务到分布式系统,Go的身影无处不在,而其生态也在不断壮大。作为Go生态中的一颗新星,GoFrame&…...
【Linux系统】静态库与动态库
库制作与原理 1. 什么是库 库是写好的现有的,成熟的,可以复用的代码。现实中每个程序都要依赖很多基础的底层库,不可能每个人的代码都从零开始,因此库的存在意义非同寻常。 本质上来说库是一种可执行代码的二进制形式ÿ…...
从零实现分布式WebSocket组件:设计模式深度实践指南
一、为什么需要WebSocket组件? 实时通信需求 传统HTTP轮询效率低,WebSocket提供全双工通信适用于即时聊天、实时数据监控、协同编辑等场景 分布式系统挑战 多节点部署时需解决会话同步问题跨节点消息广播需借助中间件(Redis/RocketMQ等&…...
使用 OpenCV 和 dlib 进行人脸检测
文章目录 1. 什么是 dlib2. 前期准备介绍2.1 环境准备2.2 dlib 的人脸检测器 3. 代码实现3.1 导入库3.2 加载检测器3.3 读取并调整图像大小3.4 检测人脸3.5 绘制检测框3.6 显示结果 4. 完整代码5. 优化与改进5.1 提高检测率5.2 处理 BGR 与 RGB 问题 6. 总结 人脸检测是计算机视…...
03.使用spring-ai玩转MCP
接着上篇:https://blog.csdn.net/sinat_15906013/article/details/147052013,我们介绍了,什么是MCP?使用cline插件/cherry-studio安装了Mcp Server,本篇我们要借助spring-ai实现MCP Client和Server。 使用spring-ai的…...
LeetCode12_整数转罗马数字
LeetCode12_整数转罗马数字 标签:#哈希表 #数字 #字符串Ⅰ. 题目Ⅱ. 示例 0. 个人方法:模拟官方题解二:硬编码数字 标签:#哈希表 #数字 #字符串 Ⅰ. 题目 七个不同的符号代表罗马数字,其值如下: 符号值I…...
展销编辑器操作难度及优势分析
也许有人会担心,如此强大的展销编辑器,操作起来是否会很复杂?答案是否定的。展销编辑器秉持着 “简单易用” 的设计理念,致力于让每一位用户都能轻松上手,即使是没有任何技术背景的小白,也能在短时间内熟练掌握。 编…...
展销编辑器在未来的发展前景
展销编辑器在展销行业的发展前景极为广阔,有望引领行业迈向更加智能化、个性化、沉浸式的新时代,对行业变革产生深远影响。 随着人工智能、虚拟现实、增强现实等技术的不断发展和融合,展销编辑器将实现更加智能化的功能。例如,借…...
央视两次采访报道爱藏评级,聚焦生肖钞市场升温,评级币成交易安全“定心丸”
CCTV央视财经频道《经济信息联播》《第一时间》两档节目分别对生肖贺岁钞进行了5分钟20秒的专题报道。长期以来,我国一直保持着发行生肖纪念钞和纪念币的传统,生肖纪念钞和纪念币在收藏市场保持着较高的热度。特别是2024年初,央行发行了首张贺…...
登高架设作业指的是什么?有什么安全操作规程?
登高架设作业是指在高处从事脚手架、跨越架架设或拆除的作业。具体包括以下方面: 脚手架作业 搭建各类脚手架,如落地式脚手架、悬挑式脚手架、附着式升降脚手架等,为建筑施工、设备安装、高处维修等作业提供安全稳定的工作平台。对脚手架进行…...
Kaamel白皮书:IoT设备安全隐私评估实践
1. IoT安全与隐私领域的现状与挑战 随着物联网技术的快速发展,IoT设备在全球范围内呈现爆发式增长。然而,IoT设备带来便捷的同时,也引发了严峻的安全与隐私问题。根据NSF(美国国家科学基金会)的研究表明,I…...
uniapp跨平台开发---动态控制底部切换显示
业务需求 不同用户或者应用场景,底部tab展示不同的内容,针对活动用户额外增加底部tab选项 活动用户 非活动用户 实现思路 首先在tabbar list中增加中间活动tab的路径代码,设置visible:false,然后再根据条件信息控制活动tab是否展示 pages.json {"pagePath": "…...
django admin 去掉新增 删除
在Django Admin中,你可以通过自定义Admin类来自定义哪些按钮显示,哪些不显示。如果你想隐藏“新增”和“删除”按钮,可以通过重写change_list_template或使用ModelAdmin的has_add_permission和has_delete_permission属性来实现。 方法1&…...
final static 中是什么final static联合使用呢
final static 联合使用详解 final 和 static 在 Java 中经常一起使用,主要用来定义类级别的常量。这种组合具有两者的特性: 基本用法 public class Constants {// 典型的 final static 常量定义public static final double PI 3.141592653589793;pub…...
【项目管理】知识点复习
项目管理-相关文档,希望互相学习,共同进步 风123456789~-CSDN博客 (一)知识总览 项目管理知识域 知识点: (项目管理概论、立项管理、十大知识域、配置与变更管理、绩效域) 对应:第6章-第19章 第6章 项目管理概论 4分第13章 项目资源管理 3-4分第7章 项目…...
cocos creator使用jenkins打包流程,打包webmobile
windows电脑使用 如果你的电脑作为打包机,一定要锁定自己的ip,如果ip动态获取,可能后续会导致jenkins无法访问,还需要重新配置jenkins和http-server的端口 从jenkins官网下载windows版 Thank you for downloading Windows Stable installer 1.jenkins安…...
颠覆传统微商!开源AI智能名片链动2+1模式S2B2C商城小程序:重构社交电商的“降维打击”革命
摘要:传统微商模式长期依赖暴力刷屏、多层分销与价格战,导致用户信任崩塌、行业合规风险激增,近三年行业淘汰率高达67%。本文创新性提出“开源AI智能名片链动21模式S2B2C商城小程序”技术-商业融合架构,通过AI驱动的智能内容引擎、…...
pycharm无法创建venv虚拟环境
pycharm 2022.2.2在创建新project时,选择Virtualenv environment时,提示“无法创建虚拟环境”。 1.查看 PyCharm 日志 日志文件(路径示例:C:\Users\<用户名>\AppData\Local\JetBrains\PyCharm2022.1\log\idea.logÿ…...
nextjs整合快速整合市面上各种AI进行prompt连调测试
nextjs整合快速整合市面上各种AI进行prompt连调测试。这样写法只是我用来做测试。快速对比各种AI大模理效果. 这里参数通过APIPOST进来 import { OpenAIService } from ./openai.service; import { Controller, Post, Body, Param } from nestjs/common; import { jsonrepair …...
Greenbone(绿骨)开源GVM容器docker部署和汉化介绍
文章目录 Greenbone(绿骨)开源GVM容器docker部署和汉化介绍前言用容器部署GVM第一步:安装依赖项第二步:安装 Docker第三步:使用 docker-compose编排文件,完成GVM服务部署第四步:启动Greenbone社…...
PDF嵌入隐藏的文字
所需依赖 <dependency><groupId>com.itextpdf</groupId><artifactId>itext-core</artifactId><version>9.0.0</version><type>pom</type> </dependency>源码 /*** PDF工具*/ public class PdfUtils {/*** 在 PD…...
为什么从Word复制到PPT的格式总是乱掉?
从Word复制到PPT的格式总是乱掉,主要有以下原因: 格式兼容性问题 - 软件版本差异:不同版本的Office或WPS软件,对文档格式的支持和处理方式有所不同。如Office 2021中的新功能“动态网格对齐”,在粘贴到Office 2016的…...
五分钟讲清数据需求怎么梳理!
目录 一、为什么要进行数据需求梳理? 1.确保企业收集到真正有价值的数据 2.有助于提高数据分析的效率和质量 3.促进企业内部各部门之间的沟通与协作 二、数据需求怎么梳理? 1. 与业务部门深度沟通 2. 进行业务流程分析 3. 参考行业最佳实践 4. …...
03_多线程任务失败解决方案
文章目录 问题:多线程并发处理时,其中一个任务失败怎么办?1. 异常捕获2. 线程同步3. 资源清理4. 错误恢复5. 通知其他线程6. 使用并发框架 问题:多线程并发处理时,其中一个任务失败怎么办? 这是一个典型的并发编程问题࿰…...
MyBatis 类型处理器(TypeHandler)注册与映射机制:JsonListTypeHandler和JsonListTypeHandler注册时机
下面几种机制会让你的 List<String>/Map<String,?> 能正确读写成 JSON 数组/对象文本: MyBatis-Plus 自动注册 最新版本的 MyBatis-Plus starter 会把类路径下所有带 MappedTypes({List.class})、MappedJdbcTypes(JdbcType.VARCHAR) 这类注…...
Spark SQL开发实战:从IDEA环境搭建到UDF/UDAF自定义函数实现
利用IDEA开发Spark-SQL 1、创建子模块Spark-SQL,并添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.0.0</version> </dependency> 3…...
神经网络笔记 - 神经网络
一.神经网络基础知识 1.神经网络解决了什么问题 将人类眼中的数据(如图像、文本)转换成计算机能理解的特征矩阵。适用于分类、回归等多种任务,本质上是进行特征提取与决策映射。 2.神经网络基本结构 输入层(Input Layer&#x…...
C20-breakcontinue
一 break break的作用:用于跳出当前的循环 #include <stdio.h> int main() {//变量初始化int TallPeopleNumber;int TallMoney0;int SingelMoney;//循环体for(TallPeopleNumber1;TallPeopleNumber<1000;TallPeopleNumber){printf("请输入单笔捐款金额:\n")…...
关于IDEA的循环依赖问题
bug描述:(java: 模块循环不支持注解处理。请确保将循环 [...] 中的所有模块排除在注解处理之外) 解决方法:...
uniapp跳转和获取参数方式
1.小程序跳转 1.1 原生组件跳转 <navigator url"/pages/about/about?id10">跳转</navigator> 1.2 方法接口跳转 uni.navigateTo({url:/pages/about/about?id2}) 2.获取参数值 页面获取id值 onLoad(e) {console.log(e.id);}...
BP 算法探秘 :神经网络的幕后引擎
大家好,我是沛哥儿,很高兴又和大家见面了。 在人工智能的世界里,神经网络如同大脑一般神秘又强大,而其中 **BP 算法(Backpropagation Algorithm)**就是驱动这个 “大脑” 不断学习进化的幕后引擎。 文章目录…...
物联网相关
文章目录 1 MQTT2 MQTT FX3 EMQ X 1 MQTT MQTT是一种基于发布/订阅模式的轻量级物联网消息协议,全称为Message Queuing Telemetry Transport(消息队列遥测传输)。它具有低功耗、低带宽占用、可靠性高等特点,广泛应用于物联网设备…...
【Axure高保真原型】3级多选下拉列表
今天和大家分享3级多选下拉列表原型模板,这个模版是用中继器制作的,所以使用也很方便,选项的数据在中继器表格里维护即可自动生成交互效果,具体效果可以打开下方原型地址体验或者点击下方视频观看 【原型效果含使用说明】 【Axur…...
光敏材料与智能传感技术的能源系统创新研究
一、光敏储能体系的作用机理与技术创新 1.1 分子光能转换机制 基于分子构型变化的能量存储技术展现出独特优势,其核心机理涉及光敏材料在光照下的可逆分子构型变化。以偶氮苯体系为例,在365nm紫外光激发下,分子发生反式到顺式的异构转变&…...
Docker 安装 kafka (bitnami/kafka:4.0)
1、拉取镜像 docker pull bitnami/kafka:4.02、创建挂载目录 mkdir -p /user/lzl/tool/docker/kafka/bitnami/bitnami_kafka_4.0/home/datamkdir -p /user/lzl/tool/docker/kafka/bitnami/bitnami_kafka_4.0/home/logs3、给挂载目录授权 chmod 777 /user/lzl/tool/docker/ka…...
NameSilo转入转出域名
一、总起 域名转入转出主要沟通方式就是靠注册邮箱收取转移授权码。 因为namesilo的界面一直在慢慢改动(很慢很慢),所以本文和网上教程里的截图有所不同,以后本文可能也会与实际界面有所不同。 二、转入域名 1. 在其它域名服务商…...
Python----深度学习(基于DNN的吃鸡预测)
一、目标 如何使用 PyTorch 实现一个简单的深度神经网络(DNN)模型,并用于回归任务。该模型通过训练数据集来预测玩家在游戏中的最终排名百分比。代码通过读取数据集、数据处理、模型训练和模型评估等步骤。 二、数据集介绍 和平精英…...
DeepSeek系列(10):与其他AI工具协同
DeepSeek与绘图AI配合使用 在当今多元化的AI生态中,将不同专长的AI工具协同使用,能够实现远超单一工具的综合效果。DeepSeek作为强大的语言模型,与专业绘图AI的配合尤为默契,可以在创意构思与视觉呈现之间建立无缝桥梁。 创意-视觉协作流程 从文本到图像的完整路径 创意…...
Spark-Streaming核心编程:有状态转化操作与DStream输出
在Spark-Streaming的学习旅程中,有状态转化操作和DStream输出是两个关键知识点,今天就来深入聊聊它们。 先说说有状态转化操作,这里面 UpdateStateByKey 和 WindowOperations 很重要。 UpdateStateByKey 主要用于跨批次维护状态,就…...
Ldap高效数据同步- MirrorMode双主复制模式配置详解(上)
#作者:朱雷 文章目录 一、Syncrepl 复制和MirrorMode复制1.1. 什么是复制模式1.2. 什么是 syncrepl同步复制1.3. 什么是 MirrorMode 复制(双主模式)1.4. 双数据中心配置镜像模式架构 二、Ldap环境部署三、配置Mirror复制类型3.1. 配置节点1配…...
【刷题Day28】Python/JAVA - 02(浅)
Python 什么是 Python 的闭包? 闭包(Closure)是Python中的一种独特的函数机制。简而言之,闭包是指在一个内部函数中,引用了外部函数的变量,而这个外部函数已经执行完毕并返回了内部函数,然而内…...
纯净IP的优势:稳定性与安全性的结合
在跨境电商、数据采集、社交运营等对网络质量要求高的场景中,选择一个可靠的IP资源,是保护账号安全、提升业务效率的关键。纯净IP凭借其独特的稳定性与安全性,成为越来越多用户的选择。本文将带你深入了解纯净IP的价值,以及如何应…...
探索DeepWiki:GitHub源码阅读的变革性工具
DeepWiki 是什么 DeepWiki 是由 Cognition Labs 精心打造的一款创新工具,堪称 GitHub Repo 源代码的 “智慧解读器”,能将其转化为可对话式文档 ,为开发者提供实时交流、即时更新文档的功能。它基于 Devin 技术,为每一个 GitHub …...