文章相似度对比
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
# 加载中文句向量模型(BGE)
model_name = "BAAI/bge-large-zh-v1.5"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
def get_sentence_embedding(text):
# 编码文本
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
with torch.no_grad():
outputs = model(**inputs)
# 使用CLS向量
embeddings = outputs.last_hidden_state[:, 0]
# 归一化
embeddings = F.normalize(embeddings, p=2, dim=1)
return embeddings
def compute_similarity(text1, text2):
emb1 = get_sentence_embedding(text1)
emb2 = get_sentence_embedding(text2)
similarity = F.cosine_similarity(emb1, emb2).item()
return similarity
# 示例
text_a = "中国是一个拥有悠久历史和灿烂文化的国家。"
text_b = "中国是一个拥有悠久历史的国家。"
sim = compute_similarity(text_a, text_b)
print(f"相似度:{sim:.4f}")
if sim > 0.95:
print("判定为重复文章")
elif sim > 0.8:
print("可能是相似文章")
else:
print("非重复文章")
相关文章:
文章相似度对比
from transformers import AutoTokenizer, AutoModel import torch import torch.nn.functional as F # 加载中文句向量模型(BGE) model_name "BAAI/bge-large-zh-v1.5" tokenizer AutoTokenizer.from_pretrained(model_name) model AutoM…...
认知计算:迈向人类级智能的 AI 新范式
一、认知计算:定义与核心技术架构 1.1 超越传统 AI 的 “类人智能” 新维度 认知计算的本质是构建具备感知、推理、学习和交互能力的智能系统,其核心特征包括: 多模态理解:处理文本、图像、语音等非结构化数据(如分…...
数据被泄露了怎么办?
数据泄露是严重的网络安全事件,需立即采取行动以降低风险。以下是关键应对步骤: 1. 确认泄露范围 核实泄露内容:确定泄露的是密码、财务信息、身份证号还是其他敏感数据。 评估来源:检查是个人设备被入侵、某平台漏洞,…...
从 CANopen到 PROFINET:网关助力物流中心实现复杂的自动化升级
使用 CANopen PLC 扩展改造物流中心的传送带 倍讯科技profinet转CANopen网关BX-601-EIP将新的 PROFINET PLC 系统与旧的基于 CANopen 的传送带连接起来,简化了物流中心的自动化升级。 新建还是升级?这些问题通常出现在复杂的内部物流设施中,…...
关于收集 Android Telephony 网络信息的设计思考2
需求: 目标1: Android Telephony data(数据模块)侧收集多源(ServiceStateTracker/ImsService/其他)网络状态信息。目标2: 收集的数据需统一上报/存储到外部App的Provider。字段分散,不方便只在ServiceStateTracker中收集和插入。多触发点/多场景,需要统一插入。一、架构…...
android RecyclerView列表DiffCallback说明
一 代码 private class DiffCallback : DiffUtil.ItemCallback<xxxVolumeInfo>() {override fun areItemsTheSame(oldItem: xxxVolumeInfo,newItem: xxxVolumeInfo): Boolean {return oldItem.uuid newItem.uuid}override fun areContentsTheSame(oldItem: xxxVolumeIn…...
Day123 | 灵神 | 二叉树 | 找树左下角的值
Day123 | 灵神 | 二叉树 | 找树左下角的值 513.找树左下角的值 513. 找树左下角的值 - 力扣(LeetCode) 思路: 初学者可以看灵神视频二叉树的层序遍历【基础算法精讲 13】_哔哩哔哩_bilibili 我的思路就是在每层的循环前加个判断…...
流式优先架构:彻底改变实时数据处理
近年来,随着现代组织的数据环境日趋复杂且高速流动,传统数据库系统已难以满足实时分析、物联网应用以及即时决策的需求。围绕批处理和静态数据模型设计的 RDBMS(关系型数据库管理系统)在架构层面缺乏实时处理能力,而流…...
5月21日星期三今日早报简报微语报早读
5月21日星期三,农历四月廿四,早报#微语早读。 1、中国首次当选联合国教科文组织1970年《公约》缔约国大会主席国; 2、上海普陀:探索1岁以下托育服务的保育内容、人员配备等关键要素; 3、浙江:将智能家居…...
一文详解并查集:从基础原理到高级应用
一文详解并查集:从基础原理到高级应用 前言一、基本概念1.1 定义与作用1.2 直观理解 二、并查集的基本实现2.1 数据结构定义2.2 查找操作实现2.3 合并操作实现 三、经典优化策略3.1 路径压缩(Path Compression)3.2 按秩合并(Union by Rank&am…...
二叉树的半线性
二叉树的半线性结构体现在以下方面: 非线性拓扑与线性次序的结合 二叉树的节点通过父子关系形成分叉结构(非线性),但通过遍历规则(如先序、中序、后序、层次遍历)可将其映射为线性序列。例如:…...
深入浅出理解时间复杂度和空间复杂度
目录 一、基本概念 时间复杂度 空间复杂度 二、常见复杂度分类 时间复杂度常见情况 空间复杂度常见情况 三、如何分析复杂度 时间复杂度分析步骤 空间复杂度分析步骤 四、复杂度对比图表 时间复杂度增长趋势 常见算法复杂度汇总 五、实际应用中的注意事项 一、基本…...
【Java基础笔记vlog】Java中常见的几种数组排序算法汇总详解
Java中常见的几种排序算法: 冒泡排序(Bubble Sort)选择排序(Selection Sort)插入排序(Insertion Sort)希尔排序(Shell Sort)归并排序(Merge Sort)…...
flink 提交流程
flink 提交流程 基础架构并行度算子链任务槽 基础架构 上图是普通的 standalone 架构,就是独立模式,会话模式部署,客户端在接受 job 时,会生成逻辑流图,这里只是按照业务生成对应的执行图,到了 JobManager …...
使用Pandoc实现Markdown和Word文档的双向转换
前言 Word文档是老牌的文档工具,Markdown是新兴的势力。Csdn发文章就是支持Markdown文件的导入,而并不支持Word文件的导入。相反的,今日头天发文章就是支持Word文件的导入,而不支持Markdown文件的导入。 所以,这两种…...
【Python零基础入门系列】第3篇:什么是 Python 的变量、数据类型和输入输出?
欢迎来到【Python 零基础入门系列】第3篇! 前两篇我们已经学会了如何安装 Python 使用编程工具 IDE,并写出了人生第一个程序 print("Hello, world!"),是不是有点成就感了?今天我们就继续深入一点点,来聊聊编程的“灵魂三问”: 什么是变量?什么是数据类型?如…...
破解充电安全难题:智能终端的多重防护体系构建
随着智能终端的普及,充电安全问题日益凸显。从电池过热到短路起火,充电过程中的安全隐患不仅威胁用户的生命财产安全,也制约了行业的发展。如何构建一套高效、可靠的多重防护体系,成为破解充电安全难题的关键。通过技术创新和系统…...
无人机桥梁巡检
无人机桥梁巡检 防护墙巡查 路面巡查 主梁巡查 桥墩路基巡查 支座巡查 周边环境检查...
Android Binder线程池饥饿与TransactionException:从零到企业级解决方案(含实战代码+调试技巧)
简介 在Android系统中,Binder作为进程间通信(IPC)的核心机制,承载着大量跨进程调用任务。然而,当Binder线程池资源耗尽时,可能导致严重的线程饥饿问题,最终引发TransactionException异常,甚至导致应用崩溃或系统卡顿。本文将从零开始,系统讲解Binder线程池的工作原理…...
138. Copy List with Random Pointer
目录 题目描述 方法一、使用哈希表 方法二、不使用哈希表 题目描述 问题的关键是,random指针指向的是原链表的结点,这个原链表的结点对应哪一个新链表的结点呢?有两种办法。一是用哈希表。另一种是复制原链表的每一个结点,并将…...
Java面试问题基础篇
面向对象 面向对象编程:拿东西过来做对应的事情 特征: 封装:对象代表什么,就要封装对应的数据,并提供数据对应的行为 继承:Java中提供一个关键字extends,用这个关键字可以让一个类和另一个类…...
ILRuntime中实现OSA
什么是ILRuntime? ILRuntime项⽬为基于C#的平台(例如Unity)提供了⼀个 纯 C# 实现 , 快速 、 ⽅便 且 可靠 的IL 运⾏时,使得能够在不⽀持JIT的硬件环境(如iOS)能够实现代码的热更新。具体可以学习: http://http s://ourpalm.github.io/ILRuntime/public/v1/guide/ind…...
总结一个编程的学习方式~
目录 学习开发 一切从简 代码风格 学习工具 总结 学习开发 一切从简 在学习写代码的时候,一定要快速的写起来,不要在开发工具上浪费太多的时间。比如说萌新学习C/C,上来直接使用Visual Studio 2019开始把代码写起来,不要追…...
ABC 353
目录 C. Sigma Problem D. Another Sigma Problem C. Sigma Problem 容斥。所有都先不取模,每个数出现 n - 1次,先算出不取模的答案。 接下来找出哪些对之和超出了 1e8,统计这样的对的个数,再拿之前的答案减掉 个数 * 1e8 只需要…...
【免杀】C2免杀技术(八)APC注入
本文主要写点自己的理解,如有问题,请诸位指出! 概念和流程 “APC注入”(APC Injection)是免杀与恶意代码注入技术中的一种典型方法,主要用于在目标进程中远程执行代码,常见于后门、远控、植入型…...
集星云推“碰一碰源码”开发思路解析
在当今数字化营销的浪潮中,集星云推的“碰一碰发视频”工具脱颖而出,为实体商家带来了全新的发展机遇。 AI 视频生成引擎: 集星云推的“碰一碰发视频”工具,在AI视频生成方面下足了功夫。它精心挑选合适的AI视频生成算法…...
容器网络中的 veth pair 技术详解
什么是 veth pair? 在 Linux 容器网络中,veth pair(Virtual Ethernet Pair)是一种虚拟网络设备,用于在不同的网络命名空间(Network Namespace)之间建立通信。它本质上是一对虚拟网卡࿰…...
PCB 横截面几何形状
PCB 横截面几何形状描述了 PCB 堆叠中介电基板、走线和参考平面的细节。然后,它们彼此之间的物理关系可用于预测相应走线的特性阻抗。只有三个通用的横截面几何,每个几何内部都有变化。他们是: 共面 微带线 带状线 共面: 共面几何,有时也称为共面波导 (CPW),是夹在两个…...
面向高温工业场景的EtherCAT/CANopen协议转换系统设计与应用
在金属冶炼行业,高效稳定的通信系统是保障生产流程顺畅、提升生产效率的关键。从矿石预处理、高温熔炼,到精炼成型,各个环节的设备紧密协作,而JH-ECT009疆鸿智能EtherCAT转CANopen协议网关,作为连接不同通信协议设备的…...
Redis语法大全
一、String(字符串) 特点:单键值存储,值可为字符串、数字,支持原子操作。 常用命令 SET 语法:SET key value [EX seconds] [PX milliseconds] [NX|XX]说明:设置键值对,可指定过期时…...
【项目管理】项目管理中的”三边、六拍、四没和只谈“
三边、六拍、四没和只谈总结 中国特色项目管理的“三边、六拍、四没和只谈”,你知道多少? “三边”是指:边计划、边实施、边修改 “六拍”是指:拍脑袋、拍肩膀、拍胸口、拍桌子、拍屁股、拍大腿 "四没"是指:没问题、没关系、没办法、没资源 “只谈”是指:项目初…...
Python训练Day30
模块和库的导入 知识点 回顾 : 导入官方库的三种手段导入自定义库/模块的方式导入库/模块的核心逻辑:找到根目录(python解释器的目录和终端的目录不一致) 1.1标准导入:导入整个库 # 方式1:导入整个模块 imp…...
面试相关的知识点
1 vllm 1.1常用概念 1 vllm:是一种大模型推理的框架,使用了张量并行原理,把大型矩阵分割成低秩矩阵,分散到不同的GPU上运行。 2 模型推理与训练:模型训练是指利用pytorch进行对大模型进行预训练。 模型推理是指用训…...
【notepad++如何设置成中文界面呢?】
“Notepad”是一款非常强大的文本编辑软件,将其界面设置成中文的方法如下: 一、工具/原料: 华为 Matebook 15、Windows 10、Notepad 8.4.6。 二 、具体步骤: 1、找到任意一个文本文件,比如 txt 格式的文…...
从版本控制到协同开发:深度解析 Git、SVN 及现代工具链
前言:在当今软件开发的浪潮中,版本控制与协同开发无疑扮演着举足轻重的角色。从最初的单兵作战到如今大规模团队的高效协作,一套成熟且得力的版本控制系统以及围绕其构建的现代工具链,已然成为推动软件项目稳步前行的关键引擎。今…...
十一、xlib绘制编辑框-续
系列文章目录 本系列文章记录在Linux操作系统下,如何在不依赖QT、GTK等开源GUI库的情况下,基于x11窗口系统(xlib)图形界面应用程序开发。之所以使用x11进行窗口开发,是在开发一个基于duilib跨平台的界面库项目&#x…...
PyTorch进阶实战指南:02分布式训练深度优化
PyTorch进阶实战指南:02分布式训练深度优化 前言 在大模型时代,分布式训练已成为突破单机算力瓶颈的核心技术。本文深入解析PyTorch分布式训练的技术实现,从单机多卡并行到万卡集群协同,系统揭示现代深度学习规模化训练的核心机制…...
使用Vite创建一个动态网页的前端项目
1. 引言 虽然现在的前端更新换代的速度很快,IDE和工具一批批的换,但是我们始终要理解一点基本的程序构建的思维,这些环境和工具都是为了帮助我们更快的发布程序。笔者还记得以前写前端代码的时候,只使用文本编辑器,然…...
常见的LLM
常见的 LLM(大语言模型,Large Language Models)可以按照开源/闭源、机构/公司、用途等维度分类。以下是一些主流和常见的 LLM 及其简介: 一、开源 LLM Meta(Facebook) 名称参数量特点LLaMA 1 / 2 / 37B /…...
助力 FPGA 国产化,ALINX 携多款方案亮相深圳、广州“紫光同创 FPGA 技术研讨会”
5 月中旬,一年一度的紫光同创技术研讨会系列活动正式拉开帷幕,相继在深圳、广州带来 FPGA 技术交流盛宴。 ALINX 作为紫光同创官方合作伙伴,长期助力推动 FPGA 国产化应用发展,此次携多款基于 Kosmo-2 系列产品开发的方案 demo 亮…...
深入浅出IIC协议 - 从总线原理到FPGA实战开发 --第四篇:I2C工业级优化实践
第四篇:I2C工业级优化实践 副标题 :从实验室到产线——I2C控制器的高可靠设计秘籍 1. 时序收敛技巧 1.1 关键路径识别与优化 Vivado时序报告解析 : Slack (MET): 0.152ns (要求≥0) Data Path Delay: 3.821ns (逻辑布线) Cell Delay: i…...
【leetcode】70. 爬楼梯
文章目录 1. 数组2. 优化空间 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。 1 阶 1…...
【web全栈】若依框架B站学习视频
文章目录 基础篇-01 AI若依导学视频基础篇02 若依搭建基础篇03 入门案例基础篇04 功能详解-权限控制 基础篇-01 AI若依导学视频 基础篇02 若依搭建 基础篇03 入门案例 基础篇04 功能详解-权限控制...
MFC 捕捉桌面存成jpg案例代码
下面是关于截屏并保存成jpg文件的代码。由主函数OnCapScreenJpg()、DDBToDIB()、JpegFromDib()、DibToSamps()以及QuadFromWord()函数组成。这些函数的功能包括截取屏幕、将截取的屏幕转成设备无关bmp、再进一步压缩成jpeg格式。这些代码是从网上得到的,得到的代码没…...
2.4.4-死锁的处理策略-检测和解除
知识总览 死锁的检测 用资源分配图这种数据结构来检测是否产生了死锁,资源分配图上有2种节点,进程节点用圆圈表示,一个圆圈代表一个进程,还有资源节点,一个矩形代表一类资源,用矩形中的圆圈表示当前类型的…...
豪越智能仓储:为消防应急物资管理“上锁”
在城市的繁华街角,一场突如其来的大火无情地肆虐着一栋商业大楼。火焰在楼内疯狂蔓延,滚滚浓烟迅速弥漫,人们的生命财产安全受到了严重威胁。消防警报声骤然响起,消防队员们迅速出动,争分夺秒赶赴火灾现场。然而&#…...
(06)数字化转型之质量管理:遵循PDCA规范的全流程避险指南
在全球化竞争和消费升级的双重驱动下,质量管理已从单纯的产品检验演变为企业核心竞争力的重要组成部分。一个完善的质量管理体系不仅能降低质量成本、提升客户满意度,更能成为品牌差异化的战略武器。本文将系统性地介绍现代企业质量管理的完整框架&#…...
图论算法精解(Java 实现):从基础到高频面试题
一、图的基础表示方法 1.1 邻接矩阵(Adjacency Matrix) 邻接矩阵是表示图的一种直观方式,它使用一个二维数组来存储节点之间的连接关系。对于一个有 n 个节点的图,邻接矩阵是一个 nn 的矩阵,其中 matrix [i][j] 表示…...
[Linux] Linux信号量深度解析与实践(代码示例)
Linux信号量深度解析与实践 文章目录 Linux信号量深度解析与实践一、什么是信号量1. 信号量的核心概念2. 信号量的分类3. 信号量的操作机制 二、怎么用信号量1. 信号量API的深度解析(1)无名信号量API(2)有名信号量API(…...
Switch最新 模拟器 Eden(伊甸)正式发布 替代Yuzu模拟器
Switch最新 模拟器 Eden(伊甸)正式发布 替代Yuzu模拟器 100 帧跑满《塞尔达传说:旷野之息》 这款模拟器基于 Yuzu 框架开发,但团队强调它并非…...