当前位置: 首页 > news >正文

Windows Anaconda使用Sentence-BERT获取句子向量

1、安装Anaconda

        Anaconda是一个流行的Python数据科学平台,它包含了许多科学计算和数据分析的库,包括transformerssentence_transformers。虽然不是必需的,但使用Anaconda可以简化环境管理和依赖安装的过程。

        可以从Anaconda官网下载并安装Anaconda。

        下载地址:Download Now | Anaconda

2、创建虚拟环境(推荐)

        为了避免不同项目之间的依赖冲突,建议为每个项目创建一个独立的虚拟环境。如果已经安装了Anaconda,可以使用以下命令创建虚拟环境:

conda create --name sentence_bert_env python=3.8

        激活名称为 sentence_bert_env 的虚拟环境:

conda activate sentence_bert_env

3、安装必要的包

        在虚拟环境中,通过pip安装transformerssentence_transformers库:

pip install transformers sentence_transformers

        默认情况下,pip 会从 pypi 的官方服务器下载包,这可能会因为网络问题导致速度较慢。可以切换到国内的镜像源来加速下载。

pip install transformers sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple
常用国内镜像源
  • 阿里云:https://mirrors.aliyun.com/pypi/simple/
  • 清华大学:https://pypi.tuna.tsinghua.edu.cn/simple
  • 豆瓣:https://pypi.douban.com/simple/

        有时 pip 缓存可能会导致安装失败或变慢。可以清理缓存后重新安装: 

pip cache purge
pip install transformers sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

4、加载预训练模型

        从sentence_transformers库中选择合适的预训练模型。例如,可以使用以下python代码新建load_model.py加载一个名为all-MiniLM-L6-v2的预训练模型,

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')

        网络不好会下载失败,这时候可以先下载好,在指定模型的路径(推荐)

        官方下载地址:https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

        官方打不开可以用这个地址:Index of /reimers/sentence-transformers/v0.2/

from sentence_transformers import SentenceTransformer
model_path = r"D:\models\all-MiniLM-L6-v2"
model = SentenceTransformer(model_path)

不同模型文件所需空间

模型名称大小
all-MiniLM-L6-v2~90MB
paraphrase-MiniLM-L6-v2~90MB
bert-base-uncased~440MB
roberta-base~440MB
distilbert-base-uncased~250MB

5、准备输入数据

        将要处理的句子整理成一个列表,作为模型的输入。例如:

sentences = ['This is a beautiful day.', 'I love spending time with my family.']

6、获取句子向量表示

        使用加载的模型对输入句子进行编码,得到每个句子的向量表示。这些向量能够捕捉句子的语义信息,可以用于后续的各种NLP任务。例如:

embeddings = model.encode(sentences)for sentence, embedding in zip(sentences, embeddings):print(f"Sentence: {sentence}")print(f"Embedding: {embedding[:5]}... (维度: {len(embedding)})")

        这将输出一个二维数组,其中包含了输入句子的向量表示。

        完整的python代码:

# 从sentence transformers中SentenceTransformer 模块
from sentence_transformers import SentenceTransformer# 替换为你的本地模型路径
model_path = r"D:\models\all-MiniLM-L6-v2"
# 加载模型
model = SentenceTransformer(model_path)# 测试模型
sentences = ['This is a beautiful day.', 'I love spending time with my family.']
embeddings = model.encode(sentences)# 输出模型向量
for sentence, embedding in zip(sentences, embeddings):print(f"Sentence: {sentence}")print(f"Embedding: {embedding[:5]}... (维度: {len(embedding)})")

        执行代码:

 python load_model.py

7、应用向量表示

        根据具体任务需求,使用得到的句子向量进行后续处理。例如,在文本相似度计算任务中,可以使用余弦相似度等度量方法来计算两个句子向量之间的相似度;在文本分类任务中,可以将句子向量输入到分类器中进行预测。

        通过以上步骤,就能够在Windows系统上成功使用Sentence-BERT来处理自然语言处理任务。

        有了向量数据就可以在elasticsearch中实现相识度搜索,可以使用es提供的knn进行相似度搜索,实现相似度推荐系统功能。

        还有一点就是,不同的预训练模型计算出来的向量也是不一样的,如果使用中文的话,需要专门找中文的预训练模型把语句转为向量。

es文档:

        向量字段类型:Dense vector field type | Elasticsearch Guide [8.6] | Elastic

        查询语法:k-nearest neighbor (kNN) search | Elasticsearch Guide [8.6] | Elastic

参考文章:

Anaconda介绍、安装及使用保姆级教程-腾讯云开发者社区-腾讯云

解决Sentence Transformers中all-minilm-l6-v2等模型下载问题-CSDN博客

相关文章:

Windows Anaconda使用Sentence-BERT获取句子向量

1、安装Anaconda: Anaconda是一个流行的Python数据科学平台,它包含了许多科学计算和数据分析的库,包括transformers和sentence_transformers。虽然不是必需的,但使用Anaconda可以简化环境管理和依赖安装的过程。 可以从Anaconda官…...

【Java设计模式】第5章 工厂方法模式讲解

5. 工厂方法模式 5.1 工厂方法讲解 定义:定义一个创建对象的接口,由子类决定实例化的类,将对象创建延迟到子类。适用场景: 创建对象需要大量重复代码。客户端不依赖具体产品的创建细节。优点: 符合开闭原则,新增产品只需扩展子类。客户端仅依赖抽象接口,不依赖具体实现…...

结合 Less + CSS 变量实现切换主题

一开始的思路是通过 Less 变量作用范围 来切换 light 和 dark 主题,但 Less 本身不会动态监听类名变化,所以直接这样写是 不可行的,因为 Less 是 预处理语言,它在编译阶段就确定了 color 的值,而不是在运行时动态切换。…...

数据分析之python处理常用复杂转置数据

前段时间根据需求配合ai写了个转置excel代码,挺好用的,而且可以选择excel,不局限于excel存在哪个地方,都可以转置,但是转置后的excel记得要先创建放在转置文件的目录下。 原本的数据长这样 转置后则可以变为这样&…...

未来杭州:科技与诗意的时空交响曲

故事背景 故事发生在中国浙江杭州的未来科技时代,通过六个充满未来感的场景展现传统文明与尖端科技的完美融合。全篇无人物角色,专注于构建兼具东方美学与赛博朋克风格的沉浸式景观。 故事内容 从晨雾中浮现全息诗句的西湖,到吞吐智能包裹的运…...

彩虹表是什么

彩虹表是一种用于破解加密散列函数的预计算表,主要用于破解密码的哈希值。以下是关于加密文件与彩虹表的相关信息: 彩虹表的原理 • 时空折中:彩虹表基于时空折中理论,通过预先计算并存储大量可能的密码及其哈希值,减少…...

[BreachCTF 2025]

周末的这个居然一个密码都不会,作了4个pwn,给原码看着真方便 FSWn3d #define _GNU_SOURCE #include <fcntl.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/mman.h> #include <unistd.h>char buffer[152…...

行业案例 | 印度航空借助 Azure AI,提升智能航空体验

自2022年塔塔集团&#xff08;Tata Group&#xff09;接管以来&#xff0c;印度航空启动了全面现代化升级&#xff0c;不仅豪掷470架新飞机订单以重塑“以人为本”的品牌形象&#xff0c;更将数字化作为核心战略——将所有工作负载&#xff08;包括全新官网&#xff09;从本地数…...

【Java设计模式】第7章 建造者模式讲解

7-1 建造者模式讲解 1. 定义与类型 定义: 将复杂对象的构建与表示分离,使相同构建过程可创建不同表示。类型: 创建型模式。通俗解释: 分步构建含多组件的对象,流程固定但顺序灵活(如做菜时放盐顺序可变)。2. 适用场景 对象内部结构复杂(多属性或多步骤)。需将对象创建与…...

鸿蒙ArkTS实战:从零打造智能表达式计算器(附状态管理+路由传参核心实现)

还在为组件状态混乱、页面跳转丢参数而头疼&#xff1f; 这篇博客将揭秘如何用鸿蒙ArkTS打造一个漂亮美观的智能计算器&#xff1a; ✅ 输入完整表达式&#xff0c;秒出结果——字符串切割简单计算 ✅ 状态管理黑科技——Provide/Consume 实现跨组件实时响应 ✅ 路由传参实战—…...

虚拟机上安装openEuler和openGauss数据库

1.虚拟机版本选择VM 16 PRO 2.openEuler版本选择openEuler-22.03-LTS-SP4-x86_64 下载地址&#xff1a;https://mirrors.aliyun.com/openeuler/openEuler-22.03-LTS-SP4/ISO/x86_64/openEuler-22.03-LTS-SP4-x86_64-dvd.iso 3.虚拟机安装openEuler过程&#xff1a; 4.安装ope…...

深入解析 Jenkins Agent 的 .jnlp 启动文件

&#x1f9e9; 深入解析 Jenkins Agent 的 .jnlp 启动文件 在 Jenkins 中&#xff0c;通过 JNLP&#xff08;Java Network Launch Protocol&#xff09;方式连接 Agent 是一种常见且灵活的方式。你可能曾见过类似这样的命令&#xff1a; java -jar agent.jar -jnlpUrl file:/…...

在 macOS 上连接 PostgreSQL 数据库(pgAdmin、DBeaver)

在 macOS 上连接 PostgreSQL 数据库 pgAdmin 官方提供的图形化管理工具&#xff0c;支持 macOS。 下载地址&#xff1a;https://www.pgadmin.org/ pgAdmin 4 是对 pgAdmin 的完全重写&#xff0c;使用 Python、ReactJs 和 Javascript 构建。一个用 Electron 编写的桌面运行时…...

HarmonyOS Next~鸿蒙系统原生流畅性创新解析:预加载技术与全栈优化的革命性突破

鸿蒙系统原生流畅性创新解析&#xff1a;预加载技术与全栈优化的革命性突破 一级类目&#xff1a;鸿蒙创新特性 | 二级类目&#xff1a;原生流畅 鸿蒙系统&#xff08;HarmonyOS&#xff09;自诞生以来&#xff0c;始终以“天生流畅”为核心目标&#xff0c;其原生流畅性不仅…...

【图像处理】:opencv实现模糊图像处理和对比度增强

opencv实现模糊图像处理和对比度增强 模糊图像处理**方法 1&#xff1a;Wiener 反卷积&#xff08;已知模糊核&#xff09;****方法 2&#xff1a;非锐化掩码&#xff08;Unsharp Masking&#xff09;****方法 3&#xff1a;拉普拉斯锐化&#xff08;Laplacian Sharpening&…...

@SentinelResource注解,sentinel限流,熔断自定义返回 ,配合nacos完成持久化

sentinel熔断和限流自定义返回 如果发生熔断或者限流&#xff0c;会返回500错误页面&#xff0c;希望返回自定义兜底数据&#xff0c;这时候可使用SentinelResource实现 操作 1、添加统一返回结果类 ( 在做自定义处理的时候, 要求方法的声明必须一致) import lombok.Data;…...

AJAX简介

一、AJAX 是什么&#xff1f; AJAX&#xff08;Asynchronous JavaScript and XML&#xff09;是一种异步网络请求技术&#xff0c;它的核心是允许网页在不刷新整个页面的情况下&#xff0c;向服务器发送或接收数据&#xff0c;并动态更新页面内容。简单来说&#xff0c;AJAX 让…...

平台算法暗战:ebay欧洲站搜索词长度同比缩短2.3字符的应对策略

随着电商平台算法的快速更迭&#xff0c;卖家迎来了新的挑战。根据最近数据显示&#xff0c;eBay欧洲站搜索关键词的平均长度同比缩短了2.3个字符。这看似细微的变化&#xff0c;实则在搜索曝光、排名权重、流量分发等多方面带来实质性影响。 那么&#xff0c;这次「搜索词缩水…...

记录一次家里宽带 被修改带宽维权的事情

去年8月份发现家里电信宽带被限制带宽 原本上行300m被限制成40m 并且没有任何通知和短信 打10000号要求上门测速 拍下测速结果留作证据 然后等他们处理的同时 开始给我反馈是pcdn 然后说是工信部统一下调带宽 投诉12345 12300 不过这些投诉其实并不会给他们造成什么压…...

刀客doc:亚马逊把Netflix的广告价格打下来了

01 要说在美国广告市场里&#xff0c;未被巨头垄断且最为活跃的板块&#xff0c;应该就是流媒体了。 根据群邑智库的数据&#xff0c;2025年CTV广告将以20%的增速&#xff0c;冲刺460亿美元的市场规模。到2029年&#xff0c;全球流媒体电视的广告收入将占电视总收入的37.5%。…...

【文献阅读】NVILA: Efficient Frontier Visual Language Models

发表于2025年3月6日 英伟达团队 摘要 近年来&#xff0c;视觉语言模型&#xff08;VLMs&#xff09;在准确性方面取得了显著进展。然而&#xff0c;其效率却较少受到关注。本文介绍了NVILA&#xff0c;这是一系列旨在优化效率和准确性的开源视觉语言模型。在VILA的基础上&am…...

驱动-创建设备节点

字符设备相关的知识面&#xff1a;已经了解了 申请设备号、注册字符设备。 已经将字符设备添加进入内核了&#xff0c;那么如何使用这个字符设备呢&#xff1f; Linux 里面一切皆文件&#xff0c;对内核中的字符设备进行文件操作如打开、关闭、读、写等&#xff0c;但是并不支持…...

Vue知识点(5)-- 动画

CSS 动画是 Vue3 中实现组件动画效果的高效方式&#xff0c;主要通过 CSS transitions 和 keyframes 动画 CSS Keyframes&#xff08;关键帧动画&#xff09; 用来创建复杂的动画序列&#xff0c;可以精确控制动画的各个阶段。 核心语法&#xff1a; keyframes animationNa…...

基于AT89C52单片机的植物浇水与智能空气土壤环境监测报警系统

点击链接获取Keil源码与Project Backups仿真图&#xff1a; https://download.csdn.net/download/qq_64505944/90579535?spm1001.2014.3001.5503 功能介绍&#xff1a; 1、功能&#xff1a;液晶器显示检测到的土壤湿度与空气温度与光照强度&#xff1b;温度和光照大于设置的…...

指针进阶( 上 )

内容大纲 一.字符指针 二.指针数组 三.数组指针 四. 数组传参和指针传参 引言 指针是什么呢&#xff1f;指针是用来干什么的呢&#xff1f;指针的大小是多少呢&#xff1f;指针的大小具有什么属性呢&#xff1f; 解答&#xff1a;指针是个变量&#xff0c;用来存放变量地…...

java设计模式-外观模式

外观模式(facade) 基本介绍 1、外观模式也叫过程模式,外观模式为子系统中的一组接口提供一个一致的界面&#xff0c;次模式定义一个高层接口&#xff0c;这个接口是的这一子系统更加容易使用。 2、外观模式通过定义一个一直的接口&#xff0c;用以屏蔽内部子系统的细节&#x…...

selenium元素获取

from selenium import webdriver from selenium.webdriver.common.by import Bydriver webdriver.Chrome()driver.maximize_window()#最大化窗口 #隐式等待 driver.implicitly_wait(10)#打开网页 driver.get("https://www.zhipin.com/beijing/?kacity-sites-101010100&q…...

23种设计模式-行为型模式-访问者

文章目录 简介场景解决完整代码核心实现 总结 简介 访问者是一种行为设计模式&#xff0c;它能把算法跟他所作用的对象隔离开来。 场景 假如你的团队开发了一款能够使用图像里地理信息的应用程序。图像中的每个节点既能代表复杂实体&#xff08;例如一座城市&#xff09;&am…...

springMVC-拦截器详解

拦截器 概述 SpringMVC的处理器拦截器类似于Servlet开发中的过滤器Filter,用于对处理器进行预处理和后处理。开发者可以自己定义一些拦截器来实现特定的功能。 过滤器与拦截器的区别&#xff1a;拦截器是AOP思想的具体应用。 过滤器 servlet规范中的一部分&#xff0c;任何ja…...

centos练习docker<基础>

这半喇月发生了很多事&#xff0c;很无谓很闹心&#xff0c;今天重拾起自己&#xff0c;做做功课写写字 文章目录 一、准备二、实践2.1 安装docker2.2docker镜像操作2.2.1 下载镜像等基本操作2.2.2 启动容器等基本操作2.2.3 修改页面2.2.4 保存镜像2.2.5 分享社区 总结 一、准…...

GPT-5、o3和o4-mini即将到来

原计划有所变更: 关于我们应有何期待的一些零散想法。 深度研究(Deep Research)确实强大但成本高昂且速度较慢(当前使用o3模型)。即将推出的o4-mini在性能上可能与o3相近,但将突破这些限制,让全球用户——甚至免费用户(尽管会有速率限制)——都能用上世界顶级AI研究助…...

EchoMimic 音频驱动照片生成视频部署测试

环境&#xff1a;Windows 11 NVIDIA RTX 3070 Laptop 16GB 我配置了阿里云的镜像&#xff0c;要实现一样的效果&#xff0c;你也可以在每一行的命令后加 -i https://mirrors.aliyun.com/pypi/simple/ 如&#xff1a; pip install package_name -i https://mirrors.aliyun.…...

React 和 JSX 中,这些符号 (=>, <, ? :)的用法

在 React 和 JSX 中&#xff0c;这些符号 (>, <, ? :) 都是 JavaScript 的语法特性&#xff0c;但它们在 JSX 中有特殊的用法和规则。下面我会详细解释每个符号的用途、语法规则以及在 React/JSX 中的具体应用。 1. 箭头函数 > (Arrow Function) 基本语法&#xff1…...

mindie1.0新特性及调试问题总结

说明 最近在ascend 310P3上使用mindie 1.0部署模型&#xff0c;跟我以前使用的mindie 1.0_rc2比&#xff0c;有很多新的特性和变化&#xff0c;导致部署出现了不少问题。这里罗列下我的发现&#xff0c;希望对其他人有用。 特性1&#xff1a;需要显式配置share_memory 报错信…...

【Axure原型案例】悦购APP产品原型设计

一、项目背景 在时尚潮流蓬勃发展的当下&#xff0c;潮流服装市场潜力巨大。悦购APP作为一款专注于潮流服装的商城APP&#xff0c;旨在为用户提供丰富多样的潮流服装选择&#xff0c;打造便捷、时尚的购物体验。本次使用Axure进行产品原型设计&#xff0c;旨在将产品理念和功能…...

React 列表渲染

你可能经常需要通过 JavaScript 的数组方法 来操作数组中的数据&#xff0c;从而将一个数据集渲染成多个相似的组件。在这篇文章中&#xff0c;你将学会如何在 React 中使用 filter() 筛选需要渲染的组件和使用 map() 把数组转换成组件数组。 1.如何通过 JavaScript 的 map() 方…...

《深度解析LightGBM与MySQL数据集成:高效机器学习的新范式》

在机器学习工程实践中&#xff0c;数据与模型的高效交互一直是制约算法性能发挥的关键瓶颈。LightGBM作为梯度提升决策树框架的杰出代表&#xff0c;其与关系型数据库MySQL的深度集成能力&#xff0c;为数据科学家提供了从原始数据到预测结果的完整解决方案。这种集成不是简单的…...

使用 node.js 和 MongoDB 编写一个简单的增删改接口 demo

文章目录 前言一、环境准备二、项目结构三、环境变量四、连接数据库3.1. connect.js 文件 五、定义数据模型5.1. BannerModel.js 文件 六、实现 server 接口6.1. server.js 文件 七、服务文件7.1. app.js 文件 八、感谢 前言 Mongoose 是一个在 Node.js 环境中操作 MongoDB 数据…...

React-06React中refs属性(字符串refs,回调形式,React.createRef() )

1.React中refs属性 绑定到render输出的任何组件上&#xff0c;通过this.ref.绑定名直接操作DOM元素或获取子组件的实例。 2.绑定refs实例 2.1 字符串refs(已经过时参考官网API) 字符串(string)的ref存在一定的效率问题 <input refinput1 type"text" placehole…...

如何在 Windows 系统上安装 n8n:两种方法详解

如何在 Windows 系统上安装 n8n&#xff1a;两种方法详解 摘要 本文详细介绍了在 Windows 系统上安装 n8n 的两种方法&#xff1a;直接安装和 Docker 部署。直接安装适合初学者&#xff0c;通过 Node.js 和 npm 快速完成&#xff1b;Docker 部署适合需要更高灵活性和可移植性…...

LETTERS(信息学奥赛一本通-1212)

【题目描述】 给出一个rowcol的大写字母矩阵&#xff0c;一开始的位置为左上角&#xff0c;你可以向上下左右四个方向移动&#xff0c;并且不能移向曾经经过的字母。问最多可以经过几个字母。 【输入】 第一行&#xff0c;输入字母矩阵行数R和列数S&#xff0c;1≤R,S≤20。 接…...

【kind管理脚本-3】脚本函数说明文档 —— 便捷使用 kind 创建、删除、管理集群脚本

下面是一份详细的说明文档&#xff0c;介绍该脚本的功能、用法及各部分的含义&#xff0c;供您参考和使用&#xff1a; Kind 集群管理脚本说明文档 此脚本主要用于管理 Kind&#xff08;Kubernetes IN Docker&#xff09;集群&#xff0c;提供创建、删除、导出 kubeconfig、加…...

【kind管理脚本-1】便捷使用 kind 创建、删除、管理集群脚本

目录结构 . ├── cluster-demo-setting │ ├── 3node-demo.yaml │ └── ingress-cluster-demo.yaml └── kind-tool.sh简单使用 # 进入防止 kind-tool.sh 的目录 $ cd kt-dir/ # 用 alias 给个别名&#xff0c;更便于使用 $ alias kt"./kind-tool.sh"…...

Python-Django+vue仓库管理系统功能说明

❥(^_-) 上千个精美定制模板,各类成品Java、Python、PHP、Android毕设项目,欢迎咨询。 ❥(^_-) 程序开发、技术解答、代码讲解、文档,💖文末获取源码+数据库+文档💖 💖软件下载 | 实战案例 💖文章底部二维码,可以联系获取软件下载链接,及项目演示视频。 本项目…...

蓝桥备赛指南(14):树的直径与重心

树的直径 什么是树的直径&#xff1f;树的直径是树上最长的一条链&#xff0c;当然这条链并不唯一&#xff0c;所以一棵树可能有多条直径。直径由两个顶点u、v来决定&#xff0c;若由一条直径&#xff08;u,v)&#xff0c;则满足一下性质&#xff1a; 1&#xff09;u、v的度数…...

Java RPC 框架是什么

Java RPC 框架是什么 Java RPC 框架 是用于在分布式系统中实现远程过程调用&#xff08;Remote Procedure Call&#xff0c;RPC&#xff09;的工具集。RPC 是一种通信协议&#xff0c;它允许程序调用位于远程服务器上的函数或方法&#xff0c;就像调用本地函数一样透明。RPC 框…...

MySQL 查询重写怎样把复杂查询变简单,让查询提高一个“速”!

目录 一MySQL 查询重写基础概念 什么是查询重写 为什么需要查询重写 二MySQL 查询重写的工作原理 查询解析阶段 重写规则应用阶段 生成执行计划阶段 查询重写流程图 三MySQL 查询重写的实现方式 使用 MySQL 内置的查询优化器 自定义查询重写插件 查询重写介绍图 四…...

HTML静态网页成品作业(HTML+CSS)——阜阳剪纸介绍设计制作(1个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有1个页面。 二、作品演示 三、代…...

Docker Swarm集群搭建与管理全攻略

文章目录 一、节点准备二、初始化 manager 节点三、管理 swarm 集群中的 worker 节点1、添加 worker 节点2、查看 worker 节点3、删除 worker 节点 四、管理 swarm 集群服务1、创建服务2、查看服务3、删除服务 五、管理 swarm 节点服务1、节点标签管理2、创建服务3、查看服务4、…...

kafka消费延迟

一、背景 PAAS1220 CRM系统 系统版本: BC Linux For Euler release 21.10 二、故障现象 grafana上kafka指标&#xff1a;指标消费延迟过高 容器内部kafka消费情况&#xff1a;没有消费者进行消费 查看webgate页面&#xff1a;应用性能--信息总览&#xff0c;查看到实例全…...