当前位置: 首页 > news >正文

嵌入模型(Embedding Models)原理详解:从Word2Vec到BERT的技术演进

一、什么是嵌入模型?

嵌入模型(Embedding Models) 是一种将高维离散数据(如文本、图像)转换为低维连续向量表示的技术。这些向量能够反映数据的语义关系,使得“语义相近的实体在向量空间中距离更近”。例如:

  • 在文本领域,“猫”和“狗”的向量相似度高于“猫”和“汽车”。

  • 在推荐系统中,用户和商品的嵌入向量可以用于预测交互行为。

二、经典嵌入模型原理

1. Word2Vec:从局部上下文学习

  • 核心思想:基于分布假设(“相似上下文的词具有相似含义”)。

  • 两种架构

    • CBOW(Continuous Bag-of-Words):通过上下文预测中心词。

    • Skip-gram:通过中心词预测上下文。

  • 训练目标:最大化上下文词的条件概率。

  • 示例king - man + woman ≈ queen

2. GloVe:全局词共现统计

  • 核心思想:结合全局词频统计与局部上下文窗口。

  • 损失函数:最小化词向量与共现矩阵的加权平方误差。

  • 公式

3. FastText:子词信息建模

  • 创新点:将词分解为字符级n-grams(如“apple” → ap, app, ppl, ple)。

  • 优势:处理未登录词和拼写变体更鲁棒。

三、上下文嵌入模型:BERT与Transformer

1. BERT:双向上下文感知

  • 核心架构:基于Transformer编码器,支持双向上下文建模。

  • 预训练任务

    • Masked Language Model (MLM):随机掩盖部分词并预测。

    • Next Sentence Prediction (NSP):判断句子对是否连续。

  • 输出:动态词向量(同一词在不同上下文中向量不同)。

2. Sentence-BERT:句子级嵌入

  • 改进点:通过Siamese网络生成句子向量。

  • 训练目标:优化相似句子对的余弦相似度。

  • 应用场景:文本相似度计算、聚类。

四、嵌入模型的应用场景

1. 自然语言处理

  • 文本分类:将文本嵌入输入分类器(如LSTM、CNN)。

  • 语义搜索:计算查询与文档的向量相似度。

  • 机器翻译:跨语言嵌入对齐(如mBERT)。

2. 推荐系统

  • 协同过滤:用户和商品嵌入向量内积预测评分。

  • 序列推荐:用户行为序列嵌入建模长期兴趣。

3. 计算机视觉

  • 图像检索:ResNet生成图像嵌入,相似图片聚类。

  • 跨模态对齐:CLIP模型联合学习文本-图像嵌入。

五、嵌入模型的评估方法

1. 内部评估

  • 词类比任务:如 man : king → woman : ?

  • 相似度计算:计算词向量余弦相似度与人工标注的相关性(如Spearman系数)。

2. 下游任务评估

  • 文本分类准确率:嵌入作为特征输入分类模型。

  • 推荐系统Hit Rate:Top-K推荐命中率。

六、挑战与未来方向

1. 当前挑战

  • 多语言与跨模态:如何统一不同语言或模态的嵌入空间?

  • 可解释性:向量空间中的维度是否对应人类可理解的语义?

  • 数据稀疏性:小样本场景下如何训练有效嵌入?

2. 前沿技术

  • 对比学习(Contrastive Learning):通过正负样本对优化嵌入空间。

  • Prompt Tuning:通过提示词引导预训练模型生成特定嵌入。

七、总结

嵌入模型是连接符号世界与向量空间的桥梁,其演进从静态词向量(Word2Vec)到动态上下文感知(BERT),不断推动NLP、推荐系统等领域的进步。未来,随着多模态与大模型的发展,嵌入技术将更加通用化和高效化。

代码示例:使用Hugging Face快速生成句子嵌入

python
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(["这是一个示例句子", "This is an example sentence"])
print(embeddings.shape)  # 输出:(2, 384)

最后 

今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1.学习路线图
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

 

 

 

相关文章:

嵌入模型(Embedding Models)原理详解:从Word2Vec到BERT的技术演进

一、什么是嵌入模型? 嵌入模型(Embedding Models) 是一种将高维离散数据(如文本、图像)转换为低维连续向量表示的技术。这些向量能够反映数据的语义关系,使得“语义相近的实体在向量空间中距离更近”。例如…...

解析塔能科技:绿色低碳智慧节能一站式破局之匙

在能源问题日益凸显的当下,绿色低碳、高效节能成为全球发展的重要课题。对各类节能方案进行深入剖析后,可以发现塔能科技的绿色低碳智慧节能一站式解决方案极具创新性与实用性,切实为众多行业面临的能源困境提供了有效解决路径。 直面行业痛点…...

el-menu箭头改为右下

问: el-menu箭头改为右下 回答: :deep(.el-menu){.el-sub-menu .el-sub-menu__icon-arrow{transition: transform 0.3stransform: rotateZ(-90deg) !important;}/* 展开状态:箭头向下 */.el-sub-menu.is-opened .el-sub-menu__icon-arrow,…...

[特殊字符][特殊字符] HarmonyOS相关实现原理聊聊![特殊字符][特殊字符]

Hey小伙伴们~ 今天咱们来聊聊HarmonyOS的实现原理吧!🤔💡 虽然直接看源代码是最直接的方式,但是OpenHarmony项目的开源进度有点让人捉急呢… 不过没关系,我们可以通过已经开放的SDK、IDE、开发示例和编译产物来一探究竟…...

RTSP播放器实现回调RGB|YUV给视觉算法,然后二次编码推送到RTMP服务

引言 在本文中,我们将介绍如何基于大牛直播SDK构建一个功能强大的RTSP|RTMP播放器,该播放器利用自定义SDK解码视频、处理RGB帧,并将其推送到RTMP流中进行直播。这个解决方案非常适合需要在实时视频流中集成视觉算法的场景,在处理…...

补题【Darkness+Different Billing+Dice Game】

文章目录 1.Darkness2.Different Billing3.Dice Game 1.Darkness 题目来源:Darkness I 这题不难想,通过作图我们发现 当nm时直接取对角线就好 当n!m时,取m,n的最小值,那么最小值的这个正方形都可以被填为黑色,剩下的…...

卷积神经网络:视觉炼金术士的数学魔法

🎮 “你以为《赛博朋克2077》的夜之城是画出来的?不,是卷积神经网络’卷’出来的!” 🎮 一、卷积:像素世界的连连看大师 想象你拿着一张《蒙娜丽莎》的拼图——卷积核就像你手中的拼图碎片,在画…...

Python:简介,Python解释器安装,第一个Python程序,开发环境(PyCharm安装和配置、Sublime安装和配置)

目录 Python简介 Python解释器的安装(Windows) 下载和安装Python安装包(解释器) 验证Python安装情况 第一个Python程序 单行运行 多行运行 Python开发环境(安装和配置PyCharm工具) 安装PyCharm Py…...

CE第二次作业

实验要求: 1.配置ssh实现A,B主机互相免密登录 2.配置nginx服务,通过多ip区分多网站 一,配置ssh实现A,B主机互相免密登录 步骤 在主机 A 上生成 SSH 密钥对。把主机 A 的公钥复制到主机 B。在主机 B 上重复上述步骤…...

【阿里云大模型高级工程师ACP习题集】2.4 自动化评测答疑机器人的表现(⭐️⭐️⭐️ 重点章节!!!)

习题集: 【单选题】在使用Ragas评估RAG应用时,Answer Correctness指标计算中,语义相似度是通过以下哪种方式得到的?( ) A. 大模型直接判断 B. 计算文本向量的余弦相似度 C. 对比文本词汇重合度 D. 统计文本字数差异 【多选题】当Context recall指标得分较低时,可采取的优…...

多头注意力

Multi-Head Attention 论文地址 https://arxiv.org/pdf/1706.03762 多头注意力介绍 多头注意力是Transformer模型的关键创新,通过并行执行多个独立的注意力计算单元,使模型能够同时关注来自不同表示子空间的信息。每个注意力头学习不同的语义特征&#x…...

【leetcode100】目标和

1、题目描述 给你一个非负整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 或 - ,然后串联起所有整数,可以构造一个 表达式 : 例如,nums [2, 1] ,可以在 2 之前添加 ,在 1 之前添加 - …...

动态哈希映射深度指南:从基础到高阶实现与优化

哈希表是计算机科学中最高效的数据结构之一,而动态哈希映射通过智能扩容机制,在实时系统中展现出极强的适应性。本文将深入探讨其实现细节,结合主流框架源码解析,并给出可落地的性能优化方案。 一、动态哈希的数学本质 1. 哈希函…...

leetcode 2799. 统计完全子数组的数目 中等

给你一个由 正 整数组成的数组 nums 。 如果数组中的某个子数组满足下述条件,则称之为 完全子数组 : 子数组中 不同 元素的数目等于整个数组不同元素的数目。 返回数组中 完全子数组 的数目。 子数组 是数组中的一个连续非空序列。 示例 1&#xff…...

使用RabbitMQ实现判题功能

这次主要选用RabbitMQ消息队列来对判题服务和题目服务解耦,题目服务只需要向消息队列发送消息,判题服务从消息队列中取信息去执行判题,然后异步更新数据库即可。 五一宝宝请快点跑~~~~~ 先回顾一下RabbitMQ (1)引入依…...

无过拟合的记忆:分析大语言模型的训练动态

Kushal Tirumala⇤ Aram H. Markosyan⇤ Luke Zettlemoyer Armen Aghajanyan Meta AI 研究 {ktirumala,amarkos,lsz,armenag}fb.com 原文链接:[2210.09262] Physics-Driven Convolutional Autoencoder Approach for CFD Data Compressions 摘要 尽管超大语言模型…...

【Java面试笔记:进阶】16.synchronized底层如何实现?什么是锁的升级、降级?

在 Java 中,synchronized 关键字的底层实现依赖于 对象头(Object Header) 和 监视器锁(Monitor) 机制,并通过 锁的状态升级(Lock Escalation) 来优化同步性能。 1. synchronized 的底层实现 synchronized 的同步机制基于 Monitor 对象,它是同步的基本实现单元。 通过…...

python可视化:北方城市人口流动趋势分析1

python可视化:北方城市人口流动趋势分析1 斑点鱼在做销售数据分析时发现北京天津的同比下滑明显,客流下滑明显。而山东保定的客流同比上升。引起了斑点鱼对于北方人口流动的好奇。 所以本文将分析2025年北方地区(北京、天津、河北、山东、山西、辽宁等)…...

wps excel 常用操作

数据分列 对于有分隔规律的内容,可以通过分隔符将该内容进行分列 例如,以下字符串,可使用Excel对包含IP地址、数据库类型、环境、负责人和日期的字符串进行分列: 192.168.175.211-MySQL 数据库-DEV-李华-2025.06.30 将以上字符串…...

云智融合普惠大模型AI,政务服务重构数智化路径

2025年是“十四五”收官之年,数字政府和政务数智化作为“数字中国”建设的重点,已经取得了显著成效。根据《联合国电子政务调查报告2024》,我国电子政务发展指数全球排名第35位,与2022年相比提升8个名次;其中&#xff…...

全行业软件定制:APP/小程序/系统开发与物联网解决方案

在数字化浪潮席卷全球的今天,软件已经渗透到我们生活的方方面面,成为推动社会进步的重要力量。作为一家专注于专业软件定制开发的公司,哲科软件深知每一个行业、每一个企业都有其独特的需求和痛点。因此,我们致力于提供个性化软件…...

Java虚拟机(JVM)家族发展史及版本对比

Java虚拟机(JVM)家族发展史及版本对比 一、JVM家族发展史 1. 早期阶段(1996-2000) Classic VM(Java 1.0-1.1): 厂商:Sun Microsystems(Oracle前身)。特点&…...

电脑怎么强制退出程序回到桌面 详细操作步骤

电脑日常使用过程中,我们有时会遇到程序无响应或卡死的情况,这时需要采取措施强制关闭这些程序才能保持电脑的正常工作和运行。那么,电脑如何强制退出程序呢?其实方法有很多种,下面便为大家介绍几种电脑强制关闭程序的…...

蓝牙 LE:安全模式和程序说明(蓝牙中的网络安全)

在蓝牙低功耗 (BLE) 中,安全性是一个多方面的难题。了解 BLE 的三种主要安全模式以及五个关键的 BLE 安全程序。 毫无疑问,低功耗蓝牙 (BLE) 技术的迅猛发展为我们的生活带来了更多便利。然而,随着低功耗蓝牙设备的普及,人们对其安全性的担忧也日益加剧。 与普遍看法相反…...

低代码平台开发胎压监测APP

项目介绍 该项目是一个利用Flutter框架和蓝牙技术实现轮胎压力实时监测的应用。 主要功能如下: 用于接收蓝牙模块传输的胎压数据,并实时显示胎压值。APP对接收到的胎压数据进行处理,如单位转换、数据滤波等,然后将处理后的胎压值…...

GNOME扩展入门:日期时间

Getting Started | GNOME JavaScript 1.扩展路径 ~/.local/share/gnome-shell/extensions/ 2.新建文件夹 datetimesonichy 3.metadata.json {"uuid": "datetimesonichy","name": "datetime","description": "Dis…...

NLP高频面试题(五十二)——深度学习优化器详解

在深度学习的训练过程中,各种基于梯度的优化器肩负着寻找损失函数最优解的重任。最基础的梯度下降法通过沿着损失函数负梯度方向迭代更新参数,实现对模型参数的优化;而随机梯度下降(SGD)则以更高的计算效率和内存利用率在大规模数据集上大放异彩,但也因更新噪声大、易陷入…...

SLAM常用地图对比示例

序号地图类型概述1格栅地图将现实环境栅格化,每一个栅格用 0 和 1 分别表示空闲和占据状态,初始化为未知状态 0.52特征地图以点、线、面等几何特征来描绘周围环境,将采集的信息进行筛选和提取得到关键几何特征3拓扑地图将重要部分抽象为地图&…...

Web常见攻击方式及防御措施

一、常见Web攻击方式 1. 跨站脚本攻击(XSS) 攻击原理:攻击者向网页注入恶意脚本,在用户浏览器执行 存储型XSS:恶意脚本存储在服务器(如评论区) 反射型XSS:恶意脚本通过URL参数反射给用户 DOM型XSS&…...

java.lang.IllegalArgumentException: URI is not hierarchical报错

java.lang.IllegalArgumentException: URI is not hierarchical Thread.currentThread().getContextClassLoader("类的全路径").getClass().newInstance()一个类的静态块初始化异常了,后面调用这个类创建对象会报错吗? 是的,如果一…...

118. 杨辉三角

目录 一、问题描述 二、解题思路 三、代码 四、复杂度分析 一、问题描述 给定一个非负整数 numRows,生成「杨辉三角」的前 numRows 行。 在「杨辉三角」中,每个数是它左上方和右上方的数的和。 二、解题思路 每一行的第一个和最后一个元素是 1&…...

Anything V4/V5 模型汇总

​​​​​​二次元风格生成扩散模型-anything-v4.0Stable Diffusion anything-v5-PrtRE模型介绍及使用深度探索 Anything V5:安装与使用全攻略anything-v5x0.25少儿插画_v1xyn-ai/anything-v4.0...

网络原理 - 7(TCP - 4)

目录 6. 拥塞控制 7. 延时应答 8. 捎带应答 9. 面向字节流 10. 异常情况 总结: 6. 拥塞控制 虽然 TCP 有了滑动窗口这个大杀器,就能够高效可靠的发送大量的数据,但是如果在刚开始阶段就发送大量的数据,仍然可能引起大量的…...

探秘 FFmpeg 版本发展时间简史

前言 FFmpeg 是一套开源的计算机程序,主要用于记录、转换数字音频、视频,并能将其转化为流。它提供了录制、转换以及流化音视频的完整解决方案,在多媒体处理领域应用广泛。很多小伙伴们想系统的学习FFmpeg,还是有必要了解下FFmpeg的版本发展历史,感受它每次的版本迭代是如…...

5.3.1 MvvmLight以及CommunityToolkit.Mvvm介绍

MvvmLight、CommunityToolkit.Mvvm是开源包,他们为实现 MVVM(Model-View-ViewModel)模式提供了一系列实用的特性和工具,能帮助开发者更高效地构建 WPF、UWP、MAUI 等应用程序。 本文介绍如下: 一、使用(旧)的MvvmLight库 其特点如下,要继承的基类是ViewModelBase;且使用…...

PCB常见封装类型

1. 电阻、电容、电感封装 2. 二极管、三极管封 3. 排阻类器件(8脚、16脚)封装 4. SO类器件(间距有1.27、2.54mm等)封装 5. QFP类器件封装(四方扁平封装) 结构:引脚分布在封装的四个侧面&#…...

一键多环境构建——用 Hvigor 玩转 HarmonyOS Next

引言 在 HarmonyOS Next 的应用开发中,常常需要针对不同环境(测试、预发、线上)或不同签名(调试、正式)输出多个 APP/HAP 包。虽然 HarmonyOS 提供了多目标构建(Multi-Target Build)能力&#…...

SQLPandas刷题(LeetCode3451.查找无效的IP地址)

描述:LeetCode3451.查找无效的IP地址 表:logs ---------------------- | Column Name | Type | ---------------------- | log_id | int | | ip | varchar | | status_code | int | ---------------------- log_id 是这张表的唯…...

【leetcode100】组合总和Ⅳ

1、题目描述 给你一个由 不同 整数组成的数组 nums ,和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。 题目数据保证答案符合 32 位整数范围。 示例 1: 输入:nums [1,2,3], target 4 输出&#xff1…...

2020-06-23 暑期学习日更计划(机器学习入门之路(资源汇总)+概率论)

机器学习入门 前言 说实话,机器学习想学好真心不易,很多时候都感觉自己学得云里雾里。以前一段时间自己为了完成毕业设计,在机器学习的理论部分并没有深究,仅仅通过TensorFlow框架力求快速实现模型。现在来看,很多时候…...

Linux操作系统--基础I/O(上)

目录 1.回顾C文件接口 stdin、stdout、stderr 2.系统文件I/O 3.接口介绍 4.open函数返回值 5.文件描述符fd 5.1 0&1&2 1.回顾C文件接口 hello.c写文件 #include<stdio.h> #include<string.h>int main() {FILE *fp fopen("myfile","…...

Spring boot 中的IOC容器对Bean的管理

Spring Boot 中 IOC 容器对 Bean 的管理&#xff0c;涵盖从容器启动到 Bean 的生命周期管理的全流程。 步骤 1&#xff1a;理解 Spring Boot 的容器启动 Spring Boot 的 IOC 容器基于 ApplicationContext&#xff0c;在应用启动时自动初始化。 入口类&#xff1a;通过 SpringB…...

ARINC818协议一些说明综述

关键术语 航空总线技术 光纤通道层次架构 光纤通道拓扑结构 FC-AV协议&#xff0c;架构&#xff0c;容器系统 ARINC818协议&#xff0c;容器 ADVB帧映射&#xff0c;帧格式 机载视频处理系统对视频数据进行实时处理和记录。 分辨率&#xff1a;1080p,4k,8k视频技术 FC-AV技术是…...

Turso:一个基于 libSQL的分布式数据库

Turso 是一个完全托管的数据库平台&#xff0c;支持在一个组织中创建高达数十万个数据库&#xff0c;并且可以复制到任何地点&#xff0c;包括你自己的服务器&#xff0c;以实现微秒级的访问延迟。你可以通过Turso CLI&#xff08;命令行界面&#xff09;管理群组、数据库和API…...

2025.5.4机器学习笔记:PINN文献阅读

2025.5.4周报 文献阅读题目信息摘要创新点网络架构实验结论不足以及展望 文献阅读 题目信息 题目&#xff1a; Physics-Informed Neural Network Approach for Solving the One-Dimensional Unsteady Shallow-Water Equations in Riverine Systems期刊&#xff1a; Journal o…...

一行命令打开iOS模拟器

要在 Mac 命令行打开 iPhone 15 Pro 模拟器&#xff0c;需满足已安装 Xcode 这一前提条件&#xff0c;以下是具体操作步骤&#xff1a; 步骤一&#xff1a;列出所有可用模拟器设备 打开终端&#xff08;Terminal&#xff09;&#xff0c;输入并执行以下命令&#xff0c;用于列…...

java面向对象编程【基础篇】之基础语法

目录 &#x1f680;前言&#x1f31f;构造器&#x1f4af;案例 &#x1f914;this关键字&#x1f4af;使用this调用本类中的属性&#x1f4af;使用this调用构造器&#x1f4af;this表示当前对象 &#x1f99c;封装&#x1f4af;合理隐藏&#x1f4af;合理暴露 &#x1f427;实体…...

跑MPS产生委外采购申请(成品)

问题&#xff1a;跑MPS产生委外采购申请&#xff08;成品&#xff09;&#xff0c;更改BOM和跑MRP&#xff0c;但物料需求清单中无新增物料复合膜的需求。截图如下&#xff1a; 解决方法&#xff1a;更改委外采购申请的批准日期为BOM的生效日和重新展开bom。 重新展开后&#x…...

[flutter]切换国内源(window)

如题&#xff0c;切换到国内源避免总是连不上google导致卡住的问题。 临时切换到国内&#xff1a; cmd set PUB_HOSTED_URLhttps://pub.flutter-io.cn set FLUTTER_STORAGE_BASE_URLhttps://storage.flutter-io.cnpower shell $env:PUB_HOSTED_URL "https://pub.flut…...

学习海康VisionMaster之顶点检测

一&#xff1a;进一步学习了 今天学习下VisionMaster中的顶点检测&#xff1a;可检测图像指定区域内的顶点&#xff0c;并输出顶点坐标等信息。该模块常用于检测目标物体的顶点 二&#xff1a;开始学习 1&#xff1a;什么是顶点检测&#xff1f; 一个不是很规则的物体需要检测…...