Milvus(7):Schema、主字段和自动识别
1 Schema
Schema 定义了 Collections 的数据结构。在创建一个 Collection 之前,你需要设计出它的 Schema。本页将帮助你理解 Collections 模式,并自行设计一个示例模式。
在 Zilliz Cloud 上,Collection Schema 是关系数据库中一个表的组合,它定义了 Zilliz Cloud 如何组织 Collection 中的数据。设计良好的 Schema 至关重要,因为它抽象了数据模型,并决定能否通过搜索实现业务目标。此外,由于插入 Collections 的每一行数据都必须遵循 Schema,因此有助于保持数据的一致性和长期质量。从技术角度看,定义明确的 Schema 会带来组织良好的列数据存储和更简洁的索引结构,从而提升搜索性能。 一个 Collection Schema 有一个主键、最多四个向量字段和几个标量字段。
搜索系统的数据模型设计包括分析业务需求,并将信息抽象为模式表达的数据模型。例如,搜索一段文本必须通过 "嵌入 "将字面字符串转换为向量并启用向量搜索,从而实现 "索引"。除了这一基本要求外,可能还需要存储出版时间戳和作者等其他属性。有了这些元数据,就可以通过过滤来完善语义搜索,只返回特定日期之后或特定作者发表的文本。您还可以检索这些标量与主文本,以便在应用程序中呈现搜索结果。每个标量都应分配一个唯一标识符,以整数或字符串的形式组织这些文本片段。这些元素对于实现复杂的搜索逻辑至关重要。
1.1 创建 Schema
以下代码片段演示了如何创建模式。
from pymilvus import MilvusClient, DataTypeschema = MilvusClient.create_schema()
1.2 添加主字段
Collections 中的主字段唯一标识一个实体。它只接受Int64或VarChar值。以下代码片段演示了如何添加主字段。
schema.add_field(field_name="my_id",datatype=DataType.INT64,# highlight-startis_primary=True,auto_id=False,# highlight-end
)
添加字段时,可以通过将is_primary
属性设置为True
来明确说明该字段是主字段。主字段默认接受Int64值。在这种情况下,主字段值应为整数,类似于12345
。如果选择在主字段中使用VarChar值,则其值应为字符串,类似于my_entity_1234
。也可以将autoId
属性设置为True
,使 Zilliz Cloud 在插入数据时自动分配主字段值。
1.3 添加向量字段
向量字段接受各种稀疏和密集向量嵌入。在 Zilliz Cloud 上,您可以向 Collections 添加四个向量字段。以下代码片段演示了如何添加向量字段。
schema.add_field(field_name="my_vector",datatype=DataType.FLOAT_VECTOR,# highlight-next-linedim=5
)
上述代码片段中的dim
参数表示向量字段中要保存的向量嵌入的维数。FLOAT_VECTOR
值表示向量字段持有 32 位浮点数列表,通常用于表示反比例。除此之外,Zilliz Cloud 还支持以下类型的向量嵌入:
FLOAT16_VECTOR
:这种类型的向量场保存一个 16 位半精度浮点数列表,通常适用于内存或带宽受限的深度学习或基于 GPU 的计算场景。BFLOAT16_VECTOR
:这种类型的向量字段保存 16 位浮点数列表,精度有所降低,但指数范围与 Float32 相同。这种类型的数据常用于深度学习场景,因为它能在不明显影响精度的情况下减少内存使用量。BINARY_VECTOR
:这种类型的向量场保存着一个 0 和 1 的列表。它们是图像处理和信息检索场景中表示数据的紧凑特征。SPARSE_FLOAT_VECTOR
:这种类型的向量场可保存非零数字及其序列号列表,用于表示稀疏向量嵌入。
1.4 添加标量字段
在常见情况下,可以使用标量字段来存储存储在 Milvus 中的向量嵌入的元数据,并通过元数据过滤进行 ANN 搜索,以提高搜索结果的正确性。Zilliz Cloud 支持多种标量字段类型,包括VarChar、Boolean、Int、Float、Double、Array 和JSON。
1.4.1 添加字符串字段
在 Milvus 中,您可以使用 VarChar 字段来存储字符串。
schema.add_field(field_name="my_varchar",datatype=DataType.VARCHAR,# highlight-next-linemax_length=512
)
1.4.2 添加数字字段
Milvus 支持的数字类型有Int8
,Int16
,Int32
,Int64
,Float
和Double
。
schema.add_field(field_name="my_int64",datatype=DataType.INT64,
)
1.4.3 添加布尔字段
Milvus 支持布尔字段。以下代码片段演示了如何添加布尔字段。
schema.add_field(field_name="my_bool",datatype=DataType.BOOL,
)
1.4.4 添加 JSON 字段
JSON 字段通常存储半结构化的 JSON 数据。
schema.add_field(field_name="my_json",datatype=DataType.JSON,
)
1.4.5 添加数组字段
数组字段存储元素列表。数组字段中所有元素的数据类型应相同。
schema.add_field(field_name="my_array",datatype=DataType.ARRAY,element_type=DataType.VARCHAR,max_capacity=5,max_length=512,
)
2 主字段和自动识别
主字段唯一标识一个实体。本页介绍如何添加两种不同数据类型的主字段,以及如何启用 Milvus 自动分配主字段值。在 Collections 中,每个实体的主键都应该是全局唯一的。添加主字段时,需要显式地将其数据类型设置为VARCHAR或INT64。将其数据类型设置为INT64表示主键应为整数,类似于12345
;将其数据类型设置为VARCHAR表示主键应为字符串,类似于my_entity_1234
。
你也可以启用AutoID,让 Milvus 自动为进入的实体分配主键。在集合中启用AutoID后,插入实体时不要包含主键。Collections 中的主字段没有默认值,也不能为空。
2.1 使用 Int64 主键
要使用 Int64 类型的主键,需要将datatype
设置为DataType.INT64
,将is_primary
设置为true
。如果还需要 Milvus 为进入的实体分配主键,还需要将auto_id
设置为true
。
from pymilvus import MilvusClient, DataTypeschema = MilvusClient.create_schema()schema.add_field(field_name="my_id",datatype=DataType.INT64,# highlight-startis_primary=True,auto_id=True,# highlight-end
)
2.2 使用 VarChar 主键
要使用 VarChar 主键,除了将data_type
参数值更改为DataType.VARCHAR
外,还需要为字段设置max_length
参数。
schema.add_field(field_name="my_id",datatype=DataType.VARCHAR,# highlight-startis_primary=True,auto_id=True,max_length=512,# highlight-end
)
相关文章:
Milvus(7):Schema、主字段和自动识别
1 Schema Schema 定义了 Collections 的数据结构。在创建一个 Collection 之前,你需要设计出它的 Schema。本页将帮助你理解 Collections 模式,并自行设计一个示例模式。 在 Zilliz Cloud 上,Collection Schema 是关系数据库中一个表的组合&a…...
Liunx服务上MySQL服务导致CPU炸了,使用kill -9 mysqld进程id后,无法启动MySQL
1.top命令后,可以看到mysqld沾满了cpu 2.然后我使用了kill -9 16594,杀死了mysqld进程 3.之后,查看mysql服务状态,发现对应的 www/serve/mysqld 目录不存在 sudo systemctl status mysqld4.使用命令查看操作 www/serve 目录的历…...
Java使用IText7动态生成带审批文本框的PDF文档
Java使用IText7动态生成带审批文本框的PDF文档 文章目录 Java使用IText7动态生成带审批文本框的PDF文档1.构建第一个框的起始坐标2.渲染第一个框3.渲染其他的审批框 测试结果示例 实现思路 使用Canvas进行相对定位和绝对定位来确定文本框内文字位置,用Rectangle通…...
【音视频】AVIO输入模式
内存IO模式 AVIOContext *avio_alloc_context( unsigned char *buffer, int buffer_size, int write_flag, void *opaque, int (*read_packet)(void *opaque, uint8_t *buf, int buf_size), int (*write_packet)(void *opaque, uint8_t *buf, int buf_size), int64_t (*seek)(…...
Android中的多线程
线程池 在编程中经常会使用线程来异步处理任务,但是每个线程的创建和销毁都需要一定的开销。如果每次执行一个任务都需要开一个新线程去执行,则这些线程的创建和销毁将消耗大量的资源。并且线程都是“各自为政”,很难对其进行控制,…...
http://noi.openjudge.cn/——2.5基本算法之搜索——200:Solitaire
文章目录 题目宽搜代码总结 题目 总时间限制: 5000ms 单个测试点时间限制: 1000ms 内存限制: 65536kB 描述 Solitaire is a game played on a chessboard 8x8. The rows and columns of the chessboard are numbered from 1 to 8, from the top to the bottom and from left t…...
deep鼠标跟随插件
效果图 实现 首先打开深度系统终端,键入以下安装命令: sudo apt install oneko安装完成后,执行以下命令启动: oneko启动后,就会出现小猫咪,如果终端不关(服务不关),会…...
Verilog 语法 (二)
在掌握了 Verilog 的基础语法和常用程序框架之后,本节将带大家深入学习一些 高级设计知识点。这些内容包括: 阻塞赋值()与非阻塞赋值(<)的区别及使用场景; assign 和 always 语句的差异&am…...
大数据开发环境的安装,配置(Hadoop)
1. 三台linux服务器的安装 1. 安装VMware VMware虚拟机软件是一个“虚拟PC”软件,它使你可以在一台机器上同时运行二个或更多Windows、DOS、LINUX系统。与“多启动”系统相比,VMWare采用了完全不同的概念。 我们可以通过VMware来安装我们的linux虚拟机…...
唯创安全:从传统到智能,工厂智能叉车AI防撞系统解决方案
一、叉车安全管理现状痛点分析 1、司机管理难题 • 违规操作频发:无证驾驶、疲劳驾驶(如作业中吸烟/玩手机)及不系安全带现象普遍,事故风险与法律风险双高。 • 资源分配失衡:未经授权使用导致车辆调度混乱,影响作业效率。 2、…...
Windows与CasaOS跨平台文件同步:SyncThing本地部署与同步配置流程
文章目录 前言1. 添加镜像源2. 应用安装测试3. 安装syncthing3.1 更新应用中心3.2 SyncThing安装与配置3.3 Syncthing使用演示 4. 安装内网穿透工具5. 配置公网地址6. 配置固定公网地址 推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽…...
基于Django的个性化股票交易管理系统
本项目基于Python3.6、Django2.1、MySql8.0(最好不要使用5.6,字符集等方面均不兼容,否则导入数据库会出错)与股票信息工具包TuShare实现。 创建或激活对应Python开发环境 这里使用了conda来管理环境,强烈推荐…...
Python图像变清晰与锐化,调整对比度,高斯滤波除躁,卷积锐化,中值滤波钝化,神经网络变清晰
本次使用图片来源于百度 import cv2 import time import numpy as np import pywtfrom PIL import Image, ImageEnhance#-i https://pypi.mirrors.ustc.edu.cn/simpledef super_resolution(input_path, output_path, model_path, scale4):# 初始化超分辨率模型sr cv2.dnn_su…...
带根线就无敌?光纤无人机如何成为电子战的终结者
在硝烟弥漫的俄乌战场上,一条超细光缆正在悄然改变战争规则。2024年俄军首次在前线部署光纤FPV无人机,其通过释放光纤线缆传输数据,成功对乌军装甲目标实施精准打击。乌方同时也迅速跟进,于 2025 年初量产光纤FPV 无人机以突破俄军…...
windows 和ubuntu静态路由配置
目录 windows 1 查看当前路由表 2 添加静态路由 3 删除路由 ubuntu route命令(传统方式) 使用ip指令(推荐) ubuntu永久路由配置 子网掩码解释 windows 1 查看当前路由表 -4 只关注ipv4,-6 用于指定显示 IPv6 …...
《深入理解计算机系统》阅读笔记之第四章 处理器体系结构
概述 备注:怎么感觉讲的还是《编码》这本书里面提到的知识点?...
vue项目前后端分离设计
在Vue前端架构中,通过分层结构和模块化设计实现高效的前后端分离,需要系统性规划各层职责、接口管理和数据流控制。以下是结合业界最佳实践的完整方案: 一、分层架构设计 1. 分层结构(自上而下) 层级职责示例技术实现…...
Steam游戏服务器攻防全景解读——如何构建游戏级抗DDoS防御体系?
Steam游戏服务器的DDoS攻防体系设计,从协议层漏洞利用到业务连续性保障,深度拆解反射型攻击、TCP状态耗尽等7类威胁场景。基于全球15个游戏厂商攻防实战数据,提供包含边缘节点调度、AI流量指纹识别、SteamCMD加固配置的三维防护方案ÿ…...
七、web自动化测试03
目录 一、xpath定位1. 属性定位2.属性与逻辑结合3. 属性与层级结合 二、cookie1. 验证码处理方案2. cookie3. 案例:cookie跳过登录 三、pytest1. 介绍及安装2. 定义用例3. 执行测试用例3.1 命令行运行3.2 配置文件运行3.3 项目配置文件config.py 4. 参数化5. 断言6.…...
企业级AI开发利器:Spring AI框架深度解析与实战
企业级AI开发利器:Spring AI框架深度解析与实战 一、前言:Java生态的AI新纪元 在人工智能技术爆发式发展的今天,Java开发者面临着一个新的挑战:如何将大语言模型(LLMs)和生成式AI(GenAI&#…...
docker-compose安装RustDesk远程工具
以下是使用 docker-compose 部署 RustDesk 服务端(ID服务器 hbbs + 中继服务器 hbbr)的完整流程: 1. 创建 docker-compose.yml mkdir -p ~/rustdesk && cd ~/rustdesk vi docker-compose.ymlversion: 3.8services...
Qt基础009(HTTP编程和QJSON)
文章目录 软件开发网络架构BS架构/CS架构 HTTP基本概念QT的HTTP编程JSON数据概述QT生成JSON数据QT解析JSON数据 软件开发网络架构 BS架构/CS架构 在计算机网络和软件开发中,CS架构(Client-Server Architecture,客户端-服务器架构&#x…...
学习整理在centos7上安装mysql8.0版本教程
学习整理在centos7上安装mysql8.0版本教程 查看linux系统版本下载mysql数据库安装环境检查解压mysql安装包创建MySQL需要的目录及授权新增用户组新增组用户配置mysql环境变量编写MySQL配置文件初始化数据库初始化msyql服务启动mysql修改初始化密码配置Linux 系统服务工具,使My…...
第R4周:LSTM-火灾温度预测
文章目录 一、前期准备工作1.导入数据2. 数据集可视化 二、构建数据集1. 数据集预处理2. 设置X, y3. 划分数据集 三、模型训练1. 构建模型2. 定义训练函数3. 定义测试函数4. 正式训练模型 四、模型评估1. Loss图片2. 调用模型进行预测3. R2值评估 总结: ἶ…...
Linux文件管理完全指南:从命名规则到压缩解压
一、文件命名规则:避免踩坑的关键 1. 允许的字符与命名建议 允许字符:除 / 外所有字符均可使用,但需避免 <, >, ?, * 等特殊符号。 命名建议: 统一使用小写字母(Linux严格区分大小写)。 用下划线…...
react和vue的区别之一
前言 小编在学react的时候,发现react在使用ant-design组件的from表单,有点惊奇,跟vue差别确实有点大。 1-React 与 Vue 表单处理对比指南 核心差异概述 特性VueReact (Ant Design Form)数据定义必须显式定义 reactive/ref通过 name 隐式定…...
电力系统最小惯性常数解析
1. 什么是惯性常数? 电力系统的惯性常数(Inertia Constant)可以理解为系统抵抗频率突变的能力,类似于“惯性”。传统电力系统中,同步发电机(如火电厂)的旋转部件(如涡轮、转子&…...
Linux软硬链接和动静态库(20)
文章目录 前言一、软硬链接基本认知实现原理应用场景取消链接ACM时间 二、动静态库认识库库的作用 三、制作静态库静态库的打包静态库的使用 四、制作动态库动态区的打包动态库的链接与使用动态库的链接原理 总结 前言 我有款非常喜欢玩的游戏,叫做《饥荒》…...
FX10(CYUSB4014)USB3.2(10Gbps)开发笔记分享(1):硬件设计与开发环境搭建
作者:Hello,Panda 大家早上好,中午好,下午好,晚上好,熊猫君又来了。这次计划做一个连载,大概6期左右,主要介绍英飞凌最新的FX5/10/20的器件应用。目前,熊猫君手上调试的…...
【工具变量】上市公司-“链主“企业相关数据(2001-2024年)
上市公司的"链主企业"(Anchor Enterprise)指在其供应链中具有较较高中心度的公司。这些公司通过其规模、技术优势、资源整合能力等,影响和带动整个产业链的发展与运作。这些企业往往是供应链中最重要的节点,其决策和行为…...
Qt知识点1『16进制数值与文本互相转换』
工作中可能会遇到QByteArray保存着16进制的数据,例如网络传输中的数据在抓包软件下就会显示为16进制的文本格式。本次是在串口通讯首发消息时遇到的这类转换问题,做一下记录。 一、16进制的文本字符串如何转换数值 解决:形如QString("0…...
MongoDB Shard Cluster
# MongoDB Shard Cluster 集群规划 132上面单独安装mongos 在 1,2,3上面安装shard1和config 在 4,5,6上面安装shard2 节点host如下 172.20.192.20 member1.blockin.ai 172.20.192.21 member2.blockin.ai 172.20.192.31 member3.blockin.ai …...
Pycharm(六):可变与不可变类型
一、引用 在java中既有值传递,也有引用传递,我们思考一下在python中值的传递方式是哪种类型呢? 答案是引用传递。 概述: Python中存储变量是需要占用内存空间的,为了更好地管理这些空间,每块空间都是有自己的地址值的。 格式: id(变量名/值) 可以查看变量/…...
每日算法-250425
每日算法打卡 - 2025年4月25日 记录今天完成的几道 LeetCode 算法题,分享解题思路和代码。 2178. 拆分成最多数目的正偶数之和 题目 解题思路 贪心算法 解题过程 题目要求我们将一个偶数 finalSum 拆分成尽可能多的 不同 正偶数之和。 为了使拆分出的数字数量…...
github把自己的jar包发送到maven中央仓库
maven中央仓库注册账号 《Maven中央仓库官网》 注册账号 直接使用github账号 他会自动帮我们创建一个github的命名空间 获取自己的User Token 切记立马复制、保存username和password,后面maven的settings.xml会用到,因为这个页面会在一分钟以后自动关闭…...
链表系列一>两两交换链表中的结点
目录 题目:解析:代码: 题目: 链接: link 解析: 代码: /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int va…...
【深度强化学习 DRL 快速实践】异步优势演员评论员算法 (A3C)
Asynchronous Advantage Actor-Critic A3C (2016, DeepMind) 异步优势演员评论员算法 (A3C): 继承 actor-critic 的优势,同时通过异步多线程 (团队作战) 加速了训练过程 model-free, actor-critic 核心改进点说明异步并行训练 – Asynchronous (无经验回放)通过多个…...
240425 leetcode exercises
240425 leetcode exercises jarringslee 文章目录 240425 leetcode exercises[147. 对链表进行插入排序](https://leetcode.cn/problems/insertion-sort-list/)🔁插入排序 [1721. 交换链表中的节点](https://leetcode.cn/problems/swapping-nodes-in-a-linked-list…...
找三维gis开发的工作,Mapbox要学到什么程度?
Mapbox 是⼀个可以创建各种⾃定义地图的⽹站,如 Pinterest、Evernote、Github、500px 等⼤牌都使⽤ Mapbox 创建⾃⼰的地图,Mapbox 宣称要构建世界上最漂亮的地图。已为 Foursquare、Pinterest、Evernote、⾦融时报、天⽓频道、优步科技 等公司的⽹站提供…...
ThinkPHP6模型中多组条件逻辑或Or查询的使用
直接进入正题,如我们的查询条件是这样的: (age > 20 and job_id 3) or (sex 1 and age < 20) 上面两组数据之间是 Or 的关系。 可使用两个闭包进行查询,代码如下: $map1 [age > 30,sex > $id,];$map2 …...
《AI大模型趣味实战》基于RAG向量数据库的知识库AI问答助手设计与实现
基于RAG向量数据库的知识库AI问答助手设计与实现 引言 随着大语言模型(LLM)技术的快速发展,构建本地知识库AI问答助手已成为许多企业级应用的需求。本研究报告将详细介绍如何基于FLASK开发一个使用本地OLLAMA大模型底座的知识库AI问答助手&…...
netcore8.0项目发布到centos,利用nginx反向代理(宝塔面板篇)
1、发布netcore项目 在program.cs中配置nginx代理 // 添加Nginx反向代理支持 builder.Services.Configure<ForwardedHeadersOptions>(options > {options.ForwardedHeaders ForwardedHeaders.XForwardedFor | ForwardedHeaders.XForwardedProto;options.KnownNetwo…...
项目笔记1:通用 Service的常见方法
通用 Service 通常封装了常见的业务逻辑操作,以提高代码的复用性和可维护性。不同的框架和业务场景下,通用 Service 的方法会有所差异,但一般都会包含一些基本的增删改查(CRUD)操作,以下为你详细介绍&#…...
VUE3父子组件defineModel动态值获取及处理
需求:子组件获取父组件value值时需处理,子组件加载时用onMounted,value变化时用watch 父组件: <template><div><p>父组件的值: {{ parentValue }}</p><button click"changeValue">改变…...
CUDA编程之Grid、Block、Thread线程模型
一、线程模型:Grid、Block、Thread概念 1. 层级定义 Thread(线程) CUDA中最基本的执行单元,对应GPU的单个CUDA核心(SP)。每个线程独立执行核函数指令,拥有独立的寄存器和局部内存空间。 Block(线程块) 由多个线程组成(通常为32的倍数),是逻辑上的并…...
BT151-ASEMI无人机专用功率器件BT151
编辑:ll BT151-ASEMI无人机专用功率器件BT151 型号:BT151 品牌:ASEMI 封装:TO-220F 批号:最新 引脚数量:3 特性:单向可控硅 工作温度:-40℃~150℃ BT151单向可控硅产品解…...
无人机环境适应性与稳定性技术要点!
1. 环境感知与传感器融合 多传感器集成:结合IMU(惯性测量单元)、GPS、气压计、激光雷达(LiDAR)、视觉传感器(RGB/深度相机)、超声波等,实现冗余数据采集。 实时环境建模࿱…...
BiliNote:开源的AI视频笔记生成工具,让知识提取与分享更高效——跨平台自动生成结构化笔记,实现从视频到Markdown的智能转化
引言:视频学习的痛点与BiliNote的解决方案 随着知识视频化趋势的加速,B站、YouTube等平台成为学习与信息获取的重要渠道,但手动记录笔记耗时低效、信息碎片化等问题依然突出。BiliNote的出现,通过AI驱动的自动化流程,将视频内容转化为结构清晰的Markdown笔记,支持截图插…...
HTMLcss实现网站抽奖
代码由 HTML、CSS 和 JavaScript 三部分组成,HTML 负责页面的结构搭建,CSS 负责页面的样式设计,JavaScript 负责实现抽奖的交互逻辑。 HTML 部分 <!DOCTYPE html> <html lang"en"><head><meta charset"…...
字节:视频一致性生成论文速读
一、引言 Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment 是北京字节跳动智能创作团队提出的一种新型视频生成方法,旨在解决主体一致性视频生成的难题。该方法通过平衡文本和图像的双重模态提示,实现文本和视觉内容的深度对齐…...