Vanna:用检索增强生成(RAG)技术革新自然语言转SQL
引言:为什么我们需要更智能的SQL生成?
在数据驱动的业务环境中,SQL 仍然是数据分析的核心工具。然而,编写正确的 SQL 查询需要专业知识,而大型语言模型(LLM)直接生成的 SQL 往往存在**幻觉(hallucination)**或不符合业务逻辑的问题。
Vanna 是一个基于 检索增强生成(RAG) 的框架,专门优化自然语言到 SQL 的转换。它结合了 LLM 的强大推理能力和数据库的上下文信息,显著提高了 SQL 生成的准确性。
本文将深入探讨:
-
Vanna 的核心工作原理
-
它如何比纯 LLM 更可靠
-
如何快速集成到你的数据工作流
1. Vanna 的核心工作原理
Vanna 的工作流程分为 训练阶段 和 推理阶段,形成一个持续优化的闭环系统。
(1)训练阶段:构建知识库
Vanna 通过以下方式学习你的数据库:
-
数据库模式(DDL):存储表结构、字段类型、外键关系。
vn.train(ddl="CREATE TABLE sales (id INT, product_id INT, amount FLOAT, date TIMESTAMP)")
-
业务规则文档:定义关键指标(如“销售额 =
SUM(amount)
”)。vn.train(documentation="销售额是指销售表中 amount 列的总和")
-
历史查询缓存:存储已验证的 SQL 及其自然语言问题,形成 QA 对。
这些数据会被向量化并存入向量数据库(如 Chroma、FAISS),供后续检索使用。
(2)推理阶段:动态生成SQL
当用户提问时(如 “2023年销售额最高的产品是什么?”),Vanna 执行以下步骤:
-
检索相关上下文
-
使用向量搜索召回:
-
相关表结构(
sales
表、products
表) -
业务规则(“销售额 =
SUM(amount)
”) -
类似的历史查询(
SELECT product, SUM(amount) FROM sales GROUP BY product
)
-
-
-
组装Prompt,输入LLM
你是一个SQL专家。根据以下信息生成查询: ### 数据库结构: - sales(id INT, product_id INT, amount FLOAT, date TIMESTAMP) - products(id INT, name VARCHAR)### 业务规则: - 销售额 = SUM(amount)### 类似查询: - "各产品销售额" → SELECT name, SUM(amount) FROM sales JOIN products ON sales.product_id = products.id GROUP BY name### 问题: 2023年销售额最高的产品是什么?
-
生成并优化SQL
LLM 返回:SELECT p.name, SUM(s.amount) FROM sales s JOIN products p ON s.product_id = p.id WHERE YEAR(s.date) = 2023 GROUP BY p.name ORDER BY SUM(s.amount) DESC LIMIT 1
-
执行或人工审核
-
可自动执行并返回结果,或由数据团队验证后修正。
-
修正后的 SQL 会反馈到训练库,使模型持续改进。
-
2. Vanna vs. 纯LLM:为什么更可靠?
对比维度 | 纯LLM(如ChatGPT) | Vanna + RAG |
---|---|---|
领域知识 | 通用知识,可能不了解你的数据库 | 动态注入表结构、业务规则 |
准确性 | 复杂查询错误率高 | 检索增强减少幻觉,实测提升30-50% |
可解释性 | 黑箱生成,难以调试 | 可查看检索到的上下文,定位问题 |
持续学习 | 静态模型,无法优化 | 用户反馈闭环,越用越准 |
典型案例:
-
纯LLM:提问“计算客户留存率”可能生成错误的 JOIN 逻辑。
-
Vanna:检索业务定义后,生成正确的 SQL(如使用日期差计算留存)。
3. 如何快速集成Vanna?
(1)安装与初始化
pip install vanna
from vanna.llm.openai import OpenAI_Chat
from vanna.vannadb import VannaDBvn = Vanna(model=OpenAI_Chat(), db_engine=your_db_connection)
(2)训练模型
# 注入DDL
vn.train(ddl="CREATE TABLE products (id INT, name VARCHAR, price FLOAT)")# 添加业务文档
vn.train(documentation="高价值产品指价格超过1000元的商品")# 录入历史SQL
vn.train(question="哪些是高价值产品?",sql="SELECT name FROM products WHERE price > 1000"
)
(3)生成SQL
question = "2023年最畅销的高价值产品是什么?"
sql = vn.generate_sql(question)
print(sql)
(4)部署为API
Vanna 提供 Flask 快速部署:
from vanna.flask import VannaFlaskApp
app = VannaFlaskApp(vn)
app.run()
4. 未来展望
Vanna 的潜力不仅限于 SQL 生成:
-
BI 工具增强:为 Tableau/Power BI 提供自然语言查询接口。
-
自动化数据探查:通过对话式分析发现数据趋势。
-
多模态扩展:结合文本和图表,实现更智能的数据交互。
结论
Vanna 通过 RAG + 反馈学习,将 LLM 变成了一个“懂你业务”的 SQL 助手。它特别适合:
-
数据分析团队:减少重复的 SQL 编写工作。
-
非技术用户:通过自然语言查询数据库。
-
数据平台开发者:快速构建智能查询接口。
项目已开源(Apache 2.0),支持 Snowflake、BigQuery、PostgreSQL 等主流数据库,立即试用:GitHub - vanna-ai/vanna
📌 互动提问
-
你的团队是否尝试过自然语言转 SQL 工具?体验如何?
-
如果采用 Vanna,你希望优先解决哪些场景的问题?
欢迎在评论区分享你的想法! 🚀
相关文章:
Vanna:用检索增强生成(RAG)技术革新自然语言转SQL
引言:为什么我们需要更智能的SQL生成? 在数据驱动的业务环境中,SQL 仍然是数据分析的核心工具。然而,编写正确的 SQL 查询需要专业知识,而大型语言模型(LLM)直接生成的 SQL 往往存在**幻觉&…...
大语言模型应用和训练(人工智能)
RAG(Retrieval Augmented Generation,检索增强生成) 定义:是一种将外部知识检索与语言模型生成能力相结合的技术。在传统的大语言模型中,模型的知识是在预训练阶段学到的,可能存在知识过时或不完整的问题。…...
NLP高频面试题(三十五)——LLaMA / ChatGLM / BLOOM的区别
一、LLaMA 训练数据 LLaMA由Meta开发,拥有多个参数规模的版本:7B、13B、33B和65B。其中,较小的7B和13B版本采用了约1万亿tokens进行训练,而更大的33B和65B版本使用了约1.4万亿tokens进行训练。 模型结构特点 LLaMA采用与GPT类似的causal decoder-only Transformer结构,…...
【Python Cookbook】字符串和文本(五):递归下降分析器
目录 案例 目录 案例 字符串和文本(一)1.使用多个界定符分割字符串2.字符串开头或结尾匹配3.用 Shell 通配符匹配字符串4.字符串匹配和搜索5.字符串搜索和替换字符串和文本(三)11.删除字符串中不需要的字符12.审查清理文本字符串1…...
专为 零基础初学者 设计的最简前端学习路线,聚焦核心内容,避免过度扩展,帮你快速入门并建立信心!
第一阶段:HTML CSS(2-3周) 目标:能写出静态网页,理解盒子模型和布局。 HTML基础 常用标签:<div>, <p>, <img>, <a>, <ul>, <form> 语义化标签:<head…...
大模型-爬虫prompt
爬虫怎么写prompt 以下基于deepseek r1 总结: 以下是为大模型设计的结构化Prompt模板,用于生成专业级网络爬虫Python脚本。此Prompt包含技术约束、反检测策略和数据处理要求,可根据具体需求调整参数: 爬虫脚本生成Prompt模板1 …...
PyTorch深度实践:基于累积最大值的注意力机制设计与性能优化
引言:注意力机制的创新与挑战 在自然语言处理和序列建模中,注意力机制(Attention)是提升模型性能的关键技术。传统基于 softmax 的注意力机制虽然成熟,但在计算效率和长序列建模中存在局限。本文将介绍一种创新的注意…...
编程bug001:off by one (差一错误)
为什么看似简单的编码错误可能造成大灾难? Off-by-One Error(简称OBOE),即由于边界条件处理不当,导致循环、计数或索引时多算一次或少算一次的错误。这是非常常见的编程bug类型,尤其在处理数组、字符串或范…...
JavaScript 中常见的鼠标事件及应用
JavaScript 中常见的鼠标事件及应用 在 JavaScript 中,鼠标事件是用户与网页进行交互的重要方式,通过监听这些事件,开发者可以实现各种交互效果,如点击、悬停、拖动等。 在 JavaScript 中,鼠标事件类型多样࿰…...
使用Expo框架开发APP——详细教程
在移动应用开发日益普及的今天,跨平台开发工具越来越受到开发者青睐。Expo 是基于 React Native 的一整套工具和服务,它能够大幅降低原生开发的门槛,让开发者只需关注业务逻辑和界面实现,而不用纠结于复杂的原生配置。本文将从零开…...
深入探究 Hive 中的 MAP 类型:特点、创建与应用
摘要 在大数据处理领域,Hive 作为一个基于 Hadoop 的数据仓库基础设施,提供了方便的数据存储和分析功能。Hive 中的 MAP 类型是一种强大的数据类型,它允许用户以键值对的形式存储和操作数据。本文将深入探讨 Hive 中 MAP 类型的特点,详细介绍如何创建含有 MAP 类型字段的表…...
前端开发工厂模式的优缺点是什么?
一、什么是工厂模式? 工厂模式属于创建型设计模式,核心思想是将对象的实例化过程封装到特定方法或类中,让客户端不需要直接通过new关键字创建对象。 举个例子:就像奶茶店不需要顾客自己调配饮品,而是通过"点单-…...
框架PasteForm实际开发案例,换个口味显示数据,支持echarts,只需要标记几个特性即可在管理端显示(2)
PasteForm框架的主要思想就是对Dto进行标记特性,然后管理端的页面就会以不一样的UI呈现 使用PasteForm框架开发,让你免去开发管理端的烦恼,你只需要专注于业务端和用户端! 在管理端中,如果说表格是基本的显示方式,那么图表chart就是一个锦上添花的体现! 如果一个项目拥…...
QEMU学习之路(5)— 从0到1构建Linux系统镜像
QEMU学习之路(5)— 从0到1构建Linux系统镜像 一、前言 参考:从内核到可启动镜像:0到1构建你的极简Linux系统 二、linux源码获取 安装编译依赖 sudo apt install -y build-essential libncurses-dev flex bison libssl-dev li…...
AI Agent设计模式一:Chain
概念 :线性任务流设计 ✅ 优点:逻辑清晰易调试,适合线性处理流程❌ 缺点:缺乏动态分支能力 from typing import TypedDictfrom langgraph.graph import StateGraph, END# 定义后续用到的一些变量 class CustomState(TypedDict):p…...
实操(进程状态,R/S/D/T/t/X/Z)Linux
1 R 状态并不直接代表进程在运行,而是该进程在运行队列中进行排队,由操作系统在内存维护的队列 #include <stdio.h> #include <unistd.h>int main() {while(1){printf("我在运行吗\n");sleep(1);}return 0; }查看状态(…...
T-SQL语言的自动化运维
T-SQL语言的自动化运维 引言 在现代IT环境中,自动化运维成为了提高效率、降低成本、提升稳定性的重要手段。数据库作为系统的重要组成部分,运维工作往往需要耗费大量的人力物力。T-SQL(Transact-SQL)作为Microsoft SQL Server的…...
Day06 分割编译与中断处理
文章目录 1. 例程harib03c(c源文件分割并整理makefile文件)2. 例程harib03c(用于描述段的信息)3. 例程harib03d(初始化PIC)4. 例程harib03e(中断处理程序) 1. 例程harib03cÿ…...
数字化三维实训室:无穿戴动作捕捉技术如何赋能体育与舞蹈
在高校体育与舞蹈教学中,精准的动作训练至关重要。传统训练方式依赖教练的肉眼观察与手动记录,存在效率低下、误差较大的情况。尤其在快速连续动作或复杂肢体形态的捕捉中,人工判读易受主观经验限制,难以实现标准化评估。面对传统…...
6. RabbitMQ 死信队列的详细操作编写
6. RabbitMQ 死信队列的详细操作编写 文章目录 6. RabbitMQ 死信队列的详细操作编写1. 死信的概念2. 消息 TTL 过期(触发死信队列)3. 队列超过队列的最大长度(触发死信队列)4. 消息被拒(触发死信队列)5. 最后: 1. 死信的概念 先从概念上解释上搞清楚这个定义&#…...
AI浪潮下,新手短视频制作的破局之道
AI浪潮下,新手短视频制作的破局之道 引言:短视频新时代,AI 带来的机遇与挑战 在当下这个信息飞速流转的时代,短视频已然成为了人们生活中不可或缺的一部分。无论是在通勤路上、午休间隙,还是茶余饭后,打开…...
合肥SMT贴片制造工艺全解析
内容概要 作为电子制造领域的核心工艺,SMT(表面贴装技术)在合肥地区电子产业链中占据重要地位。本解析以合肥本地化生产场景为基础,系统梳理从焊膏印刷到成品检测的全流程工艺框架。具体而言,制造流程涵盖四大核心阶段…...
ctfshow VIP题目限免 协议头信息泄露
根据提示是协议头信息泄露,那就我们抓个包,抓包才能看到请求体响应体里的协议头啊,抓包之后在响应包里发现了 flag...
【国产工具链发展,生态链分析,TSMaster VS Zcanpro的技术对比】
黎明篇:国产汽车测试工具链的崛起、差距与未来 副标题: 从跟随到超越,中国技术如何重塑全球研发体系 一、国产工具链的崛起逻辑 政策驱动:信创战略与供应链安全需求 国家“十四五”规划明确提出支持关键领域技术自主化࿰…...
Linux线程同步与互斥:【线程互斥】【线程同步】【线程池】
目录 一.线程互斥 1.1相关概念 1.2互斥量 为什么会出现负数?? 互斥量的接口 问题: 1.3互斥量实现原理探究 1.4互斥量封装 二.线程同步 2.1条件变量 2.2同步概念与竞态条件 2.3接口 2.4生产者消费者模型 优点 2.5基于BlockingQueue的…...
网络安全基础知识总结
什么是网络安全 采取必要措施,来防范对网络的攻击,侵入,干扰,破坏和非法使用,以及防范一些意外事故,使得网络处于稳定可靠运行的状态,保障网络数据的完整性、保密性、可用性的能力(CIA)。 举例…...
请求被中止: 未能创建 SSL/TLS 安全通道。
需要安装vs2019社区办,下载VisualStudioSetup.exe后,报无法从"https://aka,ms/vs/16/release/channel"下载通道清单错误,接着打开%temp%目录下的最新日志,发现日志里报: [27d4:000f][2025-04-04T21:15:43] …...
FPGA学习(四)——状态机重写LED流水灯并仿真
FPGA学习(四)——状态机重写LED流水灯并仿真 目录 FPGA学习(四)——状态机重写LED流水灯并仿真一、状态机编程思想1、状态机要素2、状态迁移图3、状态机写法 二、LED流水灯仿真实现1、代码实现2、modesim仿真 三、实现效果1、仿真…...
spark 集群
hadoop客户端环境准备 找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:\hadoop-3.1.0) ① 打开环境变量 ② 在下方系统变量中新建HADOOP_HOME环境变量,值就是保存hadoop的目录。 效果如下: ③ 配置P…...
leetcode117 填充每个节点的下一个右侧节点指针2
LeetCode 116 和 117 都是关于填充二叉树节点的 next 指针的问题,但它们的区别在于 树的类型 不同,117与 116 题类似,但给定的树是 普通二叉树(不一定完全填充),即某些节点可能缺少左或右子节点。 树的结构…...
Java全栈面试宝典:线程安全机制与Spring Boot核心原理深度解析
目录 一、Java线程安全核心原理 🔥 问题1:线程安全的三要素与解决方案 线程安全风险模型 线程安全三要素 synchronized解决方案 🔥 问题2:synchronized底层实现全解析 对象内存布局 Mark Word结构(64位系统&…...
CCF GESP C++编程 三级认证真题 2025年3月
C 三级 2025 年 03 月 题号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 答案 D B A A B A C A C D D D B D C 1 单选题 第 1 题 Base64 编码将每3字节的输入数据编码为 4 字节的输出数据。如果输入数据长度不是 3 的倍数,会用 号填充。在Base64编码中,如果…...
人工智能爬虫导致维基共享资源带宽需求激增 50%
2025 年 4 月 1 日,维基媒体基金会在博文中表示,自 2024 年 1 月以来,维基共享资源下载多媒体的带宽消耗激增 50%,这一变化趋势主要由用于 AI 训练数据集的网络爬虫导致。以下是具体分析1: 爬虫流量特征与数据存储模式…...
方案精读:华为数据治理之旅【全文阅读】
本文介绍了华为的数据管理工作,包括数据治理、数据质量建设、数据管理工作两阶段历程、数据管理组织和数据管理工作思考。华为以业务数字化为前提,以数据入湖为基础,重点建设数据中台,提高数据质量和管理能力,以支撑公司数字化转型。 重点内容: 1. 数据治理:华为进行数…...
Tradingview 策略分享 - SSL 混合和 CE 交易策略
交易策略|https://v.wkbrowser.com/s/e9DIvLGvYRo/|复制浏览器打开 各位交易员大家好 在本文中,我将分享一个简单的日内交易策略。我将 SSL 混合指标与 CE EXIT 相结合,以创建一个高效且有利可图的设置。此策略简单而强大&#x…...
华为OD机试真题——投篮大赛(2025A卷:100分)Java/python/JavaScript/C++/C语言/GO六种最佳实现
2025Q1 A卷 100分 题型 本文涵盖详细解题思路、代码注释、讲解、复杂的分析以及测试用例; 并提供Java、python、JavaScript、C、C语言、GO六种语言的最佳实现方式! 华为OD机试A卷真题《投篮大赛》: 题目名称:投篮大赛 知识点&am…...
rcore day2
目前常见的操作系统内核都是基于 C 语言的,为何要推荐 Rust 语言? C 语言的指针灵活且易于使用,但不保证安全性,且缺x少有效的并发支持。这导致内存和并发漏洞成为当前基于 C 语言的主流操作系统的噩梦。Rust 语言具有与 C 一样的…...
【MATLAB定位例程】TDOA(到达时间差)的chan-tylor,三维环境,附完整代码
该代码实现了基于三维空间的动态目标TDOA定位,结合了Chan算法(解析解)与Taylor级数展开法(迭代优化)的双重优势。 文章目录 运行结果MATLAB代码代码讲解代码功能概述核心算法原理代码结构解析可视化与结果分析运行结果 定位示意图: 三轴状态曲线: 三轴误差曲线: MA…...
LLM面试题六
NLP方向CRF算法面试题 什么是CRF?CRF的主要思想是什么? 设X与Y是随机变量,P(Y | X)是给定条件X的条件下Y的条件概率分布,若随机变量Y构成一个由无向图G(V,E)表示的马尔科夫随机场。则称条件概率分布P(X | Y)为条件随机场。CRF的主要思想统计…...
FPGA(四)——状态机
FPGA(四)——状态机 文章目录 FPGA(四)——状态机一、状态机编程思想二、LED流水灯仿真实验三、实现效果四、CPLD和FPGA芯片主要技术区别五、hdlbitsFPGA——组合逻辑学习1、创建一个D触发器2、简单状态转换3、4位移位寄存器4、计数器1-125、边缘捕获寄存器 一、状态机编程思想…...
AI 浪潮下企业身份管理:特点凸显,安全挑战升级
“在 AI 时代的浪潮中,企业身份管理是安全之锚,精准把握权限边界,方能抵御身份安全的暗流。” 在人工智能迅猛发展的当下,企业身份管理呈现出诸多新特点,同时也面临着前所未有的身份安全挑战。要理解这些,我…...
OBS 录屏软件 for Mac 视频录制
OBS 录屏软件 for Mac 视频录制 文章目录 OBS 录屏软件 for Mac 视频录制一、介绍二、效果三、下载 一、介绍 Open Broadcaster Software for mac版,OBS 有多种功能并广泛使用在视频采集,直播等领域。而且该软件功能全面,专业强大࿰…...
从文本到多模态:如何将RAG扩展为支持图像+文本检索的增强生成系统?
目录 从文本到多模态:如何将RAG扩展为支持图像文本检索的增强生成系统? 一、为什么需要扩展到多模态? 二、多模态 RAG 系统的基本架构 三、关键技术点详解 (一)多模态嵌入(Embedding)技术 …...
AI助力高效PPT制作:从内容生成到设计优化
随着人工智能技术的不断发展,AI在各个领域的应用日益普及,尤其是在文档和演示文稿的创建过程中。PowerPoint(PPT)作为最常用的演示工具之一,借助AI的技术手段,可以极大地提高制作效率并提升最终呈现效果。在…...
调用kimi api
官网支持python,curl和node.js 因为服务器刚好有php环境,所以先用curl调个普通的语音沟通api <?php // 定义 API Key 和请求地址 define(MOONSHOT_API_KEY, sk-PXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXgk1); define(MOONSHOT_API_URL, https://…...
自定义注解导入自定义Bean
在Spring框架中,通过自定义注解实现容器启动时自动导入Bean,通常需要结合 Import 注解、ImportBeanDefinitionRegistrar 接口 或 Configuration 配置类。以下是具体实现步骤和示例: 1. 定义自定义注解 创建一个注解,用于标记需要…...
kettle插件-postgresql插件
今天是清明节,放假第一天也不得清闲。上午整理公司的交付文档,中午陪孩子户外骑行踏青,下午趁着休息的时间给老铁们讲下如何使用postgressql cdc插件来实时捕获数据。 注:CDC (Change Data Capture) 是一种技术,用于实…...
【CMake】《CMake构建实战:项目开发卷》笔记-Chapter7-构建目标和属性
第7章 构建目标和属性 本章重点关注CMake的构建目标和属性,它们是用来组织项目构建流程的核心概念。毫不夸张地说,如果学习CMake的目标就是组织简单的C和C小项目的构建流程,那么阅读掌握本章内容就足够了。 本章与第1章的“旅行笔记”遥相…...
单元测试之mockito
简介 mockito是一款模拟测试框架,用于Java开发中的单元测试。通过mockito,可以创建和配置一个对象,通过它来替换对象的外部依赖。 作用:模拟一个类的外部依赖,保证单元测试的独立性。例如,在类A中会调用类…...
定长池的实现
目录 一、定长池的框架 二、如何脱离malloc的内存池,直接从堆拿空间? 三、如何设计内存块的指针? 四、代码框架及实现 五、性能测试 一、定长池的框架 在学习高并发内存池之前,我们先来实现一个定长池࿰…...