微软 LIDA 库:基于大模型的自动化数据分析与可视化
微软 LIDA 库:基于大模型的自动化数据分析与可视化
一、核心架构与 LLM 交互流程
二、LLM 交互核心功能
1. 多模型支持架构
- 兼容主流 LLM 服务商:通过统一接口支持 OpenAI GPT-4、Azure OpenAI、PaLM 等模型
- 动态切换机制:初始化时指定
text_gen
参数即可切换模型,例如:from lida import Manager, llm # 使用 OpenAI lida = Manager(text_gen=llm("openai", api_key="sk-xxx")) # 切换为 HuggingFace lida = Manager(text_gen=llm("huggingface", model="meta-llama/Meta-Llama-3-70B"))
2. 自然语言驱动流程
-
数据摘要生成:LLM 解析数据结构并生成自然语言描述,包括:
- 字段语义解释(如识别"销售额"为连续型变量)
- 异常值检测(如标注空值率超过 30% 的列)
summary = lida.summarize("sales.csv") # 输出包含数据分布、字段关联性等分析结果
-
目标智能推荐:LLM 根据数据特征生成分析方向:
goals = lida.goals(summary, n=3) # 示例输出: # 1. 分析季度销售额趋势与促销活动的关系 # 2. 对比不同区域客户满意度分布
3. 代码生成与调试
-
可视化代码生成:LLM 将自然语言指令转化为可执行代码:
charts = lida.visualize(summary, goal=goals[0]) # 生成 seaborn 折线图代码并自动渲染
-
动态代码修复:当图表渲染失败时,LLM 自动诊断错误:
repaired = lida.repair(code=chart.code, summary=summary) # 修复常见错误如数据类型转换、API 版本兼容等
三、典型应用实例(OpenAI 集成)
from lida import Manager, llm
import os# 初始化 OpenAI 模型
lida = Manager(text_gen=llm("openai", api_key=os.getenv("OPENAI_API_KEY")))# 生成数据摘要
summary = lida.summarize("data/sales.csv")# 获取分析目标建议
goals = lida.goals(summary, n=1)# 生成可视化图表
charts = lida.visualize(summary=summary, goal=goals[0])# 自然语言编辑图表
instructions = ["添加趋势线", "将主题改为暗色系"]
edited_charts = lida.edit(code=charts[0].code, instructions=instructions)# 导出信息图表
lida.infograph(chart=edited_charts[0], style="modern")
四、LLM 交互最佳实践
-
模型选择策略
- 结构化数据分析:优先选用 GPT-4 或 Claude-3 保证代码生成准确性
- 文本特征处理:可尝试 Mixtral 8x7B 获得更高性价比
- 本地化部署:使用 Llama3-70B 中文微调版处理中文数据
-
提示工程优化
# 自定义提示模板提升效果 config = TextGenerationConfig(temperature=0.3,system_prompt="你是一个专业数据分析师,擅长生成 seaborn 可视化代码" ) goals = lida.goals(summary, textgen_config=config)
-
异常处理机制
try:charts = lida.visualize(summary, goal=goals[0]) except Exception as e:# LLM 辅助错误诊断diagnosis = lida.diagnose(error=str(e), code=last_code)print(f"错误修复建议:{diagnosis}")
-
中文优化方案
# 设置中文字体路径 lida = Manager(text_gen=llm("openai"),vis_params={"font_path": "/fonts/SimHei.ttf"} )
五、扩展应用场景
- 自动化报告生成:结合 LLM 生成分析结论文本
- 智能数据标注:通过对话式交互完善数据质量
- 多模态分析:整合图像识别模型处理混合数据集
提示:建议保持 LIDA 库版本更新,最新版已支持 GPT-4 Turbo 128k 上下文处理能力,可分析更复杂的数据结构。
相关文章:
微软 LIDA 库:基于大模型的自动化数据分析与可视化
微软 LIDA 库:基于大模型的自动化数据分析与可视化 一、核心架构与 LLM 交互流程 #mermaid-svg-UzSwZNKPlgrJUpej {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-UzSwZNKPlgrJUpej .error-icon{fill:#5…...
java-正则表达式-集合-泛型
正则表达式 正则表达式到底是什么东西? 在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。 http://tool.oschina.net/r…...
力扣刷题994. 腐烂的橘子
994. 腐烂的橘子 - 力扣(LeetCode) 使用bfs,先遍历所有的橘子,统计所有的橘子数量,然后把腐烂的橘子放入队列当中,然后进行bfs遍历,套用bfs的模版,但是每一次出队的橘子(…...
Kubernetes的Service详解
一、Service介绍 在 kubernetes 中, pod 是应用程序的载体,我们可以通过 pod 的 ip 来访问应用程序,但是 pod 的 ip 地址不是固定的,这也就意味着不方便直接采用pod 的 ip 对服务进行访问。 为了解决这个问题,kuberne…...
Linux目录理解
前言 最近在复习linux,发现有些目录总是忘记内容,发现有些还是得从原义和实际例子去理解会记忆深刻些。以下是个人的一些理解 Linux目录 常见的Linux下的目录如下: 1. 根目录 / (Root Directory) 英文含义:/ 是文件系统的根…...
vue中js简单创建一个事件中心/中间件/eventBus
vue中js简单创建一个事件中心/中间件/eventBus 目录结构如下: eventBus.js class eventBus {constructor() {this.events {};}// 监听事件on(event, callback) {if (!this.events[event]) {this.events[event] [];}this.events[event].push(callback);}// 发射…...
1~2 课程简介+ESP32-IDF环境搭建(虚拟机Linux环境下)
哔站“宸芯IOT”视频链接 一、课程内容介绍 1.什么是ESP32 ESP32是集成2.4GHz Wi-Fi和蓝牙双模的单芯片方案,具有超高的射频性能、稳定性、通用性和可靠性,以及超低的功耗,满足不同的功耗需求,适用于各种应用场景。ESP32是ESP8…...
Linux系统移植篇(十一)Linux 内核启动流程
要分析 Linux 启动流程,同样需要先编译一下 Linux 源码,因为有很多文件是需要编译才 会生成的。首先分析 Linux 内核的连接脚本文件 arch/arm/kernel/vmlinux.lds,通过链接脚本可以 找到 Linux 内核的第一行程序是从哪里执行的。vmlinux.lds …...
React19源码系列之Hooks(useId)
useId的介绍 https://zh-hans.react.dev/reference/react/useId useId 是 React 18 引入的一个新 Hook,主要用于生成全局唯一的 ID。在开发中,我们经常需要为元素(如表单元素、模态框等)生成唯一 ID,以便在 JavaScri…...
深度学习-149-langchain之如何不使用with_structured_output()从模型中返回结构化数据
文章目录 1 不使用with_structured_output()方法1.1 问题背景1.2 输出解析器1.3 远程deepseek大模型API2 基于提示词2.1 直接使用提示词2.2 少样本提示词3 直接提示和解析模型输出3.1 使用PydanticOutputParser3.1.1 构建解析器3.1.2 构建提示模板3.1.3 调用大模型3.1.4 调用链…...
SAP DOI EXCEL应用
【应用场景】采用DOI方式打开填充EXCEL数据 *&---------------------------------------------------------------------* *& 包含 ZFI1009R_TOP *&---------------------------------------------------------------------* TABLES:bkpf,bseg. D…...
RS485电路设计注意事项
(一)RS485的电平标准: RS485用缆线两端的电压差值来表示传递信号,逻辑“1”以两线间的电压差为2V~6V标识,逻辑“0”以两线间的电压差为-2V~-6V标识。由此可见,接口信号电平较低,不易损坏接口电路…...
Git 回退操作详解:带示例的“小白”指南
前言 在日常开发中,我们难免会遇到: 改错代码:推送之前才发现某些行根本就不该动提交错误:commit 信息打错、提交到错误分支想回到之前版本:测试时发现之前版本是好的,需要回去查看 这就需要用到 Git 的…...
PyQt5库 各种导入项的作用
from PyQt5.QtCore import QIODevice, QSharedMemory, pyqtSignal 这行代码是从 PyQt5 库中导入了几个类和信号,用于开发桌面应用程序。下面是每个导入项的详细解释: QIODevice: QIODevice 是 PyQt5 中的一个类,提供了对输入输出设备的抽象…...
Git下载安装(保姆教程)
目录 1、Git下载 2、Git安装(windows版) (1)启动安装程序 (2)阅读许可协议 (3)选择安装路径 (4)选择组件 (5)选择开始菜单文件夹…...
关系数据库设计理论
目录 一、数据依赖——重点 (1)平凡依赖/非平凡函数依赖 (2)完全/部分函数依赖 (3)传递函数依赖 二、范式(NF) (1)第一范式 (2)…...
图解LLM智能体(LLM Agents):构建与运作机制的全面解析
LLM智能体:构建与运作机制 LLM智能体(LLM Agents)正在迅速普及,似乎逐渐取代了我们熟悉的传统对话式LLM。这些令人惊叹的能力并非凭空而来,而是需要多个组件协同工作。 本文包含超过60张定制插图,将深入探讨LLM智能体的领域、其核心组件以及多智能体框架的工作原理。 文…...
Anaconda 入门指南
Anaconda 入门指南 一、下载安装 Anaconda 1、下载地址:Anaconda 推荐下载 python3 版本, 毕竟未来 python2 是要停止维护的。 2、安装 Anaconda 按照安装程序提示一步步安装就好了, 安装完成之后会多几个应用: Anaconda Navigtor :用于管…...
YOLOv11小白的进击之路(九)创新YOLO11损失函数之NWD损失函数源码解读
之前的博客也有对YOLO11的损失函数进行过源码分析,可以参考:YOLOv11小白的进击之路(六)创新YOLO的iou及损失函数时的源码分析_yolov11的损失函数是什么-CSDN博客最近在做小目标检测的时候注意到了NWD损失函数,这里对其…...
【c++】内存序 和 内存一致性模型
c 11 中为了支持并发,定义了内存序和内存一致性模型。这个概念听起来非常高深,好像是在多线程编程领域浸淫多年之后的神级程序员才能搞明白,并用明白的东西。 本文尝试用最简单的方式说清楚这个概念。因为这个概念真的超级简单,大…...
力扣128. 最长连续序列 || 452. 用最少数量的箭引爆气球
最长连续列 给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。 请你设计并实现时间复杂度为 O(n) 的算法解决此问题。 输入:nums [100,4,200,1,3,2] 输出:4 解释&…...
从零开始写C++3D游戏引擎(开发环境VS2022+OpenGL)之十一点二五 光照贴图(lighting maps)的实现 细嚼慢咽逐条读代码系列
写在篇前的话 作为一个曾经在代码堆里面苦苦挣扎的萌新,困惑的事情在于库,各种依赖,包换文件,链接库,纠结于代码的作用意义。尤其在3D引擎开发的问题上,很多人都被各种困难给阻拦,放弃了在3D渲染,3D游戏引擎上大涨鸿图的机会。 当然关于3D游戏引擎的教程已经汗牛充栋…...
优先级队列(PriorityQueue)_1_模拟实现优先级队列
1、概念 前面介绍过队列,队列是一种先进先出(FIFO)的数据结构 ,但有些情况下, 操作的数据可能带有优先级,一般出队 列时,可能需要优先级高的元素先出队列 ,这时候,使用队列显然不合适了。 在这种…...
java后端怎么写好根据角色控制查询不同数据,
z总的思路,先把不带查询条件的包含角色控制场景(比如:总公司经理角色可以查看所有数据,但是暂存的话只能查自己暂存的,分公司,只能查自己所属分公司的,)的所有数据查出来 例如查询的…...
《量子比特:AI复杂算法破局的关键力量》
在科技飞速发展的今天,人工智能(AI)与量子计算成为了推动人类进步的两大引擎。而量子比特,作为量子计算的基石,正逐渐展现出其在实现复杂AI算法时相较于传统比特的独特优势,为AI领域带来了前所未有的变革潜…...
MVC_Publish-Subscriber 模式中的事件处理程序
MVC_Publish-Subscriber 模式中的事件处理程序 MVC 中的事件处理:发布者-订阅者模式 程序启动时,controlRecipes将被传入addHandlerRender; addHandlerRender会侦听事件(addEventListener),并使用controlRecipes作为回调…...
RxSwift 学习笔记第四篇之RxSwift在项目中的简单应用
目录 前言 一、RxCocoa在项目中的用法 1.Target Action 2.代理 3.闭包回调 4.通知 二、一个计时器的例子 前言 在上面的两篇文章中,我们了解到了RxSwift中的Observable和Observer,本篇文章我们主要介绍下RxSwift项目中的使用。 一、RxCocoa在项目中的用法 RxCocoa 给 …...
Java面试黄金宝典2
1. 什么是 Concurrent 包 java.util.concurrent(简称 Concurrent 包)是 Java 5 引入的一个用于并发编程的工具包。它提供了一系列用于处理多线程编程的类和接口,帮助开发者更方便、安全地进行并发编程。 原理 该包基于 Java 的多线程机制和锁…...
【在数轴上找最优位置,使移动距离最短】
L1-4 破碎的心,无法挽回的距离 题目描述: YFffffff 最近在感情上遭受了失败,他的心也破碎成了n块碎片,散落在了数轴上的 n 个位置。 你是一个情感修复师,作为 YFffffff 的好友,你试图将这些破碎的心重新聚集到一个位…...
3D标定中的平面约束-平面方程的几何意义
平面方程的一般形式为 AxByCzD0,其中系数 A、B、C、D共同决定了平面的几何特性。 系数对平面姿态的影响 1. 法向量方向2. 平面位置3. 比例关系4. 姿态变换5.平面空间变换 1. 法向量方向 法向量方向由 A、B、C 决定 核心作用:系数 A、B、C 构成的向量 (…...
singleInstance 和 singleTask的 重要 区别
singleInstance 和 singleTask 是 Android 中 Activity 的两种启动模式,它们主要用于控制 Activity 在任务栈中的行为。以下是两者的区别: 1. singleTask 定义: 每个 singleTask 模式的 Activity 在一个任务栈中只会存在一个实例。行为: 如果该 Activi…...
【如何在OpenWebUI中使用FLUX绘画:基于硅基流动免费API的完整指南】
如何在OpenWebUI中使用FLUX绘画:基于硅基流动免费API的完整指南 注册并获取硅基流动秘钥OpenWebUI中使用函数配置自定义模型-提示词配置效果验证 ) FLUX绘画是一种强大的AI绘图工具,本文将详细介绍如何在OpenWebUI中集成并使用FLUX绘画功能,…...
【Linux】浅谈环境变量和进程地址空间
一、环境变量 基本概念 环境变量(Environment Variables)是操作系统提供的一种机制,用于存储和传递配置信息、系统参数、用户偏好设置等。 环境变量的作用 配置程序行为: 程序可以通过环境变量获取配置信息,例如日…...
vue数字公式篇(一)
一、使用插件来创造数字公式 因为只是展示和编辑 我看这个公式挺多,也对公式不太了解所以就这样,开始我的代码展示了 1、安装mathlive cnpm install mathlive2、页面 <template><div><label>输入 LaTeX 公式:</label><div …...
基于PMU的14节点、30节点电力系统状态估计MATLAB程序
“电气仔推送”获得资料(专享优惠) 程序简介: 程序采用三种方法对14节点和30节点电力系统状态进行评估: ①PMU同步向量测量单元结合加权最小二乘法(WLS)分析电力系统的电压幅值和相角状态; …...
5 分钟用满血 DeepSeek R1 搭建个人 AI 知识库(含本地部署)
最近很多朋友都在问:怎么本地部署 DeepSeek 搭建个人知识库。 老实说,如果你不是为了研究技术,或者确实需要保护涉密数据,我真不建议去折腾本地部署。 为什么呢? 目前 Ollama 从 1.5B 到 70B 都只是把 R1 的推理能力…...
QT QML实现音频波形图进度条,可点击定位或拖动进度
前言 本项目实现了使用QT QML创建一个音频波形图进度条的功能。用户可以在界面上看到音频波形图,并且可以点击进度条上的位置进行定位,也可以拖动进度条来调整播放进度。可以让用户更方便地控制音频的播放进度,并且通过音频波形图可以直观地…...
浅谈StarRocks SQL性能检查与调优
StarRocks性能受数据建模、查询设计及资源配置核心影响。分桶键选择直接决定数据分布与Shuffle效率,物化视图可预计算复杂逻辑。执行计划需关注分区裁剪、谓词下推及Join策略,避免全表扫描或数据倾斜。资源层面,需平衡并行度、内存限制与网络…...
味觉传送器E-Taste:开启虚拟世界的味觉之门
味觉传送器E-Taste:开启虚拟世界的味觉之门 一、发明背景与动机 随着虚拟现实(VR)和增强现实(AR)技术的飞速发展,人们在虚拟世界中的沉浸感不断提升,视觉和听觉体验已经取得了显著的突破。然而…...
ISE 14.7 IP核 Block Memory Generator 更换coe
ISE 14.7 IP核 Block Memory Generator 更换coe 打开XCO 后缀,修改下面的coe_file 目录,并且重新regenerate ip 核即可...
【Auto-Scroll-List 组件设计与实现分析】
Auto-Scroll-List 组件设计与实现分析 gitee代码仓库 https://gitee.com/chennaiyuan/dayup-record/tree/master/%E4%B8%80%E4%BA%9B%E7%BB%84%E4%BB%B6/auto-scroll-list 1. 组件概述 我们封装的 AutoScrollList 是一个自动滚动列表组件,主要用于展示需要自动循…...
用hexo初始化博客执行hexo init时碰到的问题
用hexo初始化博客执行hexo init时碰到的问题 $ hexo init myblog INFO Cloning hexo-starter https://github.com/hexojs/hexo-starter.git fatal: unable to access https://github.com/hexojs/hexo-starter.git/: SSL certificate problem: unable to get local issuer cer…...
【C++真题】P1739 表达式括号匹配
P1739 表达式括号匹配 题目描述 假设一个表达式有英文字母(小写)、运算符(、-、*、/)和左右小(圆)括号构成,以 作为表达式的结束符。请编写一个程序检查表达式中的左右圆括号是否匹配&#x…...
Java1.8与testNg兼容问题:bad class file和SocketTimeoutException: Read timed out
背景: 公司 java JDK默认用的是1.8版本,已经在跑的一个项目使用的testng用的是6.14.3,我拿到后通过Test 运行失败,因为这个是一直在用的项目,就没想到是版本兼容问题,折腾了好一阵(原开发者是通…...
高项第十二章——项目质量管理
项目质量管理包括把组织的质量政策应用于规划、管理、控制项目和产品质量要求,以满足干系人目标的各个过程。 项目质量管理针对的是项目过程中所涉及的活动 可交付成果质量管理针对的是项目生产的具体可交付成果,与可交付成果的性质和特性紧密相关 12…...
C# WPF编程-Menu
C# WPF编程-Menu 布局:代码:效果 在WPF(Windows Presentation Foundation)中,Menu控件用于创建下拉菜单或上下文菜单,它提供了丰富的定制选项来满足不同的应用需求。下面将介绍如何在WPF应用程序中使用Menu…...
python日期
导入包 from datetime import datetime现在时间 now datetime.now() print("当前时间:", now)当前时间: 2025-03-18 23:51:08.418953 格式化 formatted_now datetime.now().strftime("%Y-%m-%d %H:%M:%S") print("格式化后的时间:", forma…...
flutter 专题 一百零三
前不久,谷歌官方正式发布了Flutter的首个发布预览版(Release Preview 1),这标志着谷歌进入了Flutter正式版(1.0)发布前的最后阶段,同时作为Google的重量级跨平台开发方案,此次更新也…...
【conda activate无效】 conda: error: argument COMMAND: invalid choice: ‘activate‘
conda activate失效了 在使用conda activate时出现报错: usage: conda [-h] [-v] [--no-plugins] [-V] COMMAND ... conda: error: argument COMMAND: invalid choice: activate (choose from clean, compare, config, create, info, init, install, list, notice…...
Chainlit 自定义元素开发指南:使用 JSX 和受限导入实现交互式界面
自定义元素 Custom Element 类允许你渲染一个自定义的 .jsx 代码片段。.jsx 文件应当放置在 public/elements/ELEMEN_NAME.jsx 目录下。 属性 name 字符串 自定义元素的名称。它应该与你的JSX文件名相匹配(不包括 .jsx扩展名)。 props 字典 传递给 JSX 的属性。 display El…...