使用 SQL 和表格数据进行问答和 RAG(6)—将指定目录下的 CSV 或 Excel 文件导入 SQLite 数据库
将指定目录下的 CSV 或 Excel 文件导入 SQLite 数据库。以下是详细代码逻辑:
1. 类结构
该类包含三个主要方法:
_prepare_db
:负责将文件夹中的 CSV 和 XLSX 文件转换为 SQL 表。_validate_db
:用于验证 SQL 数据库中创建的表是否成功。run_pipeline
:主方法,按顺序调用_prepare_db
和_validate_db
方法完成整个数据导入流程。
2. 构造方法 __init__
def __init__(self, files_dir) -> None:
作用:
- 初始化类的实例,设置必要的变量,如数据文件目录和数据库路径。
- 从配置文件中加载数据库路径。
参数:
files_dir
:指定包含数据文件(CSV/XLSX)的目录。
执行流程:
- 通过
LoadConfig
加载配置(如数据库存储路径)。 - 列出指定目录下的所有文件并存储到
self.file_dir_list
。 - 使用
SQLAlchemy
的create_engine
方法初始化 SQLite 数据库连接。
3. 私有方法 _prepare_db
def _prepare_db(self):
作用:
- 遍历指定目录中的所有文件,将 CSV 和 XLSX 文件转换为 Pandas DataFrame,然后保存到 SQLite 数据库中。
执行流程:
- 遍历目录中的文件:
- 判断文件扩展名,读取 CSV 或 XLSX 文件到 DataFrame。
- 如果文件不是
.csv
或.xlsx
,抛出ValueError
。
- 检查 SQL 数据库中是否已存在与文件名同名的表:
- 使用
inspect(self.engine).get_table_names()
检查表是否已存在。 - 如果存在,跳过该文件。
- 使用
- 如果表不存在,则通过 Pandas 的
to_sql
方法将 DataFrame 写入数据库。
额外说明:
- 表名:使用文件名(去掉扩展名)作为表名。
- 重复表处理:如果表已存在,输出提示并跳过。
4. 私有方法 _validate_db
def _validate_db(self):
作用:
- 验证 SQL 数据库中的表是否已成功创建,并打印所有表名。
执行流程:
- 调用
inspect(self.engine).get_table_names()
获取数据库中所有表的列表。 - 打印数据库中的表名,便于用户确认表是否成功创建。
5. 公共方法 run_pipeline
def run_pipeline(self):
作用:
- 作为主入口,依次调用
_prepare_db
和_validate_db
,完成数据导入和验证。
执行流程:
- 调用
_prepare_db
方法,将数据文件转换为 SQL 表。 - 调用
_validate_db
方法,验证所有表的创建情况。
示例执行流程
- 初始化类实例:
processor = PrepareSQLFromTabularData("path/to/your/files")
- 运行数据导入和验证管道:
processor.run_pipeline()
- 假设文件夹包含文件
cancer.csv
和diabetes.xlsx
,数据库中已有表cancer
。程序输出可能如下:
Number of csv files: 2
Table 'cancer' already exists. Skipping...
==============================
All csv files are saved into the sql database.
==============================
Available table names in created SQL DB: ['cancer', 'diabetes']
==============================
关键点总结
-
SQLAlchemy 的使用:
- 使用
create_engine
连接 SQLite 数据库。 - 使用
inspect
检查数据库中已存在的表。
- 使用
-
重复表的处理:
- 如果表已存在,则跳过,不覆盖数据。
-
Pandas 的集成:
- 使用
pd.read_csv
和pd.read_excel
读取文件。 - 使用
to_sql
方法将数据写入数据库。
- 使用
-
代码逻辑清晰:
- 数据准备与验证分开处理,方便调试和扩展。
扩展建议
- 支持其他文件格式:可以扩展支持 JSON 或 Parquet 文件。
- 异常处理:为数据库连接、文件读取等关键步骤添加更细化的异常处理。
- 日志功能:将信息输出(如表跳过提示)写入日志文件,便于后续分析。
完整代码:
app_config.yml:
directories:stored_csv_xlsx_directory: data/csv_xlsxsqldb_directory: data/sqldb.dbuploaded_files_sqldb_directory: data/uploaded_files_sqldb.dbstored_csv_xlsx_sqldb_directory: data/csv_xlsx_sqldb.dbpersist_directory: data/chromallm_config:agent_llm_system_role: "Given the following user question, corresponding SQL query, and SQL result, answer the user question.\nQuestion: {question}\nSQL Query: {query}\nSQL Result: {result}\nAnswer: "rag_llm_system_role: "You will recieve the user's question along with the search results of that question over a database. Give the user the proper answer."engine: "gpt-35-turbo"temperature: 0.0rag_config:collection_name: titanic_smalltop_k: 1
prepare_sqlitedb_from_csv_xlsx.py:
import os
import pandas as pd
from utils.load_config import LoadConfig
from sqlalchemy import create_engine, inspectclass PrepareSQLFromTabularData:"""A class that prepares a SQL database from CSV or XLSX files within a specified directory.This class reads each file, converts the data to a DataFrame, and thenstores it as a table in a SQLite database, which is specified by the application configuration."""def __init__(self, files_dir) -> None:"""Initialize an instance of PrepareSQLFromTabularData.Args:files_dir (str): The directory containing the CSV or XLSX files to be converted to SQL tables."""APPCFG = LoadConfig()self.files_directory = files_dirself.file_dir_list = os.listdir(files_dir)db_path = APPCFG.stored_csv_xlsx_sqldb_directorydb_path = f"sqlite:///{db_path}"self.engine = create_engine(db_path)print("Number of csv files:", len(self.file_dir_list))def _prepare_db(self):"""Private method to convert CSV/XLSX files from the specified directory into SQL tables.Each file's name (excluding the extension) is used as the table name.The data is saved into the SQLite database referenced by the engine attribute."""for file in self.file_dir_list:full_file_path = os.path.join(self.files_directory, file)file_name, file_extension = os.path.splitext(file)if file_extension == ".csv":df = pd.read_csv(full_file_path)elif file_extension == ".xlsx":df = pd.read_excel(full_file_path)else:raise ValueError("The selected file type is not supported")insp = inspect(self.engine)# 检查表是否已存在insp = inspect(self.engine)if file_name in insp.get_table_names():print(f"Table '{file_name}' already exists. Skipping...")else:df.to_sql(file_name, self.engine, index=False)print("==============================")print("All csv files are saved into the sql database.")def _validate_db(self):"""Private method to validate the tables stored in the SQL database.It prints out all available table names in the created SQLite databaseto confirm that the tables have been successfully created."""insp = inspect(self.engine)table_names = insp.get_table_names()print("==============================")print("Available table nasmes in created SQL DB:", table_names)print("==============================")def run_pipeline(self):"""Public method to run the data import pipeline, which includes preparing the databaseand validating the created tables. It is the main entry point for converting filesto SQL tables and confirming their creation."""self._prepare_db()self._validate_db()
输出:
查看sqlite3数据库中的数据:
import pandas as pd
from pyprojroot import here
from sqlalchemy import create_engine, inspect,textdb_path = str(here("data")) + "/csv_xlsx_sqldb.db"
db_path = f"sqlite:///{db_path}"engine = create_engine(db_path)def list_tables_and_data(engine):# 列出所有表名insp = inspect(engine)table_names = insp.get_table_names()print("Available tables in the database:", table_names)# 遍历每张表并打印前5行数据with engine.connect() as connection:for table in table_names:print(f"\nData from table '{table}':")query = text(f"SELECT * FROM {table} LIMIT 5;")result = connection.execute(query)for row in result:print(row)list_tables_and_data(engine)
代码运行结果:
相关文章:
使用 SQL 和表格数据进行问答和 RAG(6)—将指定目录下的 CSV 或 Excel 文件导入 SQLite 数据库
将指定目录下的 CSV 或 Excel 文件导入 SQLite 数据库。以下是详细代码逻辑: 1. 类结构 该类包含三个主要方法: _prepare_db:负责将文件夹中的 CSV 和 XLSX 文件转换为 SQL 表。_validate_db:用于验证 SQL 数据库中创建的表是否…...
【算法】算法大纲
这篇文章介绍计算机算法的各个思维模式。 包括 计数原理、数组、树型结构、链表递归栈、查找排序、管窥算法、图论、贪心法和动态规划、以及概率论:概率分治和机器学习。没有办法逐个说明,算法本身错综复杂,不同的算法对应着不同的实用场景,也需要根据具体情况设计与调整。…...
vue(2,3), react (16及以上)开发者工具资源
在前端开发的广阔领域中,Vue.js 和 React.js 作为两大主流框架,各自拥有庞大的用户群体和丰富的生态系统。为了帮助开发者更高效地进行调试和开发,Vue Devtools 和 React 开发者工具应运而生,成为这两个框架不可或缺的辅助工具。本…...
系统编程(网络,文件基础)
网络链接 虚拟机和主机之间网络连接的主要模式有三种,分别是桥接模式(Bridged)、网络地址转换模式(NAT)以及主机模式(Host-Only)。以下是这三种模式的详细解释: 一、桥接模式&…...
重温设计模式--13、策略模式
策略模式介绍 文章目录 策略模式介绍C 代码示例 策略模式是一种行为设计模式,它允许在运行时选择算法的行为。该模式将算法的定义和使用分离开来,使得算法可以独立于使用它的客户端而变化,提高了代码的灵活性和可维护性。 其主要包含以下几个…...
数字IC设计高频面试题
在数字IC设计领域,面试是评估候选人技术能力和问题解决能力的重要环节。数字IC设计的复杂性和要求在不断提高。面试官通常会提出一系列面试题,以考察应聘者在数字设计、验证、时钟管理、功耗优化等方面的专业知识和实践经验。 这些题目不仅涉及理论知识…...
C#异步多线程——ThreadPool线程池
C#实现异步多线程的方式有多种,以下总结的是ThreadPool的用法。 线程池的特点 线程池受CLR管理,线程的生命周期,任务调度等细节都不需要我们操心了,我们只需要专注于任务实现,使用ThreadPool提供的静态方法把我们的任…...
矩母函数(MGF)
矩母函数(MGF)简介 矩母函数(Moment Generating Function,MGF)是概率统计中描述随机变量分布特征的重要工具。MGF的主要用途是通过导数来计算随机变量的矩(比如均值、方差等),同时它…...
【技术支持】安卓无线adb调试连接方式
Android 10 及更低版本,需要借助 USB 手机和电脑需连接在同一 WiFi 下;手机开启开发者选项和 USB 调试模式,并通过 USB 连接电脑(即adb devices可以查看到手机);设置手机的监听adb tcpip 5555;拔掉 USB 线…...
OpenCV相机标定与3D重建(46)将三维空间中的点投影到二维图像平面上函数projectPoints()的使用
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 将3D点投影到图像平面上。 cv::projectPoints 是 OpenCV 库中的一个函数,用于将三维空间中的点投影到二维图像平面上。这个过程涉及到…...
Android wifi常见问题及分析
参考 Android Network/WiFi 那些事儿 前言 本文将讨论几个有意思的网络问题,同时介绍 Android 上常见WiFi 问题的分析思路。 网络基础Q & A 一. 网络分层缘由 分层想必大家很熟悉,是否想过为何需要这样分层? 网上大多都是介绍每一层…...
如何用 ESP32-CAM 做一个实时视频流服务器
文章目录 ESP32-CAM 概述ESP32-S 处理器内存Camera 模块MicroSD 卡槽天线板载 LED 和闪光灯其他数据手册和原理图ESP32-CAM 功耗 ESP32-CAM 引脚参考引脚排列GPIO 引脚哪些 GPIO 可以安全使用?GPIO 0 引脚MicroSD 卡引脚 ESP32-CAM 的烧录方式使用 ESP32-CAM-MB 编程…...
编译与汇编
本文来自《程序员的自我修养》 编译过程是把预处理完的文件进行一系列词法分析,语法分析,语义分析以及优化后生成相应的汇编文件代码。 现在版本的GCC把预编译和编译两个步骤合并为一个步骤。 gcc -S HelloWorld.c HelloWorld.sint main() {//test/* …...
Linux入门攻坚——43、keepalived入门-1
Linux Cluster(Linux集群的类型):LB、HA、HPC,分别是负载均衡集群、高可用性集群、高性能集群。 LB:lvs,nginx HA:keepalived,heartbeat,corosync,cman HP&am…...
备考蓝桥杯:顺序表相关算法题
目录 询问学号 寄包柜 移动0 颜色分类 合并两个有序数组 物品移动 询问学号 我们的思路:创建一个顺序表存储从1开始依次存放进入教室的学生学号,然后查询 #include <iostream> #include <vector> using namespace std; const int N 2…...
【STM32+QT项目】基于STM32与QT的智慧粮仓环境监测与管理系统设计(完整工程资料源码)
视频演示: 基于STM32与QT的智慧粮仓环境监测与管理系统设计 目录: 目录 视频演示: 目录: 前言:...
Vue3 自定义hook
文章目录 Vue3 自定义hook概述用法 Vue3 自定义hook 概述 Vue3推荐利用Vue的组合式API函数进行代码封装,这种封装方式统称为自定义hook。 用法 定义 hook/countHook.js: import {computed, ref, watch} from "vue";export default (initC…...
【VBA】【EXCEL】将某列内容横向粘贴到指定行
Sub CopyRowToColumn()On Error GoTo ErrorHandler 添加错误处理Application.ScreenUpdating FalseApplication.Calculation xlCalculationManualApplication.EnableEvents False 禁用事件处理Dim lastCol As LongDim lastRow As LongDim i As Long, colCount As LongDim …...
使用Llama 3.1创建合成数据集以调优你的大型语言模型
使用Llama 3.1创建合成数据集以调优你的大型语言模型 在数据驱动的人工智能领域,数据是核心资产。开发高质量数据集既复杂又昂贵,因此很多实验室和开发者选择使用合成数据集。本文将介绍如何利用大型语言模型Llama 3.1 405B创建合成数据集,并…...
【Ubuntu22.04】VMware虚拟机硬盘扩容
1.首先打开虚拟机设置 2.根据需要对硬盘扩展 这边提示我们还需要进入虚拟机在内部分区 3.安装界面化磁盘管理工具 # 安装 sudo apt install gparted# 启动 sudo gparted调整硬盘大小 调整的时候会提示我们硬盘是只读的,因此还要进行操作 新建终端重新挂载文件系…...
初学stm32 --- DMA直接存储器
目录 DMA介绍 STM32F1 DMA框图 DMA处理过程 DMA通道 DMA优先级 DMA相关寄存器介绍 F1 DMA通道x配置寄存器(DMA_CCRx) DMA中断状态寄存器(DMA_ISR) DMA中断标志清除寄存器(DMA_IFCR) DMA通道x传输…...
reactor中的并发
1. reactor中的并发有两种方式 1.1 flatmap,底层是多线程并发处理。在reactor的演讲中,flatmap对于io类型的并发效果较好. flamap有两个参数: int concurrency, int prefetch。分别代表并发的线程数和缓存大小 注意凡是参数中有prefetch的,都…...
HTML - <script>,<noscript>
<script>标签用于在网页插入脚本,<noscript>标签用于指定浏览器不支持脚本时的显示内容。 1.<script> <script>用于加载脚本代码,目前主要是加载 JavaScript 代码。 <script> console.log(hello world); </script&g…...
C#语言的函数实现
C#语言的函数实现 在现代编程语言中,函数(Function)是最基本也是最重要的组成部分之一。函数不仅提高了代码的复用性,还使得程序结构更清晰。C#作为一种多用途的编程语言,函数的知识是程序员必备的基本技能之一。本文…...
JAVA I/O流练习1
往D盘中的JAVA复习文件夹中写数据: 数据改了一下哈: import java.io.*; import java.util.Scanner; public class Test {public static void main(String[] args) throws IOException {String fileName"D:JAVA复习\\grade.txt";FileWriter w…...
HTML——75. 内联框架
<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>内联框架</title><style type"text/css">iframe{width: 100%;height: 500px;}</style></head><body><!--iframe元素会创建包含…...
js获取当前浏览器地址,ip,端口号等等
前言: js获取当前浏览器地址,ip,端口号等等 window.location属性查询 具体属性: 1、获取他的ip地址 window.location.hostname 2、获取他的端口号 window.location.port 3、获取他的全路径 window.location.origin 4、获取…...
C++虚函数(八股总结)
什么是虚函数 虚函数是在父类中定义的一种特殊类型的函数,允许子类重写该函数以适应其自身需求。虚函数的调用取决于对象的实际类型,而不是指针或引用类型。通过将函数声明为虚函数,可以使继承层次结构中的每个子类都能够使用其自己的实现&a…...
【每日学点鸿蒙知识】跳转三方地图、getStringSync性能、键盘避让模式等
1、跳转三方地图导航页 类似于Android 跳转到地图APP 导航页面: // 目标地点的经纬度和名称 double destinationLat 36.547901; double destinationLon 104.258354; String destinationName "目的地名称"; // 构建URI Uri uri Uri.parse("…...
【线性代数】通俗理解特征向量与特征值
这一块在线性代数中属于重点且较难理解的内容,下面仅个人学习过程中的体会,错误之处欢迎指出,有更简洁易懂的理解方式也欢迎留言学习。 文章目录 概念计算几何直观理解意义 概念 矩阵本身就是一个线性变换,对一个空间中的向量应用…...
C#设计模式(行为型模式):备忘录模式,时光倒流的魔法
C#设计模式:备忘录模式,时光倒流的魔法 在软件开发中,我们经常会遇到需要保存对象状态,并在未来某个时刻恢复的场景。例如: 撤销操作: 文本编辑器中的撤销功能,游戏中的回退操作。事务回滚&am…...
服务器信息整理:用途、操作系统安装日期、设备序列化、IP、MAC地址、BIOS时间、系统
文章目录 引言I BIOS时间Windows查看BIOS版本安装日期linux查看BIOS时间II 操作系统安装日期LinuxWindowsIII MAC 地址IV 设备序列号Linux 查看主板信息知识扩展Linux常用命令引言 信息内容:重点信息:用途、操作系统安装日期、设备序列化、IP、MAC地址、BIOS时间、系统 Linux…...
用OpenCV实现UVC视频分屏
分屏 OpencvUVC代码验证后话 用OpenCV实现UVC摄像头的视频分屏。 Opencv opencv里有很多视频图像的处理功能。 UVC Usb 视频类,免驱动的。视频流格式有MJPG和YUY2。MJPG是RGB三色通道的。要对三通道进行分屏显示。 代码 import cv2 import numpy as np video …...
【C#学习】基类的静态变量 派生类会如何处理
来源GPT,仅记录学习 在C#中,子类继承父类的public static变量时,父类的静态变量对所有类(包括子类)都是共享的。子类并不会重新创建父类静态变量,而是共享父类的静态成员。 具体行为: 静态变量…...
Unity3D仿星露谷物语开发19之库存栏丢弃及交互道具
1、目标 从库存栏中把道具拖到游戏场景中,库存栏中道具数相应做减法或者删除道具。同时在库存栏中可以交换两个道具的位置。 2、UIInventorySlot设置Raycast属性 在UIInventorySlot中,我们只希望最外层的UIInventorySlot响应Raycast,他下面…...
SQL进阶实战技巧:如何利用 Oracle SQL计算线性回归置信区间?
目录 1 置信区间计算方法 步骤1:计算回归系数 步骤2:计算标准误差 步骤3:计算置信区间 2 数据准备 <...
计算机网络——网络层—IP数据报与分片
一、IP 数据报的格式 • 一个 IP 数据报由首部和数据两部分组成。 • 首部的前一部分是固定长度,共 20 字节,是所有 IP 数据报必须具有的。 • 在首部的固定部分的后面是一些可选字段,其长度是可变的。 IP 数据报首部的固定部分中的各字段 版…...
高山旅游景区有效降低成本,无人机山下到山上物资吊运技术详解
在高山旅游景区,传统的物资运输方式往往面临人力成本高昂、效率低下等问题,而无人机技术的引入为这一难题提供了新的解决方案。以下是对无人机从山下到山上进行物资吊运技术的详细解析: 一、无人机物资吊运技术的优势 1. 降低人力成本&#…...
Linux 注册线程化的中断处理程序
1. 注册线程化中断处理函数 devmem_request_threaded_irq 是 Linux 内核中的一个函数,用于请求并注册一个线程化的中断处理程序。这个函数允许开发者注册一个中断处理函数,这个函数会在中断发生时被调用,从而实现相应的中断处理逻辑。它通过…...
【狂热算法篇】解锁数据潜能:探秘前沿 LIS 算法
嘿,各位编程爱好者们!今天带来的 LIS 算法简直太赞啦 无论你是刚入门的小白,还是经验丰富的大神,都能从这里找到算法的奇妙之处哦!这里不仅有清晰易懂的 C 代码实现,还有超详细的算法讲解,让你轻…...
Linux: 关于 mount 的一些细节
文章目录 1. 前言2. mount 的主要细节 1. 前言 限于作者能力水平,本文可能存在谬误,因此而给读者带来的损失,作者不做任何承诺。 2. mount 的主要细节 mount 从系统调用 sys_mount() 发起,如 mount -t tmpfs cgroup /sys/fs/cg…...
CSS3——3. 书写格式二
<!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title></head><body><!--css书写:--><!--1. 属性名:属性值--><!--2.属性值是对属性的相关描述--><!--3.属性名必须是…...
Java-JVM详解
Java-JVM ①JVM概述 ❶基本介绍 JVM:全称 Java Virtual Machine,一个虚拟计算机,Java 程序的运行环境(Java二进制字节码的运行环境) 特点: Java 虚拟机基于二进制字节码执行,由一套字节码指…...
docker搭建atlassian-confluence:7.2.0
文章目录 引言I 部署前准备数据库镜像准备自己构建镜像dockerhub第三方镜像II 安装启动容器基础配置(获取服务器ID)授权码获取集群选择设置数据库配置管理员账号引言 准备数据库、镜像启动容器获取服务器ID根据服务器ID等信息,基于atlassian-agent.jar 授权I 部署前准备 数…...
YOLOv8实战人员跌倒检测
本文采用YOLOv8作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv8以其高效的实时检测能力,在多个目标检测任务中展现出卓越性能。本研究针对人员跌倒目标数据集进行训练和优化,该数据集包含丰富人员跌倒图像样…...
瑞芯微rk3568平台 openwrt系统适配ffmpeg硬件解码(rkmpp)
瑞芯微rk3568平台 openwrt系统适配ffmpeg硬件解码(rkmpp) RK3568及rkmpp介绍编译安装mpp获取源码交叉编译安装 libdrmlibdrm-2.4.89 make 方式编译(cannot find -lcairo, 不推荐)下载源码编译编译错误: multiple definition of `nouveau debug‘错误cannot find -lcairo:…...
自动驾驶控制与规划——Project 6: A* Route Planning
目录 零、任务介绍一、算法原理1.1 A* Algorithm1.2 启发函数 二、代码实现三、结果分析四、效果展示4.1 Dijkstra距离4.2 Manhatten距离4.3 欧几里德距离4.4 对角距离 五、后记 零、任务介绍 carla-ros-bridge/src/ros-bridge/carla_shenlan_projects/carla_shenlan_a_star_p…...
wordpress报错open_basedir restriction in effect
Warning: file_exists(): open_basedir restriction in effect. File(/www/wwwroot/wp-content/plugins/woocommerce/patterns/banner.php) is not within the allowed path(s): 关闭防跨站攻击...
VSCode Live Server 插件安装和使用
VSCode Live Server是一个由Ritwick Dey开发的Visual Studio Code扩展插件,它提供了一个带有实时重载功能的本地开发服务器。在VSCode中安装和使用Live Server插件进行实时预览和调试Web应用程序。这将大大提高前端开发效率,使网页设计和开发变得更为流畅…...
网络安全-XSS跨站脚本攻击(基础篇)
漏洞扫描的原理 1.跨站脚本攻击介绍 xss跨站脚本攻击: xSS 全称(Cross site Scripting )跨站脚本攻击,是最常见的Web应用程序安全漏洞之一,位于OWASP top 10 2013/2017年度分别为第三名和第七名,XSS是指攻…...