当前位置: 首页 > news >正文

Python数据整合与转换全攻略

在大数据时代,企业平均使用16个不同数据源,但数据利用率不足30%。数据整合与转换能力已成为数据工程师的核心竞争力。本文将通过电商订单数据整合实战,系统讲解Python数据整合与转换的核心技术栈。

一、数据整合的三大挑战与应对策略

1. 数据孤岛困境

  • 典型场景:订单数据存于MySQL,用户行为日志在MongoDB,第三方API返回JSON
  • 破局方案
    # 多源数据统一读取
    from sqlalchemy import create_engine
    import pymongo
    import requests# 关系型数据库
    mysql_engine = create_engine('mysql+pymysql://user:pass@localhost/ecommerce')
    orders_df = pd.read_sql('SELECT * FROM orders', mysql_engine)# NoSQL数据库
    mongo_client = pymongo.MongoClient('mongodb://localhost:27017/')
    logs_df = pd.DataFrame(list(mongo_client.analytics.pageviews.find()))# API数据获取
    response = requests.get('https://api.external.com/inventory')
    inventory_df = pd.json_normalize(response.json()['data'])
    

2. 结构差异处理

  • 核心矛盾:订单表字段为snake_case,日志表使用camelCase,API返回驼峰式
  • 统一方案
    # 动态字段映射
    field_mapping = {'order_id': 'orderID','user_name': 'username','product_code': 'productCode'
    }def standardize_columns(df, mapping):return df.rename(columns={v: k for k, v in mapping.items()})orders_df = standardize_columns(orders_df, field_mapping)
    

3. 数据粒度对齐

  • 典型问题:订单数据粒度为订单级,日志数据为点击流级
  • 解决方案
    # 上卷聚合示例
    order_summary = orders_df.groupby('user_id').agg({'order_total': 'sum','order_count': 'count'
    }).reset_index()# 下钻展开示例
    logs_expanded = logs_df.explode('event_sequence')
    

二、数据转换核心技术矩阵

1. 维度转换

宽表转长表

# 订单明细转换
order_items_long = orders_df.melt(id_vars=['order_id', 'order_date'],value_vars=['product_1', 'product_2', 'product_3'],var_name='product_slot',value_name='product_sku'
).dropna()

长表转宽表

# 用户行为透视
user_behavior_wide = logs_df.pivot_table(index='user_id',columns='event_type',values='event_count',aggfunc='sum',fill_value=0
)

2. 数据类型转换

隐式转换防御

# 强制类型转换
def safe_convert(df, column, target_type):try:df[column] = df[column].astype(target_type)except ValueError:df[f'{column}_clean'] = pd.to_numeric(df[column], errors='coerce').astype(target_type)return df

JSON字段展开

# 嵌套JSON处理
from pandas import json_normalizedevice_info = json_normalize(logs_df['device_info'].apply(json.loads)
)
logs_df = pd.concat([logs_df, device_info], axis=1)

3. 高级转换技巧

条件生成新列

# 用户价值分层
def calculate_rfm(row):recency = (pd.Timestamp.today() - row['last_order_date']).daysreturn pd.Series({'R_Score': 5 - min(recency // 30, 4),'F_Score': min(row['order_count'], 5),'M_Score': min(row['total_spent'] // 100, 5)})rfm_scores = orders_df.groupby('user_id').apply(calculate_rfm)

滑动窗口计算

# 7日移动平均
orders_df['7d_moving_avg'] = orders_df.groupby('user_id')['order_total'].transform(lambda x: x.rolling(7, min_periods=1).mean()
)

三、整合转换工作流实战

1. 电商用户360°视图构建

# 数据加载
orders = pd.read_parquet('s3://data-lake/orders/')
returns = pd.read_csv('hdfs:///data/returns.csv')
support_tickets = spark.read.json('dbfs:/data/support_tickets')# 实体解析
user_graph = (orders.merge(returns, how='outer', on='user_id').merge(support_tickets, how='outer', on='user_id')
)# 特征增强
user_graph = user_graph.assign(lifetime_value=lambda x: x.order_total.fillna(0) - x.return_amount.fillna(0),support_sentiment=lambda x: x.ticket_text.apply(text_sentiment_analysis)
)# 持久化存储
user_graph.to_parquet('s3://analytics/user_360/', partition_cols=['region'])

2. 实时数据管道优化

# Kafka流处理
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json, colspark = SparkSession.builder.appName("RealTimeETL").getOrCreate()# 定义模式
schema = StructType([StructField("event_time", TimestampType()),StructField("user_id", StringType()),StructField("event_data", MapType(StringType(), StringType()))
])# 消费Kafka数据
raw_stream = spark.readStream \.format("kafka") \.option("kafka.bootstrap.servers", "kafka-broker:9092") \.option("subscribe", "raw_events") \.load()# 解析处理
processed_stream = raw_stream.selectExpr("CAST(value AS STRING)"
).select(from_json(col("value"), schema).alias("data")
).select("data.event_time","data.user_id","data.event_data.*"
)# 写入Delta Lake
query = processed_stream.writeStream \.outputMode("append") \.format("delta") \.option("checkpointLocation", "hdfs:///checkpoints/event_stream") \.start("hdfs:///delta/events")

四、性能优化秘籍

1. 内存管理技巧

  • 使用category类型优化高基数文本列
    df['product_category'] = df['product_category'].astype('category')
    
  • 稀疏数据结构应用
    from scipy.sparse import csr_matrix
    user_item_matrix = csr_matrix(df[['user_id', 'product_id', 'rating']].values)
    

2. 并行计算加速

  • Dask并行处理

    import dask.dataframe as dddask_df = dd.read_parquet('s3://big-data/*')
    result = dask_df.groupby('user_id')['amount'].sum().compute()
    
  • Modin加速Pandas

    import modin.pandas as mpd
    df = mpd.read_csv('large_file.csv')
    

3. 存储优化策略

  • Parquet列式存储
    df.to_parquet('data.parquet',engine='pyarrow',compression='SNAPPY',partition_cols=['date']
    )
    
  • Delta Lake事务支持
    spark.sql("CREATE TABLE user_events USING DELTA LOCATION 'hdfs:///delta/events'")
    

五、典型应用场景解析

1. 营销归因分析

# 多触点归因模型
attribution_weights = {'click': 0.2,'view': 0.1,'search': 0.3,'email_open': 0.4
}logs_df['attribution_score'] = logs_df['event_type'].map(attribution_weights)
channel_impact = logs_df.groupby('marketing_channel')['attribution_score'].sum()

2. 供应链优化

# 安全库存计算
safety_stock = inventory_df.groupby('product_id').apply(lambda x: (x['demand_std'] * 1.65) + x['lead_time_days'].mean() * x['avg_daily_demand']
)

3. 财务对账自动化

# 三方对账引擎
def reconcile(payment_df, settlement_df, bank_df):merged = payment_df.merge(settlement_df, how='outer', on='transaction_id',suffixes=('_payment', '_settlement')).merge(bank_df,how='outer',on='transaction_id',suffixes=('', '_bank'))reconciliation_report = merged[(merged['amount_payment'] != merged['amount_settlement']) |(merged['status_settlement'] != 'CLEARED') |(merged['amount_bank'] != merged['amount_payment'])]return reconciliation_report

六、未来趋势展望

  1. AI驱动转换:自动特征工程(FeatureTools)、智能数据类型推断
  2. 云原生整合:AWS Glue、Azure Data Factory的无缝集成
  3. 隐私计算:联邦学习在数据不出域前提下的模型训练
  4. 实时湖仓:Delta Lake、Iceberg支持的ACID事务处理

数据整合与转换是化数据为资产的炼金术。从多源异构数据的连接,到业务价值的深度挖掘,Python生态提供了完整的工具链。建议读者通过真实业务场景进行实战演练,在解决具体问题中掌握这些核心技能。记住:优秀的数据工程师不是库的搬运工,而是数据价值的翻译官。

相关文章:

Python数据整合与转换全攻略

在大数据时代,企业平均使用16个不同数据源,但数据利用率不足30%。数据整合与转换能力已成为数据工程师的核心竞争力。本文将通过电商订单数据整合实战,系统讲解Python数据整合与转换的核心技术栈。 一、数据整合的三大挑战与应对策略 1. 数…...

ArcGIS操作16:添加经纬网

1、单击视图 > 数据框属性 2、单击格网选项卡 > 新建格网按钮 3、创建经纬网 4、经纬网标注间隔需要自己多次尝试,选择一个合适的值,这里江苏省选择50 5、继续设置合适的参数 6、点击应用,预览是否合适(不合适再新建一个经…...

BioID技术:探索蛋白质相互作用的新方法

在细胞的复杂环境中,蛋白质并非孤立地执行其功能,而是通过与其他蛋白质相互协作来完成各种生物学过程。理解蛋白质相互作用网络对于揭示细胞机制和疾病发生发展具有至关重要的意义。近年来,一种名为BioID(Biotin Identification&a…...

Java 大视界——Java大数据在智慧交通智能停车诱导系统中的数据融合与实时更新

智慧交通的快速发展对城市停车资源的高效利用提出了更高要求,而智能停车诱导系统作为缓解“停车难”问题的核心手段,亟需解决多源数据融合、实时状态更新及高并发访问等挑战。Java凭借其稳定的大数据生态、卓越的实时计算能力及跨平台兼容性,…...

【Redisson】快速实现分布式锁

大家好,我是jstart千语。之前给大家分享过使用redis的set nx ex命令实现分布式锁。但手动的实现方式不仅麻烦,而且不好管理。实现出来的锁也是不可重入的,不可重试的。那么在要求比较高的系统中,就不太适用了。虽然说重入问题可以…...

内核常见面试问题汇总

1、Linux 中主要有哪几种内核锁?它们各自的特点和适用场景是什么? 自旋锁 自旋锁是一种忙等待锁,当一个线程试图获取一个被占用的自旋锁时,他会一直循环在那里,不断地检查锁是否可用,而不会进入睡眠状态。 自旋锁的优点这是在锁被持有的时间很短的情况下,性能非常高,…...

laravel中如何使用Validator::make定义一个变量是 ,必传的,json格式字符串

在 Laravel 中,使用 Validator::make 定义一个变量为必传且为JSON 格式字符串时,可以通过以下方式实现: use Illuminate\Support\Facades\Validator;$validator Validator::make($request->all(), [your_field > required|json, // 必…...

【全解析】EN18031标准下的NMM网络监控机制

上一篇文章我们了解了RLM机制如何为设备抵御DoS攻击保驾护航,今天我们将目光转向 EN18031 标准中的另一个重要防线——NMM(Network Monitoring Mechanism)网络监控机制。 NMM - 1规定,如果设备是网络设备,应提供网络监…...

浏览器开发随笔

浏览器多进程架构(Chrome) ----------------------------- | Browser Process | |-----------------------------| | UI 线程、主控、导航、安全策略 | -----------------------------| | |↓ ↓ ↓ -------…...

漏洞类型与攻击技术

1.1 SQL注入 1.1.1 SQL注入简介与原理 SQL注入是通过用户输入的数据中插入恶意SQL代码,绕过应用程序对数据库的合法操作,进而窃取、篡改或删除数据的攻击方式。核心原理是应用程序未对用户输入进行严格过滤,导致攻击者可以操控SQL语句逻辑。 1.1.2 联合查询注入与报…...

day018-磁盘管理-案例

文章目录 1. 磁盘分区1.1 手动磁盘分区1.2 重装系统,保留分区1.2.1 选择从光盘启动1.2.2 保留系统盘分区1.2.3 挂载数据盘 2. 物理服务器使用流程3. swap3.1 增加swap3.2 关闭swap 4. 故障案例(红帽类系统)4.1 root密码忘记,重新设…...

spark调度系统核心组件SparkContext、DAGSchedul、TaskScheduler介绍

目录 1. SparkContext2.DAGScheduler3. TaskScheduler4. 协作关系Spark调度系统的核心组件主要有SparkContext、DAGScheduler和TaskScheduler SparkContext介绍 1. SparkContext 1、资源申请: SparkContext是Spark应用程序与集群管理器(如Standalone模式下的Master、Yarn模…...

python数据可视化第三章数值计算基础

numpy库 数组创建 import numpy as np #创建n维数组array a np.array([1, 2, 3]) b np.array([4, 5, 6]) #可以直接运算 print(a 1) # [2 3 4] print(ab) # [5 7 9] #数组的维度:ndim print(a.ndim) #1 #数组的形状:shape print(a.shape) #(3,) 一维…...

std::chrono类的简单使用实例及分析

author: hjjdebug date: 2025年 05月 20日 星期二 14:36:17 CST descrip: std::chrono类的简单使用实例及分析 文章目录 1.实例代码:2. 代码分析:2.1 auto t1 std::chrono::high_resolution_clock::now();2.1.1 什么是 system_clock2.1.2 什么是 chrono::time_point?2.1.3 什…...

MongoDB 学习(三)Redis 与 MongoDB 的区别

目录 一、NoSQL 数据库与关系型数据库的优缺点二、Redis 与 MongoDB 的区别 MongoDB 和 Redis 都是 NoSQL 数据库,采用 结构型数据存储,而非 MySQL、Oracle 等则属于传统的 关系型数据库。 一、NoSQL 数据库与关系型数据库的优缺点 关系型数据库&#…...

Java双指针法:原地移除数组元素

Java双指针法&#xff1a;原地移除数组元素 代码解析关键点示例特点 代码解析 class Solution {public int removeElement(int[] nums, int val) {int cur 0; // 初始化一个指针 cur&#xff0c;表示新数组的当前写入位置for (int i 0; i < nums.length; i) { // 遍历原数…...

第二届帕鲁杯时空交织的密语

题目描述&#xff1a; 我们在暗网服务器中发现了一个神秘文件&#xff0c;据说是某个黑客组织的「时空密钥」&#xff0c;文件内容似乎由大量时间戳构成。情报显示&#xff0c;只有将时间维度与二进制低语结合才能解开秘密。线索隐藏在时空的起点与终点之间。 解压得到timestr…...

【神经网络与深度学习】扩散模型之原理解释

引言&#xff1a; 在人工智能的生成领域&#xff0c;扩散模型&#xff08;Diffusion Model&#xff09;是一项极具突破性的技术。它不仅能够生成高质量的图像&#xff0c;还可以应用于音频、3D建模等领域。扩散模型的核心思想来源于物理扩散现象&#xff0c;其工作方式类似于从…...

Map更简洁的编码构建

Map的链式构建需求 jdk1.8&#xff0c;编码时需要手动构建一个Map 传统Map构建方式 - 声明列表&#xff0c;依次添加元素&#xff1b; - 利用匿名内部类 实例初始化块&#xff0c;比较简洁声明并添加元素 //1 先声明创建 Map<String, Object> createMap new HashMap&…...

深挖navigator.webdriver浏览器自动化检测的底层分析

本文将带你深入探索并实践如何从底层层面破解浏览器 navigator.webdriver 检测&#xff0c;结合爬虫代理等策略伪装、多线程加速等技术&#xff0c;在豆瓣图书搜索页面上批量采集图书评分、简介、作者等信息。文章面向初学者&#xff0c;采用分步教程型结构&#xff0c;并增设「…...

业务流程和数据结构之间如何对应

业务流程和数据结构之间存在着紧密的对应关系&#xff0c;它们相互依赖、相互影响。以下是它们之间的对应关系以及如何进行对应&#xff1a; 1. 业务流程中的步骤与数据结构的记录 业务流程&#xff1a;业务流程是由一系列的步骤组成的&#xff0c;每个步骤都有明确的任务和目…...

浜掕仈缃戝ぇ鍘傞潰璇曪細璋㈤鏈虹殑鐖嗙瑧姹傝亴涔嬫梾

浜掕仈缃戝ぇ鍘傞潰璇曪細璋㈤鏈虹殑鐖嗙瑧姹傝亴涔嬫梾 绗竴杞細鍩虹鐭ヨ瘑杞扮偢 闈㈣瘯瀹&#xfffd;锛氭垜浠厛鑱婅亰Java鐨勫熀纭&#xfffd;鐭ヨ瘑锛岃阿椋炴満锛屼綘鑳借В閲婁竴涓婮ava涓殑HashMap鏄浣曞伐浣滅殑锛焅n 璋㈤鏈&#xfffd;锛氬摝…...

关于Linux服务器数字取证一

本次讲解apachemysql类型的基本类型 仿真 导入我们的检材 默认是仅主机模式&#xff0c;改成nat模式 查看ip地址 ip addr 修改虚拟机网卡配置 连通性测试 查找根目录 现在我们可以通过ip访问网站&#xff0c;但是网站处于关闭状态 接下来我们去查找配置文件&#xff0c;去…...

电商运营数据分析指南之流量指标

本文电商运营数据分析指南之流量指标主要面向电商行业新人&#xff0c;针对数据分析师/运营人员日常监控中的常见困惑提供解决方案。适合刚接触电商数据监控缺乏思路&#xff0c;或对电商数据指标感兴趣希望系统学习的读者。 电商数据分析如同航海指南针&#xff0c;精准的数据…...

C++初阶-迭代器失效和vector::insert函数的最终实现

目录 1.vector::insert函数 1.1问题分析 1.2vector::insert函数的最终实现 1.3vector::insert函数的分析 2.第二种迭代器失效 3.第三种迭代器失效 4.迭代器失效deepseek的回答 1. 迭代器失效的原因 2. 不同容器的迭代器失效情况 &#xff08;1&#xff09;std::vecto…...

DeepSeek的走红,会不会带动芯片市场新一轮增长?

在大模型竞赛如火如荼的今天&#xff0c;国产AI大模型DeepSeek的迅速走红&#xff0c;无疑为中国AI行业注入了新的活力。从技术突破到商业落地&#xff0c;DeepSeek不仅在技术圈引发了广泛关注&#xff0c;也让“AI大模型”这一关键词再次登上产业链的风口浪尖。但一个更值得深…...

小土堆pytorch--神经网路-卷积层池化层

神经网路-卷积层&池化层 一级目录二级目录三级目录 1. 神经网路-卷积层2. 神经网路最大池化的应用 一级目录 二级目录 三级目录 1. 神经网路-卷积层 在PyTorch中&#xff0c;torch.nn.Conv2d函数定义了一个二维卷积层&#xff0c;其常用参数包括&#xff1a; in_channel…...

什么叫生成式人工智能?职业技能的范式转移与能力重构

当人们谈论人工智能时&#xff0c;常常混淆其不同类型与功能。生成式人工智能作为AI领域的重要分支&#xff0c;其本质不在于分析或分类已有数据&#xff0c;而在于创造新的内容——无论是文本、图像、音乐还是代码。理解这一技术的内涵&#xff0c;不仅关乎技术认知&#xff0…...

集星獭 | 重塑集成体验:新版编排重构仿真电商订单数据入库

概要介绍 新版服务编排以可视化模式驱动电商订单入库流程升级&#xff0c;实现订单、客户、库存、发票、发货等环节的自动化处理。流程中通过循环节点、判断逻辑与数据查询的编排&#xff0c;完成了低代码构建业务逻辑&#xff0c;极大提升订单处理效率与业务响应速度。 背景…...

小白成长之路-Linux磁盘管理(一)

文章目录 前言一、磁盘介绍1、磁盘的物理结构1.1硬盘结构1.2磁头数、磁道、柱面、扇区 2.CHS编号2.1磁道编号规则2.3扇区编号规则2.3通过CHS计算硬盘容量 3、磁盘存储划分3.1第一个扇区存储的数据3.2硬盘分区 4.开机流程5、要点6、磁盘存储数据的形式 二、Linux文件系统1、根文…...

【Linux】第二十四章 管理网络安全

1. 防火墙在 Linux 系统安全中有哪些重要的作用&#xff1f; 防止未经授权的访问 网络流量过滤&#xff0c;常见过滤方式包括&#xff1a;基于 IP 地址、端口、协议类型&#xff08;如 TCP、UDP&#xff09;、源和目标地址等。限制流量速率、阻止来自单个IP或多个IP的高频请求保…...

【解决】SSH 远程失败之路由配置问题

开发平台&#xff1a;RedHat 8   一、问题描述 使用 WindTerm SSH 远程连接 192.168.88.211 虚拟主机&#xff0c;无法连接。   二、问题追溯 VMWare 虚拟机配置 虚拟网卡IPVMNet 模式应用网卡1&#xff08;eth0&#xff09;192.168.88.11/24VMNet 8服务网卡2&#xff08;…...

中级网络工程师知识点9

1.在Linux中&#xff0c;负责配置DNS的文件是/etc/resolv.conf&#xff0c;包含了主机的域名搜索顺序和DNS服务器的地址 2.主域名服务器在接收到域名请求后&#xff0c;首先查询的是本地缓存 3.自动专用地址&#xff1a;169.254.X.X/16 4.FTP默认20端口&#xff0c;传输文件…...

网页前端开发(基础)

前端开发三件客&#xff1a;HTML&#xff0c;CSS&#xff0c;JavaScript。 web标准&#xff0c;也称网页标准&#xff0c;由3个组成部分。1.HTML,管理页面的元素和内容。2.CSS&#xff0c;负责网页的表现&#xff08;页面元素的外观&#xff0c;位置等页面样式。如&#xff1a;…...

Git命令使用全攻略:从创建分支到合并的完整流程

Git命令使用全攻略&#xff1a;从创建分支到合并的完整流程 引言一、初始化项目与基础配置1.1 克隆远程仓库1.2 查看当前分支状态 二、创建与管理分支2.1 从main分支创建新功能分支2.2 查看分支列表2.3 提交代码到新分支2.4 推送分支到GitHub 三、版本发布与标签管理3.1 创建轻…...

边缘智能与量子计算双轮驱动:IVX 开启实时 AI 开发新维度

一、技术跃迁&#xff1a;量子化组件架构如何颠覆传统 AI 开发流程 在传统 AI 开发范式中&#xff0c;将 GPT-4o、Mediapipe 等模型集成到业务系统需要经历 "模型训练 - API 对接 - 前端适配" 的三重技术壁垒。开发团队需同时掌握 TensorFlow、Flask、React 等技术栈…...

对冲策略加仓止损盈思路

外汇交易中的对冲策略&#xff0c;重点在于加仓和盈利出局的策略。该策略通过多种方法来管理头寸&#xff0c;旨在最大化盈利并控制风险。 加仓策略 金字塔加仓法 金字塔加仓法是一种逐步增加头寸的方法。在初始头寸盈利后&#xff0c;以较小的手数逐步增加头寸。这种方法可以在…...

ERP生产环境索引重建:高风险操作还是性能良药?何时动手,如何操刀?

ERP系统是企业运营的核心,其数据库性能至关重要。索引作为提升查询效率的关键,其维护(尤其是重建)操作却常常让DBA和运维工程师们如履薄冰。本文将深入探讨在生产ERP环境中重建索引的潜在风险、必要性评估、最佳实践以及不同数据库的注意事项,旨在帮助技术人员做出明智决策…...

PyTorch 之 torch.distributions.Categorical 详解

PyTorch 之 torch.distributions.Categorical 详解 PyTorch 之 torch.distributions.Categorical 详解一、创建分类分布&#xff08;一&#xff09;基本语法&#xff08;二&#xff09;示例 二、采样&#xff08;一&#xff09;方法&#xff08;二&#xff09;示例 三、计算概率…...

杰发科技AC7840——如何把结构体数据写到Dflash中

1. 结构体数据被存放在Pflash中 正常情况下&#xff0c;可以看到全局变量的结构体数据被存放在Pflash中 数字部分存在RAM中 2. 最小编程单位 8字节编程&#xff0c;因此如果结构体存放在Dfalsh中&#xff0c;进行写操作&#xff0c;需要写8字节的倍数 第一种办法&#xff1a;…...

vue路由小案例

vue路由小案例 案例需求案例实现小结 案例需求 创建二级路由&#xff0c;掌握嵌套路由点击内容&#xff0c;根据不同id实现页面的跳转&#xff0c;掌握传参方式利用routerlink标签封装的类&#xff0c;实现高亮实现重定向&#xff0c;自动跳转到二级页面 案例实现 &#xff…...

链表面试题9之环形链表进阶

那么上一题我们已经知道了双指针的变法以及拓展的用法&#xff0c;那么这里我们直接难度升级。 想回去复习的这里放个链接&#xff1a;链表的面试题8之环形链表-CSDN博客 题目链接&#xff1a;142. 环形链表 II - 力扣&#xff08;LeetCode&#xff09; 我们来看这道题目主要…...

CentOS 7上BIND9配置DNS服务器指南

详细说明如何在 CentOS 7 上配置 BIND9 扮演这四种不同的 DNS 角色&#xff0c;包括配置文件示例和注意事项。 BIND9 可以扮演 DNS 体系中的多种角色&#xff1a; 权威DNS服务器 (Authoritative DNS Server): 存储特定域名&#xff08;例如 example.com&#xff09;的官方DNS记…...

Pytorch针对不同电脑配置详细讲解+安装(CPU)

一、前言 安装pytorch前&#xff0c;应按照我前边的博文中&#xff0c;安装完anaconda和pycharm&#xff0c;并且配置完环境变量以后哈。 Pytorch是什么&#xff1f; 它是一个库,是一个开源的机器学习框架&#xff0c;专注于深度学习任务&#xff0c;由Facebook的人工智能研…...

知识体系_数据分析挖掘_基尼系数

1 概述 基尼系数(gini coefficient)表示在全部居民收入中,用于进行不平均分配的那部分收入占总收入的百分比。社会中每个人的收入都一样、收入分配绝对平均时,基尼系数是0;全社会的收入都集中于一个人、收入分配绝对不平均时,基尼系数是1。现实生活中,两种情况都不可能发…...

Fiddler抓包教程->HTTP和HTTPS基础知识

1.简介 有的伙伴可能会好奇&#xff0c;不是讲解和分享抓包工具,怎么这里开始讲解HTTP和HTTPS协议了。这是因为你对HTTP协议越了解&#xff0c;你就能越掌握Fiddler的使用方法&#xff0c;反过来你越使用Fiddler&#xff0c;就越能帮助你了解HTTP协议。 Fiddler无论对开发人员…...

超级维特根斯坦

AI智能体核心指令:语言智慧融合体 - 深度思辨、专业应用与协同创新大师 1. 角色设定 (Persona) 你将扮演一位“语言智慧融合体”AI,一个集大成的、具备卓越情境智能、精妙引导艺术与长时程战略规划能力的语言思想、艺术与应用科学伙伴。你的核心人格与方法论基于以下杰出贡…...

探索付费社群的成功之道:生财与群响的深度解析

随着互联网技术的发展和用户需求的多样化&#xff0c;付费社群作为一种新型商业模式逐渐崭露头角&#xff0c;并迅速成为众多创业者和个人寻求知识、资源以及人脉的重要平台。本文将深入探讨两个成功的付费社群——生财和群响&#xff0c;分析它们如何在各自领域内取得显著成就…...

【b站计算机拓荒者】【2025】微信小程序开发教程 - 3 项目目录结构

3 项目目录结构 3.1 项目目录结构 3.1.1 目录介绍 # 1 项目主配置文件&#xff0c;在项目根路径下&#xff0c;控制整个项目的-app.js # 小程序入口文件&#xff0c;小程序启动&#xff0c;会执行此js-app.json # 小程序全局配置文件&#xff0c;配置小程序导航栏颜色等信息…...

TuyaOpen横空出世!涂鸦智能如何用开源框架重构AIoT开发范式?

🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、引子:AIoT开发的“不可能三角”被打破 当AI与物理世界深度融合的浪潮席卷全球,开发者们却始终面临一个“不可能三角”——开发效率、技术深度与商业化落地难以兼得。 …...