当前位置：首页 > news >正文

大数据专业学习路线

news 来源：原创 2025/9/18 5:53:22

大数据专业学习路线

1. 基础知识

1.1 编程语言

Python：大数据分析的基础语言
- 基础语法和数据类型
- 函数和模块
- 面向对象编程
- 文件操作和异常处理
- 常用库：NumPy, Pandas, Matplotlib
Java：大数据生态系统的核心语言
- 基础语法和面向对象
- 集合框架
- 多线程和并发
- JVM原理
- 常用框架：Spring, Spring Boot
SQL：数据查询和分析的基础
- 基本查询语句
- 表连接和子查询
- 聚合函数和窗口函数
- 索引和优化
- 事务和锁机制

1.2 数学基础

线性代数：矩阵运算、特征值和特征向量
概率统计：概率分布、假设检验、回归分析
微积分：导数、积分、多元函数
离散数学：集合论、图论、逻辑
优化理论：凸优化、梯度下降、拉格朗日乘子法

1.3 计算机基础

操作系统：进程管理、内存管理、文件系统
计算机网络：TCP/IP协议、HTTP/HTTPS、网络编程
数据结构与算法：排序算法、查找算法、图算法
数据库原理：关系模型、事务、索引、查询优化
分布式系统：CAP理论、一致性协议、分布式事务

2. 核心技术

2.1 大数据存储

Hadoop生态系统
- HDFS：分布式文件系统
- HBase：分布式列式数据库
- Hive：数据仓库工具
- ZooKeeper：分布式协调服务
NoSQL数据库
- MongoDB：文档型数据库
- Cassandra：列族数据库
- Redis：键值存储
- Neo4j：图数据库
数据湖技术
- Delta Lake
- Apache Iceberg
- Apache Hudi
- LakeFS

2.2 大数据处理

批处理技术
- MapReduce：分布式计算框架
- Spark：内存计算框架
- Tez：优化执行引擎
- Hive：SQL查询引擎
流处理技术
- Flink：实时流处理框架
- Storm：分布式实时计算系统
- Kafka Streams：流处理库
- Spark Streaming：微批处理框架
查询分析技术
- Hive：数据仓库查询
- Spark SQL：结构化数据处理
- Presto：分布式SQL查询引擎
- Impala：MPP查询引擎

2.3 数据采集与集成

数据采集工具
- Flume：日志收集系统
- Logstash：日志处理管道
- Filebeat：轻量级日志传输器
- Sqoop：关系型数据库导入导出
消息队列
- Kafka：分布式消息系统
- RabbitMQ：消息代理
- ActiveMQ：消息中间件
- Pulsar：分布式发布订阅消息系统
数据同步工具
- Canal：数据库增量同步
- Debezium：变更数据捕获
- DataX：异构数据源同步
- Airbyte：开源数据集成平台

2.4 数据可视化

前端框架
- Vue.js：渐进式JavaScript框架
- React：用户界面库
- Angular：前端框架
- Svelte：编译时前端框架
可视化库
- ECharts：交互式图表库
- D3.js：数据驱动文档
- Highcharts：交互式图表库
- Plotly：科学计算可视化
报表工具
- Tableau：商业智能工具
- PowerBI：业务分析工具
- QlikView：商业智能平台
- Metabase：开源商业智能工具

3. 进阶技能

3.1 机器学习

机器学习基础
- 监督学习：分类、回归
- 无监督学习：聚类、降维
- 强化学习：策略、价值函数
- 模型评估：交叉验证、ROC曲线
深度学习
- 神经网络基础
- CNN：卷积神经网络
- RNN：循环神经网络
- Transformer：注意力机制
机器学习框架
- Scikit-learn：传统机器学习库
- TensorFlow：深度学习框架
- PyTorch：深度学习框架
- Keras：高级神经网络API

3.2 自然语言处理

NLP基础
- 文本预处理
- 词向量：Word2Vec, GloVe
- 语言模型：N-gram, RNN-LM
- 序列标注：HMM, CRF
NLP工具
- NLTK：自然语言工具包
- SpaCy：工业级NLP库
- Transformers：预训练模型库
- BERT：双向编码器表示
NLP应用
- 文本分类
- 命名实体识别
- 机器翻译
- 问答系统

3.3 计算机视觉

CV基础
- 图像处理基础
- 特征提取：SIFT, SURF
- 图像分割
- 目标检测
CV工具
- OpenCV：计算机视觉库
- Pillow：图像处理库
- TorchVision：PyTorch视觉库
- TensorFlow Vision：TF视觉库
CV应用
- 图像分类
- 目标检测
- 图像分割
- 人脸识别

3.4 大模型应用

大语言模型
- GPT系列：生成式预训练模型
- BERT系列：双向编码器表示
- LLaMA：Meta开源大模型
- Claude：Anthropic大模型
大模型应用框架
- LangChain：大模型应用开发框架
- LlamaIndex：数据连接框架
- Hugging Face：模型库和应用
- OpenAI API：OpenAI接口
大模型应用场景
- 智能问答
- 内容生成
- 代码生成
- 知识检索

3.5 数据治理与安全

数据治理
- 数据质量管理
- 数据血缘分析
- 元数据管理
- 主数据管理
数据安全
- 数据加密
- 访问控制
- 数据脱敏
- 安全审计
数据合规
- 数据隐私保护
- 数据合规性检查
- 数据保留策略
- 数据销毁流程

4. 实战项目

4.1 入门项目

数据清洗与预处理
- 使用Python处理CSV/Excel数据
- 数据清洗和转换
- 数据可视化分析
简单数据分析
- 使用Pandas进行数据分析
- 使用Matplotlib/Seaborn可视化
- 生成分析报告
Web爬虫项目
- 使用Scrapy爬取网站数据
- 数据解析和存储
- 定时任务调度

4.2 中级项目

日志分析系统
- 使用Flume收集日志
- 使用Spark处理日志
- 使用Hive存储分析结果
- 使用ECharts可视化
用户行为分析
- 数据采集和预处理
- 用户分群分析
- 行为路径分析
- 可视化展示
实时数据处理
- 使用Kafka接收数据流
- 使用Flink处理实时数据
- 实时计算和告警
- 结果可视化

4.3 高级项目

推荐系统
- 数据收集和预处理
- 特征工程
- 协同过滤算法
- 内容推荐算法
- 混合推荐策略
- 评估和优化
智能交通系统
- 交通数据采集
- 实时流量分析
- 拥堵预测
- 路线规划优化
- 可视化展示
金融风控系统
- 交易数据收集
- 特征工程
- 风险评估模型
- 实时监控告警
- 可视化展示

4.4 专家级项目

智能医疗诊断系统
- 医疗数据收集
- 医学图像处理
- 疾病预测模型
- 诊断建议生成
- 系统集成和部署
基于大模型的智能问答系统
- 知识库构建
- 大模型集成
- 检索增强生成
- 多轮对话管理
- 系统优化和部署
企业级数据治理平台
- 数据质量管理
- 数据血缘分析
- 数据安全控制
- 元数据管理
- 系统集成和部署

5. 职业发展

5.1 职业方向

数据工程师
- 数据采集和ETL开发
- 数据仓库设计和开发
- 数据处理和转换
- 数据质量保证
数据分析师
- 数据分析和挖掘
- 统计分析和建模
- 数据可视化
- 业务分析和报告
数据科学家
- 机器学习算法开发
- 预测模型构建
- 高级数据分析和挖掘
- 数据驱动决策支持
大数据架构师
- 大数据系统架构设计
- 技术选型和评估
- 性能优化和调优
- 系统集成和部署
数据治理专家
- 数据质量管理
- 数据安全控制
- 数据标准制定
- 数据治理流程设计
大模型应用专家
- 大模型应用开发
- 提示工程优化
- 知识库构建
- 应用系统集成

5.2 技能要求

数据工程师技能
- 编程语言：Python, Java, SQL
- 大数据技术：Hadoop, Spark, Hive
- ETL工具：DataX, Kettle, Talend
- 数据库：MySQL, MongoDB, HBase
- 消息队列：Kafka, RabbitMQ
数据分析师技能
- 编程语言：Python, R, SQL
- 数据分析：Pandas, NumPy, Scipy
- 可视化：Matplotlib, Seaborn, Tableau
- 统计分析：假设检验, 回归分析
- 业务分析：A/B测试, 漏斗分析
数据科学家技能
- 编程语言：Python, R
- 机器学习：Scikit-learn, TensorFlow, PyTorch
- 深度学习：CNN, RNN, Transformer
- 自然语言处理：NLTK, SpaCy, BERT
- 计算机视觉：OpenCV, TorchVision
大数据架构师技能
- 系统架构：分布式系统, 微服务
- 大数据技术：Hadoop生态, Spark生态
- 数据库：关系型, NoSQL, 数据湖
- 云平台：AWS, Azure, GCP
- 容器化：Docker, Kubernetes
数据治理专家技能
- 数据治理：数据质量, 数据安全
- 数据标准：元数据, 主数据
- 数据集成：ETL, 数据同步
- 数据安全：加密, 脱敏, 访问控制
- 数据合规：隐私保护, 合规检查
大模型应用专家技能
- 大语言模型：GPT, BERT, LLaMA
- 应用框架：LangChain, LlamaIndex
- 知识库：向量数据库, 知识图谱
- 提示工程：提示设计, 优化
- 系统集成：API集成, 应用开发

5.3 职业发展路径

初级 → 中级 → 高级 → 专家
- 初级：掌握基础技能，完成简单任务
- 中级：独立完成项目，解决常见问题
- 高级：设计复杂系统，解决疑难问题
- 专家：创新解决方案，引领技术方向
技术专家 → 架构师 → 技术总监
- 技术专家：深入技术领域，解决技术难题
- 架构师：设计系统架构，把控技术方向
- 技术总监：管理技术团队，制定技术战略
专业方向 → 跨领域 → 全栈专家
- 专业方向：深耕某一领域，成为专家
- 跨领域：拓展相关领域，成为通才
- 全栈专家：掌握全栈技能，成为全能型人才

6. 学习资源

6.1 在线课程

综合平台
- Coursera：大数据专项课程
- edX：数据科学课程
- Udacity：数据工程师纳米学位
- 慕课网：大数据实战课程
- 极客时间：大数据专栏
云厂商课程
- 阿里云：大数据认证课程
- 腾讯云：大数据培训课程
- 华为云：大数据工程师课程
- AWS：大数据认证课程
- Google Cloud：数据工程课程
专业机构课程
- DataCamp：数据科学课程
- Dataquest：数据工程课程
- Springboard：数据科学训练营
- Metis：数据科学训练营
- 优达学城：数据科学课程

6.2 技术文档

官方文档
- Hadoop官方文档
- Spark官方文档
- Flink官方文档
- Kafka官方文档
- TensorFlow官方文档
- PyTorch官方文档
- Kubernetes官方文档
- Docker官方文档
技术博客
- 美团技术博客
- 阿里技术博客
- 腾讯技术博客
- InfoQ中文站
- 掘金技术社区
- 知乎技术专栏
- 博客园大数据专栏
- CSDN大数据专栏
技术社区
- GitHub：开源项目
- Stack Overflow：技术问答
- 掘金：技术文章
- 知乎：技术讨论
- 博客园：技术博客
- CSDN：技术社区
- 开源中国：开源项目
- 码云：代码托管

6.3 数据集资源

公开数据集
- Kaggle：数据科学竞赛平台
- UCI机器学习仓库：经典数据集
- Google数据集搜索：各类数据集
- AWS开放数据集：云服务数据集
- Microsoft Research数据集：研究数据集
- Stanford Large Network Dataset Collection：网络数据集
- ImageNet：图像数据集
- Common Crawl：网页数据集
行业数据集
- 电商用户行为数据集
- 交通流量数据集
- 医疗健康数据集
- 金融交易数据集
- 社交媒体数据集
- 教育数据集
- 环境监测数据集
- 农业数据集
数据生成工具
- Faker：生成假数据
- Mockaroo：生成测试数据
- DataFaker：生成大数据集
- JMeter：性能测试数据
- Locust：负载测试数据
- Selenium：网页数据抓取
- Scrapy：网络爬虫
- BeautifulSoup：HTML解析

6.4 工具资源

开发工具
- IntelliJ IDEA：Java开发IDE
- PyCharm：Python开发IDE
- Visual Studio Code：通用编辑器
- Eclipse：Java开发IDE
- Jupyter Notebook：交互式开发环境
- RStudio：R语言开发环境
- DataGrip：数据库工具
- DBeaver：数据库管理工具
大数据工具
- Cloudera Manager：Hadoop管理工具
- Ambari：Hadoop管理工具
- CDH：Cloudera发行版
- HDP：Hortonworks发行版
- MapR：MapR发行版
- Databricks：Spark平台
- Snowflake：数据仓库
- BigQuery：云数据仓库
监控工具
- Prometheus：监控系统
- Grafana：可视化面板
- Zabbix：监控系统
- Nagios：监控系统
- ELK Stack：日志分析
- Graylog：日志管理
- Datadog：监控平台
- New Relic：应用性能监控
容器化工具
- Docker：容器平台
- Kubernetes：容器编排
- Helm：包管理器
- Rancher：容器管理平台
- OpenShift：容器平台
- Portainer：容器管理UI
- Docker Compose：容器编排
- Minikube：本地Kubernetes

7. 学习计划

7.1 入门阶段（3-6个月）

第1-2个月：编程基础
- Python基础语法和数据结构
- SQL基础查询和操作
- Linux基础命令和操作
- Git版本控制基础
第3-4个月：数据分析基础
- Pandas数据处理
- NumPy数值计算
- Matplotlib数据可视化
- 基础统计分析
第5-6个月：大数据基础
- Hadoop基础概念
- HDFS文件系统
- MapReduce编程模型
- Hive数据仓库基础

7.2 进阶阶段（6-12个月）

第7-9个月：大数据处理
- Spark核心概念和RDD
- Spark SQL数据处理
- Spark Streaming流处理
- HBase列式数据库
第10-12个月：数据工程
- Kafka消息队列
- Flume日志收集
- Sqoop数据导入导出
- 数据仓库设计

7.3 高级阶段（12-18个月）

第13-15个月：机器学习
- 机器学习基础算法
- Scikit-learn机器学习库
- 特征工程和模型评估
- 监督学习和无监督学习
第16-18个月：深度学习
- 神经网络基础
- TensorFlow/PyTorch框架
- CNN卷积神经网络
- RNN循环神经网络

7.4 专家阶段（18-24个月）

第19-21个月：高级应用
- 自然语言处理
- 计算机视觉
- 推荐系统
- 大模型应用
第22-24个月：系统架构
- 分布式系统设计
- 大数据架构设计
- 性能优化和调优
- 系统集成和部署

7.5 持续学习

技术更新：关注新技术发展
项目实践：参与实际项目
社区贡献：参与开源项目
技术分享：撰写技术博客
行业交流：参加技术会议
认证考试：获取相关认证
跨领域学习：拓展相关领域
创新研究：探索前沿技术

8. 常见问题

8.1 学习路径问题

问题：如何选择适合自己的学习路径？
解答：
- 评估自己的基础和学习能力
- 确定自己的职业发展方向
- 选择适合自己的学习资源
- 制定合理的学习计划
- 坚持学习和实践
- 及时调整学习方向
- 寻求导师和社区帮助
- 参与实际项目积累经验

8.2 技术选择问题

问题：大数据技术那么多，应该先学哪些？
解答：
- 先掌握基础编程语言：Python, Java, SQL
- 学习大数据基础：Hadoop, HDFS, MapReduce
- 掌握数据处理工具：Spark, Hive
- 学习数据采集工具：Flume, Kafka
- 根据职业方向选择专精技术
- 参考市场需求选择热门技术
- 跟随技术发展趋势学习新技术
- 根据项目需求学习相关技术

8.3 实践问题

问题：如何获取实践机会？
解答：
- 搭建本地开发环境
- 使用公开数据集进行练习
- 参与开源项目
- 参加数据竞赛
- 寻找实习机会
- 接 freelance 项目
- 创建个人项目
- 参与社区活动

8.4 就业问题

问题：大数据专业的就业前景如何？
解答：
- 大数据行业需求持续增长
- 多个职业方向可选择
- 薪资水平相对较高
- 需要持续学习和更新技能
- 关注行业发展趋势
- 建立个人技术品牌
- 积累项目经验
- 获取相关认证

8.5 学习资源问题

问题：有哪些优质的学习资源？
解答：
- 官方文档和教程
- 在线课程平台
- 技术博客和社区
- 开源项目和代码
- 技术书籍和论文
- 视频教程和讲座
- 实践项目和案例
- 技术会议和研讨会

大数据专业学习路线

大数据专业学习路线目录基础知识核心技术进阶技能实战项目职业发展学习资源学习计划常见问题 1. 基础知识 1.1 编程语言 Python：大数据分析的基础语言基础语法和数据类型函数和模块面向对象编程文件操作和异常处理常用库：NumPy, Pandas, Matplot…...

编程日记 2025/9/18 5:53:22

每日文献（十）——Part two

今天从第四部分级联RCNN开始介绍。目录四、级联RCNN 4.1 级联边界框回归 4.2 级联检测五、实验结果 5.1 实现细节 5.1.1 基准工作 5.2 质量不匹配 5.3 与迭代bbox和积分损失的比较 5.4 消融实验 5.5 与最先进的方法对比 5.6 泛化能力 5.7 PASCAL VOC数据集结果…...

编程日记 2025/9/14 9:35:01

仿真每日一练 | ABAQUS子程序DLOAD

ABAQUS中用户子程序DLOAD可用于定义分布载荷幅值随坐标、时间、单元编号、积分点编号等的变化，该功能主要应用于定义复杂的载荷工况，今天给大家举一个简单的例子介绍其使用方式： 图1 模型认识回顾一下ABAQUS的有限元分析流程： 图…...

编程日记 2025/9/11 21:49:10

Kubernetes(k8s)-备份Etcd介绍

作者介绍：简历上没有一个精通的运维工程师。请点击上方的蓝色《运维小路》关注我，下面的思维导图也是预计更新的内容和当前进度(不定时更新)。我们上一章介绍了Docker基本情况，目前在规模较大的容器集群基本都是Kubernetes，但是K…...

编程日记 2025/9/10 11:01:34

[leetcode]求最大公约数和最小公倍数（gcd和lcm算法）

求最大公约数和最小公倍数 Coding : 使用C的库 #include<iostream> #include<algorithm> using namespace std; int main() { int a, b; cout << "cin a and b of gcd : "; cin >> a >> b; int res __gcd(a, b);…...

编程日记 2025/9/11 21:34:18

B-tree 的原理源码分析及应用场景等

B-tree（B树）是一种自平衡的多路搜索树，广泛用于文件系统、数据库索引、键值存储系统等对大规模数据的高效插入、查找和删除有高要求的场景。相比于二叉搜索树（BST），B-tree 可以减少磁盘I/O次数，…...

编程日记 2025/9/16 0:18:45

MySQL 中的聚簇索引和非聚簇索引有什么区别？

MySQL 中的聚簇索引和非聚簇索引有什么区别？ 1. 从不同存储引擎去考虑在MySIAM存储引擎中，索引和数据是分开存储的，包括主键索引在内的所有索引都是“非聚簇”的，每个索引的叶子节点存储的是数据记录的物理地址（指针…...

编程日记 2025/9/12 15:20:23

重构居家养老安全网：从 “被动响应” 到 “主动守护”

随着全球老龄化加剧，居家养老安全成为社会关注的核心议题。传统养老模式依赖人工巡检或单一传感器，存在响应滞后、隐私泄露、场景覆盖不足等问题。由此智绅科技应运而生，七彩喜智慧养老系统构筑居家养老安全网。而物联网（Io…...

编程日记 2025/9/4 13:45:36

从静态绑定驱动模型到现代设备模型 —— 一次驱动架构的进化之旅

🔍 B站相应的视屏教程： 📌 内核：博文视频 - 从静态绑定驱动模型到现代设备模型在 Linux 内核的发展历程中，设备驱动结构经历了从"硬编码手动注册"的早期实现方式，到"设备模型统一管理&qu…...

编程日记 2025/9/11 18:26:02

MySQL学习笔记十五

第十七章组合查询 17.1组合查询 MySQL允许执行多个查询（多条SELECT语句），并将结果作为单个查询结果集返回。这些组合查询通常称为并（union）或复合查询（compound query）。以下几种情况需要使…...

编程日记 2025/9/9 13:34:30

NLP基础知识与词向量的转化方法发展

目录 1.NLP 基础知识点为什么需要自然语言处理？自然语言处理有哪些分类？自然语言处理有哪些实际应用？为什么需要自然语言处理？自然语言处理有哪些分类？自然语言处理有哪些实际应用？自然语言处理的技术/工作原理是什么？ 2.NLP文本转化为词向量的方法 2…...

编程日记 2025/9/4 13:38:55

VectorBT量化入门系列：第四章高级策略开发与优化

VectorBT量化入门系列：第四章高级策略开发与优化本教程专为中高级开发者设计，系统讲解VectorBT技术在量化交易中的应用。通过结合Tushare数据源和TA-Lib技术指标，深度探索策略开发、回测优化与风险评估的核心方法。从数据获取到策略部署&am…...

编程日记 2025/9/14 5:55:49

JVM虚拟机篇（七）：JVM垃圾回收器全面解析与G1深度探秘及四种引用详解

JVM垃圾回收器全面解析与G1深度探秘及四种引用详解 JVM虚拟机（七）：JVM垃圾回收器全面解析与G1深度探秘及四种引用详解一、JVM有哪些垃圾回收器1. Serial回收器2. ParNew回收器3. Parallel Scavenge回收器4. Serial Old回收器5. Parallel Old回…...

编程日记 2025/9/11 0:56:34

【蓝桥杯】15届JAVA研究生组F回文字符串

一、思路 1.这题去年考的时候想的是使用全排列进行尝试，实际不用这么麻烦，只用找到第一个和最后一个非特殊字符串的位置，然后分别向内检查是否对称，向外检查是否对称直到左指针小于0(可以通过添加使其对称) 2.至于如何找到第一个…...

编程日记 2025/9/10 0:40:13

TDengine 语言连接器（Python ）

简介 taospy 是 TDengine 数据库面向 Python 语言提供的官方连接器，连接器对外提供对数据库写入、查询、订阅等多种访问接口。安装连接器命令如下： # 原生连接和 REST 连接 pip3 install taospy# WebSocket 连接，可选装 pip3 install tao…...

编程日记 2025/9/17 23:22:48

Modifier浅析 Modifier的使用foldOutfoldInanyall总结Modifier的使用先来一段代码1： @Preview(showBackground = true) @Composable fun GreetingPreview() {ComposeTestTheme {Box(modifier = Modifier.size(DpSize(Dp(100f),Dp(100f))).padding(Dp(10f)).background(Colo…...

编程日记 2025/9/12 17:29:36

基于机器视觉的多孔零件边缘缺陷检测（源码C++、opencv、凸包、凸缺陷检测）

👑主页：吾名招财 👓简介：工科学硕，研究方向机器视觉，爱好较广泛… 💫签名：面朝大海，春暖花开！ 基于机器视觉的多孔零件边缘缺陷检测（源码C、ope…...

编程日记 2025/9/15 14:17:39

JAVAWeb_Servlet：前置准备与理论简易介绍

要写JAVA_Web：首先就得建个项目——如何在Eclipse新建一个Web项目-CSDN博客然后我们考虑具体的代码细节（接下来就是我们的前置准备） 一、导包： 在 Eclipse 中，如果需要快速导入缺失的包（例如&#xff0…...

编程日记 2025/9/15 11:37:22

反射 tcp

反射临时越过权限获取成员变量1并进行修改成员方法 TCP客户端...

编程日记 2025/8/18 0:45:23

UML综合实验四

1. 计算机包含内存(RAM)、CPU等硬件设备，根据下面的“产品等级结构-产品族”示意图，使用抽象工厂模式实现计算机设备创建过程并绘制相应的类图。 2. 电脑组装工厂可以将CPU、内存、硬盘、主机、显示器等硬件设备组装在一起构成一台完整的电脑&#xff0c…...

编程日记 2025/9/15 12:52:41

＜《AI大模型应知应会100篇》第8篇：大模型的知识获取方式及其局限性

第8篇：大模型的知识获取方式及其局限性摘要大模型（如GPT、BERT、Qwen、DeepSeek等）凭借其卓越的自然语言处理能力，已经成为人工智能领域的明星。然而，这些模型“知道”什么？它们如何获取知识&#xff1f…...

编程日记 2025/9/15 20:26:54

【回眸】Linux 内核 (十六) 之多线程编程下

前言前面介绍了互斥锁，本篇博文介绍死锁及其他多线程遇到的情况。什么情况会造成死锁死锁指的是两个或两个以上的运算单元（进程、线程或协程），互相持有对方所需的资源，导致它们都无法向前推进，从而导…...

编程日记 2025/9/17 16:18:05

学习笔记083——Java Stream API

文章目录 1、过滤数据 filter()2、转换元素 map()3、排序 sorted()3.1、自定义排序规则 4、去重 distinct()5、限制元素数量 limit()6、收集结果 collect()6.1、收集为List6.2、收集为Set6.3、转为Map6.4、基本用法（注意键冲突会抛异常）6.5、处理键冲突&…...

编程日记 2025/9/15 10:16:52

逍遥模拟器ARM过检测技术全解析

逍遥模拟器ARM框架安装magisk和修改设备型号隐藏应用隐藏root过检测逍遥模拟器ARMmagisk改设备型号隐藏应用隐藏root 引言逍遥模拟器以其出色的性能和丰富的功能，深受广大用户喜爱，让用户能在电脑上轻松运行各类安卓应用和游戏。然而，为保…...

编程日记 2025/9/14 1:32:28

Easysearch VS Opensearch 数据写入与存储性能对比

本文记录 Easysearch 和 Opensearch 数据写入和数据存储方面的性能对比。准备压测工具：INFINI Loadgen 对比版本： Easysearch 1.11.1（lucene 8.11.4）Opensearch 2.19.1（lucene 9.12.1） 节点 JVM 配置…...

编程日记 2025/9/14 16:15:26

C++中STL学习（一）——向量、栈、堆、集合

#include “bits/stdc.h” using namespace std; int main() { // -------------------- 1、向量vector：可以替换数组，不需要事先指定长度 // ------------------------- vector arr; // 构建int数组 vector arr1(100); // 构建初始长度100的int向量 ve…...

编程日记 2025/9/16 1:58:33

柑橘病虫害图像分类数据集OrangeFruitDataset-8600

文章目录 1. 前言2. 数据类别介绍3. 数据集地址 1. 前言柑橘，作为水果界的 “宠儿”，不仅以其酸甜可口的味道深受大众喜爱，更是在全球水果产业中占据着举足轻重的地位。无论是早餐中的一杯橙汁，还是下午茶里的柑橘甜点&#xff…...

编程日记 2025/9/15 1:38:41

leetcode刷题-单调栈

代码随想录单调栈|739. 每日温度、496.下一个更大元素 I、503.下一个更大元素II、42. 接雨水、84.柱状图中最大的矩形 739. 每日温度496.下一个更大元素 I503.下一个更大元素II42. 接雨水 -- 面试常考题84.柱状图中最大的矩形 739. 每日温度 leetcode题目链接代码随想录文档讲…...

编程日记 2025/9/11 22:49:11

【设计模式】访问者模式

**简介假设你有一个购物车（对象结构），里面有多种商品（元素），如苹果、牛奶、书籍。每个商品的计价规则不同： 水果按重量计价牛奶按数量计价书籍按固定价格计价现在需要实现两种功能&#xff1…...

编程日记 2025/9/11 14:23:10

【ISP】ISP pipeline（AI）

ISP Pipeline 全流程概览 ISP（Image Signal Processing，图像信号处理）流程通常从原始 Bayer 数据出发，经过一系列模块处理，逐步完成图像校正和增强，最终生成用于显示或编码的标准图像。常见处理模块包括&a…...

编程日记 2025/9/12 7:25:49

【设计模式】模板模式

简介假设你要冲泡咖啡和茶，两者的流程相似但部分步骤不同： 烧水（公共步骤）加入主材料（咖啡粉/茶叶）添加调料（糖/牛奶）→ 可选步骤倒进杯子（公共步骤） 模板…...

编程日记 2025/9/15 19:51:53

GDB调试程序的基本命令和用法（Qt程序为例）

1. 引言 GDB（GNU Debugger）是一个强大的命令行调试工具，它可以帮助开发者在程序运行时查找和修复错误。当调试Qt程序时，GDB同样适用，并且能够帮助开发者定位诸如数组越界挂死等复杂问题。 2. 基本命令 2.1 启动GDB …...

编程日记 2025/9/3 12:41:56

vue3腾讯云直播前端推流

1、在index.html文件中引入（在body体中） <script src"https://video.sdk.qcloudecdn.com/web/TXLivePusher-2.1.1.min.js" charset"utf-8"></script> 2、vue文件中，添加video推流（我用的推流地…...

编程日记 2025/9/13 6:54:48

DP_AUX辅助通道介绍

DisplayPort（简称DP）是一个由PC及芯片制造商联盟开发，视频电子标准协会（VESA）标准化的数字式视频接口标准。该接口免认证、免授权金，主要用于视频源与显示器等设备的连接，并也支持携带音频、USB…...

编程日记 2025/9/17 3:32:03

【微机及接口技术】- 第九章串行通信与串行接口（下）

文章目录第二节串行通信协议一、异步串行通信协议二、同步串行通信协议第三节串行接口标准RS-232C一、RS-232C信号线定义二、电气特性第四节可编程串行接口芯片8251A一、基本性能二、内部结构三、外部引脚功能1. 同CPU的连接信号2. MODEM控制信号（4个&#xf…...

编程日记 2025/9/16 14:52:34

人形机器人制造—3D打印推动微型化与轻量化设计

在人形机器人仿生架构的构建中，多模态传感器集群与仿生关节矩阵的拓扑融合，正催生第三代具身智能的力学革命。通过分布式触觉薄膜、双目视觉惯性测量单元（200Hz采样率）与肌电模拟传感器的三重耦合，机器人获得了超越人类…...

编程日记 2025/9/12 11:59:18

前端性能优化高频面试题解析与实战指南（2025版）

一、前端性能优化核心面试题汇总 1. 浏览器加载优化相关问题 Q1：浏览器从输入URL到页面渲染的完整流程中，有哪些关键性能节点？ 核心流程：DNS解析 → TCP连接（TLS握手）→ HTTP请求 → 资源下载 → 解析HT…...

编程日记 2025/9/9 7:14:25

【教程】xrdp修改远程桌面环境为xfce4

转载请注明出处：小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你，欢迎[点赞、收藏、关注]哦~ 目录 xfce4 vs GNOME对比配置教程 1. 安装 xfce4 桌面环境 2. 安装 xrdp 3. 配置 xrdp 使用 xfce4 4. 重启 xrdp 服务 5. 配置防火墙&#xff…...

编程日记 2025/9/10 22:27:24

递增子序列

递增子序列难点： 结果集如何加：每次进入递归都判断是否sub中的个数>2；不允许对数组排序，如何在每层去重：不可以再用nums[i] nums[i-1]（没有意义，重复的元素不一定挨着）&#x…...

编程日记 2025/8/27 7:04:21

Linux磁盘管理双雄：lsblk与df深度解析

在Linux系统管理的日常工作里，磁盘管理占据着极为重要的地位，这里重点介绍lsblk和df这两个命令。一、lsblk命令：呈现磁盘物理架构 lsblk是用于罗列块设备信息的实用命令，它以直观的树状结构呈现系统中的块设备，帮助…...

编程日记 2025/9/8 7:56:36

C#里设计Modbus-RTU（Remote Terminal Unit）协议

Modbus-RTU（Remote Terminal Unit）是一种串行通信协议，广泛用于工业自动化领域，支持主从式（Master-Slave）通信架构。它是Modbus协议的两种传输模式之一（另一种是ASCII模式），具有高效、简洁、可靠性强的特点，常用于RS-485或RS-232物理层通信。核心特性物理层通常基…...

编程日记 2025/9/13 10:41:25

spark学习内容总结

Spark运行架构总结一、核心结构 Spark框架的核心是一个计算引擎，整体采用标准的master-slave结构。其中，Driver作为master，负责管理整个集群中的作业任务调度；Executor作为slave，负责实际执行任务。二、核心组件 ‌…...

编程日记 2025/9/11 7:07:02

MySQL多表查询、事务与索引的实践与应用

摘要：本文围绕MySQL数据库操作展开，通过构建部门与员工管理、餐饮业务相关的数据库表，并填充测试数据，系统地阐述了多表查询的多种方式，包括内连接、外连接和不同类型的子查询，同时介绍了事务的处理以及索引…...

编程日记 2025/9/7 0:46:36

MySQL【8.0.41版】安装详细教程--无需手动配置环境

一、MySQL 介绍 1. 概述 MySQL 是一个开源的关系型数据库管理系统，由瑞典公司 MySQL AB 开发，现属于 Oracle 旗下。它基于 SQL（结构化查询语言）进行数据管理，支持多用户、多线程操作，广泛应用于 Web 应用、…...

编程日记 2025/9/17 19:10:07

FRP练手：hello，world实现

方案一：使用 Flask（推荐） from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return "你好啊世界"if __name__ __main__:# 监听所有网络接口（0.0.0.0），端口 3344app.…...

编程日记 2025/9/11 21:34:39

Mysql | 主从复制的工作机制

主从复制的工作机制 Mysql的主从复制从库主要是读取主库的binlog日志来完成数据同步的, binlog中存储了对数据库所有修改SQL的语句。首先Master开启BinLog二进制的写入。Slave从库通过ip、port、账号、密码链接到Master主数据库，链接成功后从库会向主数据库获取B…...

编程日记 2025/9/1 18:31:01

清明之后叙

经历了漫长的冬季，春天的脚步近了，要说讲这一年的开始，绝大数人说是从春季，但是我说应该是从冬季开始，中国传统讲冬至是一阳生，冬季收藏好了，开始收敛精气，养精蓄锐，好好…...

编程日记 2025/9/15 17:44:02

Docker新型容器镜像构建技术,如何正确高效的编写Dockerfile

一、容器与容器镜像之间的关系说到Docker管理的容器不得不说容器镜像，主要因为容器镜像是容器模板，通过容器镜像我们才能快速创建容器。如下图所示： Docker Daemon通过容器镜像创建容器。二、容器镜像分类操作系统类 CentOSUbuntu在do…...

编程日记 2025/9/15 21:00:53

Starrocks的Bitmap索引和Bloom filter索引以及全局字典

写这个的主要作用是梳理一下Starrocks的索引效率以及使用场景。 Starrocks Bitmap索引原理： Bitmap 索引是一种使用 bitmap 的特殊数据库索引。bitmap 即为一个 bit 数组，一个 bit 的取值有两种：0 或 1。每一个 bit 对应数据表中的一行&…...

编程日记 2025/9/11 15:44:40

大数据专业学习路线

目录

1. 基础知识

1.1 编程语言

1.2 数学基础

1.3 计算机基础

2. 核心技术

2.1 大数据存储

2.2 大数据处理

2.3 数据采集与集成

2.4 数据可视化

3. 进阶技能

3.1 机器学习

3.2 自然语言处理

3.3 计算机视觉

3.4 大模型应用

3.5 数据治理与安全

4. 实战项目

4.1 入门项目

4.2 中级项目

4.3 高级项目

4.4 专家级项目

5. 职业发展

5.1 职业方向

5.2 技能要求

5.3 职业发展路径

6. 学习资源

6.1 在线课程

6.2 技术文档

6.3 数据集资源

6.4 工具资源

7. 学习计划

7.1 入门阶段（3-6个月）

7.2 进阶阶段（6-12个月）

7.3 高级阶段（12-18个月）

7.4 专家阶段（18-24个月）

7.5 持续学习

8. 常见问题

8.1 学习路径问题

8.2 技术选择问题

8.3 实践问题

8.4 就业问题

8.5 学习资源问题

相关文章：