【大数据分析机器学习】分布式机器学习
【作者主页】Francek Chen
【专栏介绍】 ⌈ ⌈ ⌈智能大数据分析 ⌋ ⌋ ⌋ 智能大数据分析是指利用先进的技术和算法对大规模数据进行深入分析和挖掘,以提取有价值的信息和洞察。它结合了大数据技术、人工智能(AI)、机器学习(ML)和数据挖掘等多种方法,旨在通过自动化的方式分析复杂数据集,发现潜在的价值和关联性,实现数据的自动化处理和分析,从而支持决策和优化业务流程。与传统的人工分析相比,智能大数据分析具有自动化、深度挖掘、实时性和可视化等特点。智能大数据分析广泛应用于各个领域,包括金融服务、医疗健康、零售、市场营销等,帮助企业做出更为精准的决策,提升竞争力。
【GitCode】专栏资源保存在我的GitCode仓库:https://gitcode.com/Morse_Chen/Intelligent_bigdata_analysis。
文章目录
- 一、分布式机器学习基础
- (一)参数服务器
- (二)分布式并行计算框架
- 二、分布式机器学习框架
- (一)MapReduce编程模型
- (二)Hadoop MapReduce框架
- (三)Spark
- (四)TensorFlow
- 三、并行决策树
- (一)并行决策树算法
- (二)并行化的随机森林——并行CART决策树算法
- 四、并行k-均值算法
- (一)k-均值算法算例
- (二)多元线性回归模型
机器学习方法是计算机利用已有的数据生成某种模型,并利用此模型预测的一种方法。在确定模型结构之后,根据已知模型寻找模型参数的过程就是训练,训练过程中不断依据训练数据来迭代调整模型的参数值,从而使模型的预测结果更为准确。在现实应用中,要达到好的效果,训练数据集可能很大,模型参数量剧增,会带来很多性能和算法设计问题,单台机器难以胜任,需要分布式的机器学习架构。本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
一、分布式机器学习基础
分布式机器学习中的一些核心问题:
(1)如何提高各分布式任务节点之间的网络传输效率;
(2)如何解决参数同步问题,传统训练模型是采用同步方法,如果机器性能不统一,必然会产生训练任务之间的协作;
(3)分布式环境下如何提高容错能力,需要避免单点故障,并能合理处理异常,训练子节点出错不影响全局任务。
(一)参数服务器
应用传统的大数据处理框架训练大型的机器学习模型时,由于数据量比较大并且训练方法多样,存在着一致性、扩展性、稳定性的问题。较大的模型也意味着参数较多,因而需要实现分布式并行训练,参数服务器是分布式并行训练框架之一,存储着模型的参数和状态。参数服务器具有如下特点:高效通信、宽松一致性、灵活可扩展、容错能力强、易用。
训练过程中支持动态扩展节点,不需要重启训练任务就可以动态插入新节点到集合中,这一特性无疑有利于那些训练周期较长(长达数天或数周)的机器学习项目,可节省大量训练时间。
在大型服务器集群中,由于节点较多,小概率故障往往常态化,所以需要节点的恢复(状态清理、任务重启)时间要短,而且不能中断训练过程,这就要求并行化系统具有较强的容错能力。
目前机器学习项目开发者数量较少,为了减少学习难度,需要尽可能的使用常用语言或将参数表示成通用的形式,如向量、矩阵等,并与现有机器学习框架无缝拼接。
(二)分布式并行计算框架
分布式并行计算的类型一般分为三种:模型并行、数据并行、混合并行。
1. 模型并行
模型并行是指将模型按照其结构放在不同的分布式机器上进行训练,一般用在那些内存要求较高的机器学习项目,例如,单机训练一个1000层的DNN网络,内存容易溢出,而使用模型并行,用不同的机器负责不同的层进行训练,通过维护各层间参数同步实现整个DNN网络的并行训练。
2. 数据并行
数据并行是指各机器上的模型相同,对训练数据进行分割,并分配到各机器上,最后将计算结果按照某种方式合并。该方法主要应用在海量训练数据的情况,数据以并行化方式训练,训练过程中组合各工作节点的结果,实现模型参数的更新。参数并行常用的方法有参数平均和异步梯度下降的方法。
(1)参数平均:参数平均是在每次训练迭代完成后计算各节点各模型参数平均值,这一方法操作简单,主要依赖网络同步更新,如果更新频率较慢会导致参数差别较大,平均之后的模型参数的局部差异化被抵消,效果较差,影响模型的精确性。反之,如果更新较快,对网络压力较大,通信和同步的成本较高,所以在应用中需要结合模型复杂度和优化方法进行平衡。
(2)异步梯度下降:异步梯度下降是一种基于更新的数据并行化,它传递的是模型训练过程中的梯度、动量等信息,而没有直接传递参数值,这样一方面可以减少传输数据量,提高网络传输效率;另一方面不同计算节点通过共享梯度,可以提高模型收敛速度。该方法的不足之处在于会随着引入参数数量的增多出现梯度值过时的问题。
3. 混合并行
混合并行的方式是指综合应用模型并行和数据并行,在训练集群的设计中,将上述两种方式进行合并,各取所长,形成互补。例如,可以在同一台机器上采用模型并行化,在GPU和CPU之间使用模型并行。然后在机器之间采用数据并行化,将数据分配在不同的机器上,既实现了计算资源利用的最大化,也减少了数据分发的压力。
二、分布式机器学习框架
分布式机器学习是机器学习领域的一大主要研究方向,其中MapReduce适合做离线计算,Storm适合做流式计算,Spark是内存计算框架,能快速得到计算结果。分布式机器学习平台归类为三种基本设计方法:基本数据流、参数服务器模型以及高级数据流。基于这三种方法来介绍分布式机器学习框架。
(一)MapReduce编程模型
MapReduce是一个能处理和生成超大数据集的算法模型,该架构能够在大量硬件配置不高的计算机上实现并行化处理,这一编程模型结合用户自定义的Map和Reduce函数。Map函数处理一个输入的基于<Key,value>对的集合,输出中间基于<Key,value>对的集合,Reduce函数是将所有具有相同key值的value值进行合并,将数据集合进行压缩。
一个典型的MapReduce程序的执行流程如下图所示。
(二)Hadoop MapReduce框架
Hadoop MapReduce是Hadoop三大组件之一,包括JobTracker和一定数量的TaskTracker。JobTracker负责任务分配和调度,一个MapReduce作业通常会把输入的数据集切分为若干独立的数据块,由Map任务以并行方式处理它们,框架会对Map的输出先进行排序,然后把结果输入到Reduce任务中。通常作业的输入和输出都会被存储在文件系统HDFS中,由JobTracker负责任务的调度和监控,以及重新执行已经失败的任务。
Hadoop MapReduce框架由一个单独的主JobTracker和每个集群节点对应一个备TaskTracker组成。JobTracker负责调度作业的所有任务,并监控它们的执行,这些任务分布在不同的备TaskTracker上。如果TaskTracker上的任务执行失败,还会调度其重新执行。而TaskTracker仅负责执行指派的任务。
(三)Spark
与Hadoop MapReduce相比,Spark的优势在于处理迭代计算的机器学习任务,尤其是内存要求小的应用,性能提升很大,Spark还可以进行批处理、实时数据处理、机器学习以及图算法等计算模块。使用Spark平台无需关心分布式并行计算的细节,可以智能地进行数据切分、算法复制、分布执行、结果合并,以支持数据分析人员快速开发分布式应用。
Spark的基本框架如下图所示:
Spark应用核心由启动环境和执行程序两部分组成,其中执行程序负责执行任务,运行执行程序的机器是工作节点,而启动环境由用户程序启动,通过集群管理器与各个执行程序进行通信。集群管理器主要负责集群的资源管理和调度,目前支持Standalone、Apache Mesos和YARN三种类型的管理器。
Spark使用弹性分布式数据集(RDD)抽象分布式计算,RDD是Spark并行数据处理的基础,它是一种只读的分区记录的集合,用户可以通过RDD对数据显示地控制存储位置和选择数据的分区。RDD主要通过转换和动作操作来进行分布式计算,转换是根据现有数据集创建新数据集,动作是在数据集上进行计算后返回值给Driver程序。使用RDD可以用基本一致的方式应对不同的大数据处理场景,还能够提高分布式计算的容错性。
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf// Create SparkContext
val conf = new SparkConf().setAppName("WordCountApp").setMaster("local")
val sc = new SparkContext(conf)// Read text file from HDFS
val file = sc.textFile("hdfs://<path-to-your-file>", 5)// Split lines into words and map each word to (word, 1)
val words = file.flatMap(line => line.split(" ")).map(word => (word, 1))// Cache the RDD for better performance
words.cache()// Reduce by key to get the word counts
val counts = words.reduceByKey(_ + _)// Get the top 10 words by count
val top = counts.top(10)(Ordering.by(f => f._2))// Print the top 10 words
println(top.mkString("\n"))
Spark是一种粗粒度、基于数据集的并行计算框架。其计算范式是数据集上的计算,在使用Spark的时候,要按照这一范式编写算法。所谓的数据集操作,就是成堆的数据,如果源数据集是按行存储的话,就需要对其进行适配,将若干记录组成一个集合。因此在提交给Spark任务时,需要先构建数据集,然后通过数据集的操作,实现目标任务。
(四)TensorFlow
TensorFlow为用户封装了底层的分布式操作,使其可以专注于编写机器学习代码。使用数据流图进行数值计算,用有向图中的节点表示,节点的状态是可变的,边是张量,对应为多维数组。TensorFlow中数据并行化的方式由In-graph、Between-graph、异步训练、同步训练几种方式,通过将模型训练分配给不同的工作节点,并使用参数服务器共享参数。
三、并行决策树
随着大数据时代的到来,算法需要处理的数据量急剧增加,仅依靠原始的决策树算法进行分类无论在效率上还是准确性上都不足以满足需求。高效出色的在大数据量下使用决策树算法,需要将决策树算法并行化。
并行决策树算法基于MapReduce框架,核心思想是分而治之的策略。MapReduce通过将海量数据集分割成多个小数据集交给多台不同计算机进行处理,实现并行化数据处理。应用到决策树算法上,通过MapReduce将决策树算法并行处理,将耗时的属性相似度计算的步骤并行执行。Map阶段,以单元组形式分解数据,计算属性相似度,以<属性名,相似度>形式输出。Reduce阶段,汇总所有局部结果,找到最大相似度属性名,以这个属性作为测试节点,若是叶子节点,则返回,否则执行分裂,将其录入待计算数据库中进行存储。不断重复上述过程完成决策树的构建。
(一)并行决策树算法
上图展示了并行决策树算法的主要流程,通过划分和并行化处理训练数据集,利用MapReduce等机制来构建决策树的过程。以下是主要步骤的解析:
1. 数据划分
-
水平划分:
- 数据集被水平切分为多个子数据集(如图中
rid 0-4
和rid 5-9
),每个分区的数据可以独立进行处理。 - 这样做的目的是便于数据分布到不同的计算节点上,实现并行化处理。
- 数据集被水平切分为多个子数据集(如图中
-
垂直划分:
- 将数据集中的属性(如
age
,credit
等)单独拆分,计算每个属性的条件概率或信息增益,以便构建决策树的分裂点。 - 每个属性在不同节点上处理,形成
<key, value, value2>
的键值对结构。
- 将数据集中的属性(如
2. Map阶段
-
生成键值对:
- 每个分区独立对数据集进行处理,将数据映射为键值对形式:
<特征, 类别, 记录数>
。 - 示例:
age
的键值对:<youth, no, 3>
表示age = youth
且分类为no
的记录有3条。credit
的键值对:<fair, no, 3>
表示credit = fair
且分类为no
的记录有3条。
- 每个分区独立对数据集进行处理,将数据映射为键值对形式:
-
并行计算特征与类别分布:
- 每个计算节点独立统计对应特征值和类别之间的分布关系。
3. Reduce 阶段
-
合并统计结果:
- 对同一特征的所有分布进行全局统计,例如
age = youth
的分类no
和yes
的总数分别为3和1。 - 通过这些统计值计算各特征的分裂指标(如信息增益、基尼系数等),选择最佳分裂特征。
- 对同一特征的所有分布进行全局统计,例如
-
构建分裂节点:
- Reduce阶段汇总后,确定当前节点的分裂点(如选择
age
或credit
),并将子节点继续递归处理。
- Reduce阶段汇总后,确定当前节点的分裂点(如选择
4. 并行处理的优势
-
任务分解:
- 水平划分实现了数据集的分片处理,减少了单个计算节点的内存压力。
- 垂直划分实现了特征的独立统计,进一步提升了计算效率。
-
完全并行化:
- 每个节点(数据分片)可以独立构建其子树,直到最终形成完整的决策树。
5. 总结
- 关键思想:利用MapReduce将数据的水平和垂直处理并行化。
- 应用场景:适用于大规模数据集和高维特征场景,充分利用分布式计算的能力。
- 优势:
- 减少单节点计算负担;
- 提高训练效率;
- 支持海量数据和特征处理。
图中展示的具体示例(如<key, value, value2>
和Reduce的结果)形象地说明了如何通过分布式统计和并行计算快速构建决策树。
(二)并行化的随机森林——并行CART决策树算法
上图描述了随机森林(Random Forest)算法的并行化实现过程,特别是基于CART(分类回归树)算法构建的随机森林。以下是主要步骤的解析:
1. 原始数据集的处理
- 步骤①:从原始数据集 D D D中,基于随机抽样的方法生成多个随机数据集(即子样本数据集 D 1 , D 2 , … , D k D_1, D_2, \dots, D_k D1,D2,…,Dk)。
- 这种随机抽样采用的是有放回的随机采样方法(Bootstrap),每个子数据集和原始数据集大小相同,但样本可能重复。
2. 构建子数据集
- 步骤②:对每个子数据集 D i D_i Di,随机选择原始数据集中的 M M M个特征,而非使用全部特征(即进行特征随机选择)。
- 在每个节点分裂时,只考虑 M M M个特征中的最佳分裂,而不是所有特征,从而增加模型的多样性。
3. 构建决策树
- 步骤③:基于CART算法,在每个子数据集 D i D_i Di上构建决策树 T 1 , T 2 , … , T k T_1, T_2, \dots, T_k T1,T2,…,Tk。
- 注意:CART决策树一般会完全生长(无剪枝),以最大程度保留样本数据的特征。
4. 并行化的树构建过程
- 并行实现:
- 每个决策树 T i T_i Ti的构建过程可以在不同的计算节点或线程上独立并行进行,因为每棵树仅依赖于其对应的随机样本数据 D i D_i Di和随机特征选择,不需要与其他树通信。
- 并行化大大提升了随机森林训练的效率,尤其在大规模数据集的场景中。
5. 集成决策与投票
- 步骤④:训练完成后,将所有决策树 T 1 , T 2 , … , T k T_1, T_2, \dots, T_k T1,T2,…,Tk组成随机森林。
- 步骤⑤:输入新的预测数据,随机森林会让所有决策树分别对输入数据进行预测,得到多个分类结果 R 1 , R 2 , … , R k R_1, R_2, \dots, R_k R1,R2,…,Rk。
- 步骤⑥:通过投票机制(分类问题)或平均机制(回归问题),对所有树的预测结果进行综合处理,得出最终的预测结果。
总结
- 并行化:随机森林利用数据样本的独立性和树的构建独立性,天然适合并行化。
- CART决策树:作为随机森林的基本组成部分,使用了随机特征选择,进一步增强模型的多样性和泛化能力。
- 投票机制:通过多树投票,随机森林具备较强的鲁棒性和抗过拟合能力。
该方法广泛应用于分类、回归等任务,是一种高效且效果优异的集成学习方法。
四、并行k-均值算法
k-均值算法是应用最广泛的聚类算法之一,随着大数据的发展,在实际使用过程中如何提升该算法的性能成为了一个有挑战性的任务。可以基于Map Reduce实现k-均值算法,在Hadoop环境中并行运行,能够高效且廉价的处理大型数据集。
在具体实现该算法时,将输入数据集存储在分布式文件系统HDFS中,作为<key,value>的序列文件,每个键值对代表数据集的一条记录,其中key记录的是数据文件距离起始位置的偏移量,value是该条记录的内容。将迭代后或初始化后的k个聚类中心放到Configuration中,然后在Mapper的setUp计算读取这k个聚类中心。Mapper会将同一类的数据发送至同一个Reducer。在Reducer中,只需要根据数据重新计算聚类中心即可。
使用MapReduce框架实现k-均值聚类算法时,需要将每一次迭代作为一个MapReduce Job进行计算,通过多次运行该Job达到迭代的效果,最终得到k个聚类中心。基于MapReduce的并行k-均值算法,可以在廉价机器上有效处理大型数据集。
(一)k-均值算法算例
进行k-均值聚类的数据如下表:
x 1 x_1 x1 | x 2 x_2 x2 | x 3 x_3 x3 | x 4 x_4 x4 | x 5 x_5 x5 | x 6 x_6 x6 | x 7 x_7 x7 | x 8 x_8 x8 | x 9 x_9 x9 | x 10 x_{10} x10 | x 11 x_{11} x11 |
---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 2 | 3 | 9 | 10 | 10 | 11 | 15 | 16 | 16 |
2 | 2 | 5 | 3 | 14 | 13 | 15 | 16 | 6 | 5 | 8 |
将 x 1 x_1 x1— x 6 x_6 x6分配给node1,将 x 7 x_7 x7— x 11 x_{11} x11分配给node2,选择k=3,在开始阶段,创建一个如下表的全局文件。
Map阶段对于数据集中的每一个节点,读取全局文件,获得上一轮迭代生成的簇中心信息,计算样本点到簇中心的距离。在Reduce阶段reduce程序收到关于某一个簇的信息,包括该簇的ID和簇的中心以及包含的样本个数。具体如下表。
一次迭代完成后,进入下一次迭代,直到聚类结果不再发生变化,输出最终得到的聚类结果如下表。
(二)多元线性回归模型
相关文章:
【大数据分析机器学习】分布式机器学习
【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈智能大数据分析 ⌋ ⌋ ⌋ 智能大数据分析是指利用先进的技术和算法对大规模数据进行深入分析和挖掘,以提取有价值的信息和洞察。它结合了大数据技术、人工智能(AI)、机器学习(ML&a…...
Go 语言已立足主流,编程语言排行榜24 年 11 月
Go语言概述 Go语言,简称Golang,是由Google的Robert Griesemer、Rob Pike和Ken Thompson在2007年设计,并于2009年11月正式宣布推出的静态类型、编译型开源编程语言。Go语言以其提高编程效率、软件构建速度和运行时性能的设计目标,…...
数字反向输出
数字反向输出 C语言代码C 代码Java代码Python代码 💐The Begin💐点点关注,收藏不迷路💐 小明听到广播里的数字后,总喜欢反着念给妈妈听。请聪明的你将小明听到的数字反向输出。 输入 输入为一个整型的四位数n 输出 …...
c++ std::stack总结
概念 std::stack 是 C 标准库中的一个容器适配器(Container Adapter)。它通常是基于其他容器(如 std::deque 或 std::vector)实现的,提供了一个后进先出(LIFO,Last In First Out)的…...
【C++习题】10.反转字符串中的单词 lll
题目: 链接🔗:557.反转字符串中的单词 lll 题目: 代码: class Solution { public:void Reverse(string &s, int start, int end){char tmp;while(start < end){tmp s[start];s[start] s[end];s[end] tmp;…...
【pyspark学习从入门到精通14】MLlib_1
目录 包的概览 加载和转换数据 在前文中,我们学习了如何为建模准备数据。在本文中,我们将实际使用这些知识,使用 PySpark 的 MLlib 包构建一个分类模型。 MLlib 代表机器学习库。尽管 MLlib 现在处于维护模式,即它不再积极开发…...
transformer.js(四): 模型接口介绍
前面的文章底层架构及性能优化指南介绍了transformer.js的架构和优化策略,在本文中,将详细介绍 transformer.js 的模型接口,帮助你了解如何在 JavaScript 环境中使用这些强大的工具。 推荐阅读 ansformer.js(二)&…...
java集合练习题
简答题:分析HashSet和treeSet分别如何去重的? TreeSet的去重机制: 如果你传入了一个Comparator匿名对象,就使用实现的compare去重,如果方法返回0,就认为是相同的元素/数据,就不添加,如果你没有传入一个Comp…...
微知-plantuml常用语法和要点以及模板?(note over、create、box,endbox、alt,else,end, autonumber)
文章目录 常见语法常用 线条类实线虚线斜箭头或奇数箭头 A ->(10) B: B->(10) A分割线:newpage 颜色类给箭头指定颜色 -[#red]->给某个note加颜色: note over Alice, Bob #FFAAAA: xxx给分组信息着色 alt#red 分组类alt xxx; else xxx; else xx…...
gitHub常用操作
gitHub常用操作 1、把项目拉下来2、添加上游仓库3、进入分支4、从上游仓库拉取更新 1、把项目拉下来 在对应项目的右上角点击fork,fork下来:将远程仓库复制到个人仓库 在创建好的分支文件夹下使用 git clone自己远程仓库下的http地址(fork…...
Mybatis Plus动态指定数据源
Java开发中一个项目连接多个数据源时,可能会有需要动态指定一个方法所使用的数据源的场景。例如不同的用户查询不同的数据源。 我遇到的需求是这样的:设计一个公共的数据字典组件,该组件需要连接数据源,使用方引入该组件后可以直…...
Python 爬虫 (1)基础 | 基础操作
一、基础操作 1、快速构建一个爬虫 ConvertCurl: https://curlconverter.com/选择URL,点击右键,选择 Copy >> Copy as cURL(bash) 安装JS环境:https://www.jb51.net/python/307069k7q.htm...
C++
目录 C 的发展总结:编辑 1. C 的早期发展(1979-1985) 2. C 标准化过程(1985-1998) 3. C 标准演化(2003-2011) 4. C11(2011年) 5. C14(2014年…...
Infineon(英飞凌) TLE985xQX 芯片电机工作电流、电压AD采样
其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 单片机芯片合集 文章目录 其他系列文章导航 文章目录 前言 一、选取合适的端口 1.通过 OP1、OP2 电流采集运放输入端口进行H桥驱动的电流采集。 2.通过 O_D_VBAT_AD_EN、I_A_VBAT_A…...
三极管工作原理,以及小电流,如何驱动大电流
因为研究【自动下载电路实现】,涉及到三极管内容,之前看过,现在回看之前的笔记,一点印象都没了,于是,想了个办法,记住它 个人联想,不喜绕道,只是帮助个人记忆的 标题也是…...
Haystack 的开源开发 LLM 应用设计框架
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...
彻底理解消息队列的作用及如何选择
一.为什么要使用消息队列? 使用消息队列,其实是需要根据实际业务场景来的,一般都是实际开发中,遇到了某种技术挑战,如果不使用MQ的话,业务实现起来比较麻烦,但是通过MQ就可以更快捷高效的实现业…...
【Java】二叉树:数据海洋中灯塔式结构探秘(上)
个人主页 🌹:喜欢做梦 二叉树中有一个树,我们可以猜到他和树有关,那我们先了解一下什么是树,在来了解一下二叉树 一🍝、树型结构 1🍨.什么是树型结构? 树是一种非线性的数据结构&…...
海洋通信船舶组网工业4G路由器应用
船舶是浩瀚海洋中探索与贸易的载体,更是船员们生活与工作的家园。为了在广阔的水域中搭建起稳定、高效的网络桥梁,工业4G路由器以卓越的通信组网能力,为船舶组网提供网络支持。 工业4G路由器以其强大的信号发射能力,确保船舶内部…...
字符串-07-判断两个IP是否属于同一子网
文章目录 1. 题目描述2. 思路3. 代码 1. 题目描述 IP地址是由4个0-255之间的整数构成的,用"."符号相连。 二进制的IP地址格式有32位,例如:10000011,01101011,00000011,00011000;每八…...
Django启用国际化支持(2)—实现界面内切换语言:activate()
文章目录 ⭐注意⭐1. 配置项目全局设置:启用国际化2. 编写视图函数3. 配置路由4. 界面演示5、扩展自动识别并切换到当前语言设置语言并保存到Session设置语言并保存到 Cookie ⭐注意⭐ 以下操作依赖于 Django 项目的国际化支持。如果你不清楚如何启用国际化功能&am…...
自定义协议
1. 问题引入 问题:TCP是面向字节流的(TCP不关心发送的数据是消息、文件还是其他任何类型的数据。它简单地将所有数据视为一个字节序列,即字节流。这意味着TCP不会对发送的数据进行任何特定的边界划分,它只是确保数据的顺序和完整…...
PHP Date 函数:日期和时间处理的全指南
PHP Date 函数:日期和时间处理的全指南 PHP Date 函数是 PHP 编程语言中用于处理日期和时间的核心函数之一。它提供了强大的功能,允许开发者轻松地格式化、计算和操作日期和时间值。本文将详细介绍 PHP Date 函数的用法,包括基本格式化、时间戳处理、时区设置以及一些高级特…...
C++设计模式:抽象工厂模式(风格切换案例)
抽象工厂模式(Abstract Factory)是一种创建型设计模式,其核心思想是:为一组相关或相互依赖的对象提供一个创建接口,而无需指定它们具体的类。简单来说,就是一个工厂可以生产一系列相关的对象。 我们接下来…...
社交媒体营销新趋势:如何通过海外平台提升品牌曝光度?
社交媒体不仅是简单的信息传播工具,更是连接用户与品牌之间的重要纽带。每天,有数以亿计的全球用户在不同平台上活跃,潜藏着巨大的市场潜力。对于企业来说,关键在于制定清晰的营销策略,精准把握不同社交平台的特性&…...
嵌入式C/C++编译常见问题与分析
#1 kcx.c:112:89: error: format specifies type unsigned int but the argument has type u32 * (aka unsigned int *) [-Werror,-Wformat] 报错原因: int kcx(u32 *trigger) { ERR_MSG("%s:failed. attr%d, trigger%u\n", __func__, attr_enable, trig…...
laravel 5.5 增加宏指令 joinSub, 省去->toSql() 和 addBinding($bindings);
laravel 5.5 增加宏指令 joinSub, 省去->toSql() 和 addBinding($bindings); 1. 在laravel5使用join 子查询时 $sub_query DB::table(table1)->select([table1.id, cate_id])->join(table2, table1.id, , table2.id)->where(table1.cate_id, 2)->orderBy(tabl…...
知识库搭建:大健康产业数字化转型的新引擎
随着数字经济的蓬勃发展,大健康产业正步入一个崭新的发展篇章。消费者对于健康的追求日益增长,促使大健康企业积极探索数字化路径,以提升供应链效率、控制成本,并在激烈的市场竞争中脱颖而出。在此过程中,一系列数字化…...
创建可重用React组件的实用指南
尽管React是全球最受欢迎和使用最广泛的前端框架之一,但许多开发者在重构代码以提高可复用性时仍然感到困难。如果你发现自己在React应用中不断重复相同的代码片段,那你来对地方了。 在本教程中,将向你介绍三个最常见的特征,表明是…...
蓝桥杯每日真题 - 第18天
题目:(出差) 题目描述(13届 C&C B组E题) 解题思路: 问题分析 问题实质是一个带权图的最短路径问题,但路径的权重包含两个部分: 从当前城市到下一个城市的路程时间。 当前城市的…...
MySQL中索引全详解
第一部分:什么是索引 索引在数据库中就像书的目录,能够快速定位数据位置,从而提升查询效率。没有索引时,数据库查询需要从头到尾扫描整个表(称为全表扫描),这在数据量大时非常耗时。有了索引后&…...
探索复合物TPP-PEG-Heparin的特性;磷酸三苯酯-聚乙二醇-肝素的线粒体靶向性
TPP-PEG-Heparin,即磷酸三苯酯(TPP)、聚乙二醇(PEG)和肝素(Heparin)的复合物,其特性融合了这三种成分的性质。 一、线粒体靶向性 TPP部分:具有线粒体靶向功能…...
ubuntu 配置 多个 git 客户端 账户
Git配置两个或多个账户 https://blog.csdn.net/mainking2003/article/details/134711865 git 提交 不用输入用户名、密码的方法(GIT免密提交) https://blog.csdn.net/wowocpp/article/details/125797263 git config 用法 https://blog.csdn.net/blueb…...
Web3与智能合约:区块链技术下的数字信任体系
随着互联网的不断发展,Web3代表着我们迈入了一个去中心化、更加安全和智能的网络时代。作为Web3的核心组成部分,区块链技术为智能合约的出现和发展提供了强有力的基础。智能合约不仅仅是自动化的代码,它们正逐步成为重塑数字世界信任体系的关…...
RocketMQ文件刷盘机制深度解析与Java模拟实现
引言 在现代分布式系统中,消息队列(Message Queue, MQ)作为一种重要的中间件,扮演着连接不同服务、实现异步通信和消息解耦的关键角色。Apache RocketMQ作为一款高性能的分布式消息中间件,广泛应用于实时数据流处理、…...
高级编程之结构化代码
背景:以下没结构化代码之前,定时器同步店铺信息的代码。 结构化的思想:SRP(单一职责),一个方法是做一件事,层次是相关的,逻辑和数据操作进行拆分,数据操作从业务流程上定…...
学习编程,学习中间件,学习源码的思路
01 看的多,内化不足 最近想复习一下编程相关的知识,在复习前我翻开了之前的一些笔记,这些笔记基本都是从书本、视频、博客等摘取记录的,看着这些笔记心里总结:看的多,内化不足。 02 整理大纲 为了解决这个…...
网络安全与加密
1.Base64简单说明描述:Base64可以成为密码学的基石,非常重要。特点:可以将任意的二进制数据进行Base64编码结果:所有的数据都能被编码为并只用65个字符就能表示的文本文件。65字符:A~Z a~z 0~9 / 对文件进行base64编码…...
开源协议介绍
文章目录 1. MIT License2. Apache License 2.03. GNU General Public License (GPL)4. GNU Lesser General Public License (LGPL)5. BSD License6. Mozilla Public License (MPL)7. Creative Commons Licenses (CC)8. Unlicense选择建议 在 开源平台上,开源项目通…...
Java技术复习提升 10异常
10 异常 10.1异常介绍及分类 异常捕获 选中后alttabt->选中try-catch 异常就是程序执行中不正常的情况 注意语法和逻辑错误并不是异常 异常分类有两种 error和exception error是错误 虚拟机无法解决的严重问题 exception是其他因为编程错误或者外在因素导致的一般性的问…...
java版工程项目管理系统源码:Spring Cloud与前后端分离的完美结合
在现代化的工程项目管理中,一套功能全面、操作便捷的系统至关重要。本文将介绍一个基于Spring Cloud和Spring Boot技术的Java版工程项目管理系统,结合Vue和ElementUI实现前后端分离。该系统涵盖了项目管理、合同管理、预警管理、竣工管理、质量管理等多个…...
Oracle与MySQL中CONCAT()函数的使用差异
一、CONCAT函数介绍 CONCAT函数是MySQL等数据库中用于连接两个或多个字符串的内置函数。其基本语法如下: CONCAT(string1, string2, ...)参数说明: string1, string2, …:需要连接的字符串参数,可以有多个。 返回值࿱…...
AI社媒引流工具:解锁智能化营销的新未来
在数字化浪潮的推动下,社交媒体成为品牌营销的主战场。然而,面对海量的用户数据和日益复杂的运营需求,传统营销方法显得力不从心。AI社媒引流王应运而生,帮助企业在多平台中精准触达目标用户,提升营销效率和效果。 1.…...
浏览器的事件循环机制
一、请简述浏览器的事件循环机制(Event Loop)基本原理 浏览器的事件循环机制是用于协调处理 JavaScript 中的异步任务与同步任务执行顺序的一种机制,它确保了代码能够按照合理的顺序执行,避免阻塞页面渲染等情况。其基本原理如下…...
如何在 React 项目中应用 TypeScript?应该注意那些点?结合实际项目示例及代码进行讲解!
在 React 项目中应用 TypeScript 是提升开发效率、增强代码可维护性和可读性的好方法。TypeScript 提供了静态类型检查、自动补全和代码提示等功能,这对于 React 开发者来说,能够帮助早期发现潜在的 bug,提高开发体验。 1. 项目初始化 在现…...
排序算法(五)--归并排序
文章目录 引言归并排序概述C语言实现代码解析结论 归并排序 C语言实例 引言 归并排序(Merge Sort)作为一种经典的排序算法,以其稳定性、分治法的巧妙应用以及相对高效的时间复杂度而著称。 归并排序概述 归并排序采用分治法(Di…...
Linux KASLR 地址偏移
kaslr开启时地址 cat /proc/cmdline BOOT_IMAGE/boot/vmlinuz-5.4.0-193-generic rootUUID0e46dee3-4557-434a-a2d2-a35c6ad3d327 ro find_preseed/preseed.cfg auto noprompt prioritycritical localeen_US quiet cat /boot/config-$(uname -r) | grep CONFIG_RANDOMIZE_B…...
利用开源图床的技巧与实践
随着互联网的普及,图片的使用变得越来越广泛。无论是个人博客、社交媒体还是企业网站,都离不开图片的呈现。而图床作为图片存储和管理的工具,可以帮助开发者和内容创作者高效地管理图片资源。本文将探讨如何利用开源图床,并提供相…...
Unity Lua方向的面试真题详解
最近有位同学面试Unity,面试的公司采用Lua的方案来做公司项目,我们把面试时问道的真题列举出来,并配上参考回复。 1、Lua热更文件时,文件是重写的,还是只写一部分? 热更分为资源更新和代码更新,资源更新…...
经验笔记:Git 基础操作指南
推荐一下Gitee最好的Git操作教程:Learn Git Branching 经验笔记:Git 基础操作指南 1. 安装 Git 首先确保您的计算机上已安装 Git。如果还没有安装,可以从 Git官网 下载并安装。 2. 配置 Git 安装完成后,打开命令行工具&#…...