国科大 2024-2025秋 大数据分析课程期末复习重点
教师:靳小龙、刘盛华
博主在做期末复习时,发现这门课的资料少之又少,搜遍全网只能找到几份作业答案。特此将本学期老师画的重点分享给学弟学妹们,希望对大家的复习有所帮助。
靳小龙老师部分:
大数据与大数据分析简介
大数据的定义
可容忍的时间
大数据是存储、算力、网络发展的产物(几个方面的作用结果)
大数据基本特征(几个V:体量、速度、模态多样、不确定)P1
大数据大价值value P2 --挖掘价值的过程 没有挖掘之前数据价值密度低 所以要挖掘数据 价值密度飙升
大数据分析技术:数据---信息--知识--决策的过程 涉及很多方面
大塑胶分析的四个层次(描述性分析、诊断性分析(背后的原因)、预测性分析(做预测,未来状况)、指导性分析(前三种是单向 数据到结果 第四种是双向的 数据到结果 结果作用在数据对象上对举措进行调整 eg 医生指导病人用药))
描述性分析-互联网舆情监测与分析 媒体关注啥网民关注什么
诊断性分析-工业大数据分析故障诊断 硬盘故障
预测性分析-谷歌流感趋势预测 根据搜索词判断美国会不会发生流感 要关注数据的相关性和因果性 不是只有相关性时间变了不成立 要掌握数据背后的因果
指导性分析:英国大选中剑桥用用户画像影响用户投票行为 个性化定制信息的推送形成信息茧房-->僵化眼界
数据驱动的自然语言处理
基于长短时记忆网络的中文分词:分析要做好必要要刻画好上下文--刻画上下文?循环神经网络RNN:得到每个词的表达 问题:短时记忆+梯度爆炸-->长短时记忆网络 内部状态c 输出状态h 三个门解决问题 sigmoid门(水龙头)针对每一维度的数据传多少 遗忘门 上一个时刻的内部状态变量ct-1 有多少能输入进来 *工作机制* gf作用在ct-1上 gf对ct-1进行控制 每个维度有哪些信息是真正输入到当前的 输入门 ct=tahn() 得到gi gi进行控制 输出门 tahn(ct) go输出门的门控向量 得到了每个单词的向量表达即哪些向量应该组合在一起 注意标签推理层 用几层lstm
文本分类:TextCNN模型——每个词有一个向量,不同词拼接起来形成矩阵,做卷积,得到基于卷积神经网络的模型,maxpooling,全连接得到和任务相结合的向量 如果是分类任务--向量对应类别(反正就是可以根据任务设定向量每一维表达什么) 对文本做分类可以参考这个架构 抽取关系 第i维值最大表示i维的关系P3
文本表达—单词的表示方法:局部表示(一维:独热表示)vs分布表示(基于单词的横向组合形成的特征表示**LSI(低秩逼近矩阵-->LSI:cij第i个单词在j文档中出现的次数,对文档进行分解,保持奇异值不变其余置为0,每一行是什么?每一列是什么?奇异值理解为相关程度),纵向聚合-聚合成一类实体eg.国科大清华(NPLM模型-只使用单词上文、C&W排序学习模型-使用单词上下文预测当前+排序损失函数、上下文预测模型word2vec、SG用当前预测上下文、glove-词与词共现矩阵 行和列都是但系看次数))
句子的表示方法:词袋模型(词集模型上,考虑但系出现次数)TF-IDF模型(词频+逆向文档频率,如果某个词或短语在一篇文章中出现的频率TF高在其他文章很少出现,则该词代表当前文档,有类别区分能力,适合分类 具体咋算?)基于单词分布式表示组合的表示方法 基于CNN/RNN/ReCNN依托于语法树/DAN(不多说)启发式规则的文本匹配(BM25与tiidf类似)基于因语音表达的文本匹配(隐语义)文本匹配的评价方法(分类准去率。。ndcg是最综合的) 没记上太多再看
知识图谱与知识计算
边和点是什么
本体层(哪些概念、哪些类型有什么关系)实体层(实例化,实例之间的关联关系)
生命周期(知识建模、获取、融合、存储、计算、应用)
实体抽取(啥样都有)--方法:传统机器学习方法:序列标注任务(在字或词一级打标签 BIO模式 BIOES模式) 隐马尔可夫模型(最后得到Tmax wi ti贡献的次数出现的次数 近似P())LSTM+CRF结合做识别(两层lstm既有上文也有下文--最后对向量序列打标签)
关系抽取-两个实体之间的语义关系:远程监督关系抽取(核心思想是啥-对核心思想的放松 对句子的分类到对句袋的分类)基于经典神经网络的关系抽取(关键词)基于预训练神经网络-BERT(单词预测任务 下一句话预测 优势不用单独标注利用预料集中的信息 如何用bert 做关系的抽取进行标识)-->Transformer(编码器 核心-多头
的过程
基于分布式表达的知识计算 *TransE 向量加法三角形法则 头+关系约等于尾实体 正确满足错误不满足 损失函数学习到所有的向量的表达 问题:多对多表达不了 -->TransR方法 关系和实体不在一个空间 关系和实体分别学一个空间 TransA:对margin进行优化
刘盛华老师部分:
这位老师的部分特别抽象,画的重点聊胜于无。以下就截PPT里的图了。
大数据分析技术与系统
可扩展性是重点:
算法的特点:
参数更新方案的对比:

大数据统计分析



大数据机器学习

大图数据分析


社会媒体分析
掌握pagerank,每种方法得知道怎么算,考试中考了
要知道Google PageRank的提出是为了解决:Dead ends和Spider traps
完整的算法流程:
数据与算法安全
这部分内容老师复习课提到了,有的内容比较难,大家根据复习课的内容自行决定复习强度即可。
相关文章:
国科大 2024-2025秋 大数据分析课程期末复习重点
教师:靳小龙、刘盛华 博主在做期末复习时,发现这门课的资料少之又少,搜遍全网只能找到几份作业答案。特此将本学期老师画的重点分享给学弟学妹们,希望对大家的复习有所帮助。 靳小龙老师部分: 大数据与大数据分析简…...
使用Python爬虫获取淘宝Custom API接口数据
一、引言 淘宝作为中国最大的电商平台之一,其提供的API接口为开发者提供了丰富的数据访问能力。通过淘宝的Custom API接口,开发者可以获取商品详情、店铺信息、订单数据等多种资源。这些数据对于电商运营、市场分析、竞品监控等场景具有极高的价值。本文…...
人生的转折点反而迷失了方向
就像我老婆说的,我是抽空结了一个婚。今天是上班的第三天,不知道是出于何种原因,自己反而陷入了深深的困境,没有了斗志,原因也找不出来,白天在公司没有很大量的产出,晚上回去是想学一学…...
Web应用项目开发 ——Spring Boot邮件发送
一.邮件发送介绍 邮件发送是一个非常常见的功能,注册时的身份认证、重要通知发送等都会用到邮件发送。在现代的Web应用程序中,邮件发送功能是非常常见且重要的一部分,Spring Boot框架提供了简单且强大的方式来实现邮件发送功能。Spring中提供…...
mit6.824-lab1
1.任务及要求 https://pdos.csail.mit.edu/6.824/labs/lab-mr.html 2 Coordinator 与 Worker 的设计分析 2.1 Coordinator(协调器)的核心职责 协调器是 MapReduce 系统的核心控制节点,负责全局任务调度与状态管理,具体功能如下…...
Vision Transformer:打破CNN垄断,全局注意力机制重塑计算机视觉范式
目录 引言 一、ViT模型的起源和历史 二、什么是ViT? 图像处理流程 图像切分 展平与线性映射 位置编码 Transformer编码器 分类头(Classification Head) 自注意力机制 注意力图 三、Coovally AI模型训练与应用平台 四、ViT与图像…...
linux查看所有程序占用的本地端口
sudo ss -tulwnp ss是Socket Statistics的缩写,用来替代旧的netstat工具,功能更强大,执行更快。它用于查看系统的网络连接情况,包括TCP、UDP等协议的信息。 查阅ss的帮助文档(man ss),发现选项…...
java后端开发day15--字符串(一)
(以下内容全部来自上述课程) 1.API (Application Programming Interface 应用程序编程接口) 1.简单理解 简单理解:API就是别人已经写好的东西,我们不需要自己编写,直接使用即可。 Java API&…...
C++STL容器之map的使用及复现
map 1. 关联式容器 vector、list、deque、forward_list(C11) 等STL容器,其底层为线性序列的数据结构,里面存储的是元素本身,这样的容器被统称为序列式容器。而 map、set 是一种关联式容器,关联式容器也是用来存储数据的…...
lvs的DR模式
基于Linux的负载均衡集群软件 LVS 全称为Linux Virtual Server,是一款开源的四层(传输层)负载均衡软件 Nginx 支持四层和七层(应用层)负载均衡 HAProxy 和Nginx一样,也可同时支持四层和七层(应用层)负载均衡 基于Linux的高可用集群软件 Keepalived Keepalived是Linux…...
FlutterWeb实战:07-自动化部署
Flutter Web 开发打包后,可以手动发布到服务器上,通过 nginx 来托管静态页面。本文将介绍如何将这一过程自动化。 整体思路 使用脚本自动化构建,然后使用 Docker 打包成镜像,最后部署在服务器上。 自动化构建 这里使用 GitLab-…...
剑指 Offer II 020. 回文子字符串的个数
comments: true edit_url: https://github.com/doocs/leetcode/edit/main/lcof2/%E5%89%91%E6%8C%87%20Offer%20II%20020.%20%E5%9B%9E%E6%96%87%E5%AD%90%E5%AD%97%E7%AC%A6%E4%B8%B2%E7%9A%84%E4%B8%AA%E6%95%B0/README.md 剑指 Offer II 020. 回文子字符串的个数 题目描述 …...
vue中附件下载及打印功能
1.附件dom 注:fileList是由后台返回的附件数组,数组中包含附件名称fileName,附件地址url,附件id等信息 <el-form-item label"附件" style"width: 100% !important;" v-if"modelTypeborrowDetail"><d…...
Python(十九)实现各大跨境船公司物流查询数据处理优化
一、前言 之前已经实现了常用 跨境物流船司 基础信息查询功能,如下所示 实现各大跨境船公司[COSCO/ZIM/MSK/MSC/ONE/PIL]的物流信息查询:https://blog.csdn.net/Makasa/article/details/145484999?spm1001.2014.3001.5501 然后本章在其基础上做了一些…...
android 安装第三方apk自动赋予运行时权限
摘要:行业机使用场景点击运行时权限很麻烦,而随着android的演进,对于权限的管控越发严格。故本文通过对系统的修改实现第三方app在运行时直接获取全部权限。 通过属性ro.perms.force_grant控制功能开关。 Index: frameworks/base/services/…...
java8、9新特性
JAVA8 Lambda 表达式 (parameters) -> expression 或 (parameters) ->{ statements; } 提供了一种更为简洁的语法,尤其适用于函数式接口。相比于传统的匿名内部类,Lambda 表达式使得代码更为紧凑,减少了样板代码的编写。 它允许将函…...
程序诗篇里的灵动笔触:指针绘就数据的梦幻蓝图<9>
大家好啊,我是小象٩(๑ω๑)۶ 我的博客:Xiao Xiangζั͡ޓއއ 很高兴见到大家,希望能够和大家一起交流学习,共同进步。 这一节是对之前内容的修整 目录 一、传值调用和传址调用二、数组名的理解三、指针访问数组四、结尾 一…...
Java网络编程入门
网络编程是指通过计算机网络进行数据传输和通信的过程。在Java中,网络编程提供了一套强大的API,使得开发者能够轻松地创建网络应用程序。本文将介绍Java网络编程的基本概念和一些常用的类。 1.网络编程的基本概念 在网络编程中,我们通常需要…...
2.4 构建模块化应用
第4章:构建模块化应用 模块化应用是 JDK 9 的核心特性之一,通过模块化系统(Project Jigsaw)实现代码的强封装和显式依赖管理。本章详细讲解如何从零构建一个模块化应用,包括模块定义、编译、打包、运行及调试。 4.1 模…...
14.1 Auto-GPT 项目定位与价值解读:揭开自主智能体的神秘面纱
Auto-GPT 项目定位与价值解读:揭开自主智能体的神秘面纱 关键词:Auto-GPT 核心机制、自主任务分解、LangChain 智能体、持续自我优化、AGI 实践路径 一、为什么 Auto-GPT 能引爆技术圈? 1.1 从工具到员工的范式转移 维度传统AI系统Auto-GPT 智能体输入方式精确指令(“翻译…...
【Elasticsearch】分析器的构成
在Elasticsearch中,分析器(Analyzer)是一个处理文本数据的管道,它将输入的文本转换为一系列词元(tokens),并可以对这些词元进行进一步的处理和规范化。分析器由以下三个主要组件构成:…...
2025 年前端开发现状分析:卷疯了还是卷麻了?
一、前端现状:框架狂飙,开发者崩溃 如果你是个前端开发者,那么你大概率经历过这些场景: 早上打开 CSDN(或者掘金,随便),发现又有新框架发布了,名字可能是 VueXNext.js 之…...
单例模式详解(Java)
单例模式详解(Java) 一、引言 1.1 概述单例模式的基本概念和重要性 单例模式是一种常用的软件设计模式,它确保一个类在整个应用程序中只有一个实例,并提供一个全局访问点来访问这个唯一实例。这种模式在资源管理、配置设置和日志记录等方面非常有用,因为它们通常只需要…...
后端面试题
以下是一些常见的后端面试题: 一、通用基础 请简述HTTP协议的工作原理。 答案: HTTP是基于请求 - 响应模型的协议。客户端(通常是浏览器)向服务器发送一个HTTP请求,请求包含请求行(包含请求方法,如GET、POST等、请求的URL和HTTP版本)、请求头(包含诸如浏览器类型、接…...
深入理解Linux网络随笔(一):内核是如何接收网络包的(上篇)
深入理解Linux网络随笔(一):内核是如何接收网络包的(上篇) 1、TCP/IP模型概述 从Linux视角看,TCP/IP网络分层模型包括用户空间和内核空间。用户空间(应用层)负责HTTP、FTP等协议的…...
SQL-leetcode—1393. 股票的资本损益
1393. 股票的资本损益 Stocks 表: ---------------------- | Column Name | Type | ---------------------- | stock_name | varchar | | operation | enum | | operation_day | int | | price | int | ---------------------- (stock_name, operation_day) 是这张…...
热更图片方案
项目平常需要对线上一些图片资源修正,所以需要热更图片功能。 远端入口新增字段配json文件 {"1.1.22030303":{"sprite":{"assets/ui/common/images/acient_gold.png" : "https://aaaa.png","assets/ui/common/image…...
Flutter PIP 插件 ---- iOS Video Call
以下是一篇关于在 iOS 中实现画中画(PiP)功能的技术博客: iOS 画中画(PiP)功能实现指南 简介 画中画(Picture in Picture, PiP)是一项允许用户在使用其他应用时继续观看视频内容的功能。本文将详细介绍如何在 iOS 应用中实现 PiP 功能。 系统要求 iOS 15.0 及以上版本AVKi…...
本地部署DeepSeek开源大模型:从零开始的详细教程
友情提示:本文内容全部由银河易创(https://ai.eaigx.com)AI创作平台deepseek-reasoner模型生成,仅供参考。请根据具体情况和需求进行适当的调整和验证。 近年来,随着人工智能技术的飞速发展,大模型在各个领…...
java项目之基于SSM会议管理系统的设计与实现源码(ssm+mysql)
项目简介 基于SSM会议管理系统的设计与实现实现了以下功能: 基于SSM会议管理系统的设计与实现的主要使用者分为:管理员登录后修改个人的密码。用户管理中,对公司内的用户进行管理,包括会议管理员和员工,管理部门信息…...
PortSwigger——WebSockets vulnerabilities
文章目录 一、WebSockets二、Lab: Manipulating WebSocket messages to exploit vulnerabilities三、Lab: Manipulating the WebSocket handshake to exploit vulnerabilities四、Using cross-site WebSockets to exploit vulnerabilities4.1 跨站WebSocket劫持(cro…...
STM32系统架构介绍
STM32系统架构 1. CM3/4系统架构2. CM3/4系统架构-----存储器组织结构2.1 寄存器地址映射(特殊的存储器)2.2 寄存器地址计算2.3 寄存器的封装 3. CM3/4系统架构-----时钟系统 STM32 和 ARM 以及 ARM7是什么关系? ARM 是一个做芯片标准的公司,…...
智能GUI Agent是什么,有什么应用领域
智能GUI Agent是什么 研究背景与目的:GUI长期主导人机交互,LLM特别是多模态模型的出现,为GUI自动化带来变革,催生了基于LLM的GUI智能体。这些智能体可理解自然语言指令,处理复杂GUI元素并执行操作,改变了用户与软件交互方式。论文旨在梳理该领域发展脉络,剖析关键要素,…...
Python3操作MongoDB批量upsert
个人博客地址:Python3操作MongoDB批量upsert | 一张假钞的真实世界 代码如下: mongoClient MongoClient(mongodb://172.16.72.213:27017/) opsDb mongoClient.ops azScheduled opsDb.azScheduledFlowbulkOpers [] for flow in scheduledFlows.valu…...
3dgs 2025 学习笔记
CVPR 2024 3D方向总汇包含(3DGS、三维重建、深度补全、深度估计、全景定位、表面重建和特征匹配等)_cvpr2024-structure-awaresparse-viewx-ray3dreconstr-CSDN博客 https://github.com/apple/ml-hugs 3DGS COLMAP-Free 3D Gaussian Splatting ⭐code &…...
大模型笔记:pytorch实现MOE
0 导入库 import torch import torch.nn as nn import torch.nn.functional as F 1 专家模型 #一个简单的专家模型,可以是任何神经网络架构 class Expert(nn.Module):def __init__(self, input_size, output_size):super(Expert, self).__init__()self.fc nn.L…...
C#/.NET/.NET Core技术前沿周刊 | 第 25 期(2025年2.1-2.9)
前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿,助力技术成长与视野拓宽。 欢迎投稿、推荐…...
package.json 文件配置
创建 Node.js 的配置文件 package.json npm init -y package.json 文件配置说明 配置说明示例name指定项目的名称,必须是小写字母,可以包含字母、数字、连字符(-)或下划线(_),不能有特殊字符…...
相机模数转换
模拟图像是什么? 模拟图像是指连续变化的图像,它通常来源于现实世界的物理场景,并通过光学系统(如相机镜头)投射到感光介质上。模拟图像是连续的,这意味着它在空间和颜色值上都有无穷的细节。例如…...
mysql大数据量分页查询
一、什么是MySQL大数据量分页查? MySQL大数据量分页查是指在使用MySQL数据库时,将大量数据分成多个较小的部分进行显示,以提高查询效率和用户体验。分页查询通常用于网页或应用程序中,以便用户能够逐步浏览结果集。 二、为什…...
组织结构改革:激活企业活力的 “源头活水”
难以适应市场变化、内部沟通与协作不畅、决策效率低下、运营成本增加、人才流失严重、员工士气下降、战略目标难以实现……企业如何根据市场环境变化和自身发展需求,灵活调整组织框架,赋能企业的持续健康发展? 某国有投资建设集团旗下的二级…...
金融风控项目-1
文章目录 一. 案例背景介绍二. 代码实现1. 加载数据2. 数据处理3. 查询 三. 业务解读 一. 案例背景介绍 通过对业务数据分析了解信贷业务状况 数据集说明 从开源数据改造而来,基本反映真实业务数据销售,客服可以忽略账单周期,放款日期账单金…...
Java常用设计模式面试题总结(内容详细,简单易懂)
设计模式的分类 创建型模式:通过隐藏对象创建的细节,避免直接使用 new 关键字实例化对象,从而使程序在判断和创建对象时更具灵活性。常见的模式包括: 工厂模式抽象工厂模式单例模式建造者模式原型模式 结构型模式:通…...
【Elasticsearch】文本分析Text analysis概述
文本分析概述 文本分析使 Elasticsearch 能够执行全文搜索,搜索结果会返回所有相关的结果,而不仅仅是完全匹配的结果。 如果你搜索“Quick fox jumps”,你可能希望找到包含“A quick brown fox jumps over the lazy dog”的文档,…...
ATF系统安全从入门到精通
CSDN学院课程连接:https://edu.csdn.net/course/detail/39573...
C# 上位机--变量
C# 上位机--变量 在 C# 上位机开发领域,变量是构建程序逻辑的基础元素之一。它就像是一个容器,用于存储各种类型的数据,从简单的数值到复杂的对象。正确理解和使用变量,对于开发出高效、稳定且易于维护的上位机程序至关重要。本文…...
π 的奥秘:如何用有理数逼近无理数?
本文将围绕有理数、无理数、连续统以及它们之间的深刻联系展开讨论,并结合具体的数学理论如康托尔区间套定理、戴德金分割、柯西施瓦茨不等式等,进行简要探讨 由于本文并未深入探讨,可能存在部分不严谨的地方,也欢迎各位进行纠正…...
LeetCode --- 436周赛
题目列表 3446. 按对角线进行矩阵排序 3447. 将元素分配给有约束条件的组 3448. 统计可以被最后一个数位整除的子字符串数目 3449. 最大化游戏分数的最小值 一、按对角线进行矩阵排序 直接模拟,遍历每一个斜对角线,获取斜对角线上的数字,排…...
绘制中国平安股价的交互式 K 线图
在本文中,探索如何使用 Python 的强大库进行股市数据分析与可视化。我们将以中国平安(股票代码:sh601318)为例,展示如何获取其股票数据,并绘制一张交互式 K 线图。 K 线图是股市分析中不可或缺的工具,它能够直观地显示股票的波动情况,包括开盘价、收盘价、最高价和最低…...
【ISO 14229-1:2023 UDS诊断全量测试用例清单系列:第二节】
ISO 14229-1:2023 UDS诊断服务测试用例全解析(ECU复位0x11服务) 作者:车端域控测试工程师 更新日期:2025-02-12 关键词:UDS诊断协议、ECU复位服务、0x11服务、ISO 14229-1:2023 二、ECU复位服务(0x11服务&…...