当前位置：首页 > news >正文

游戏引擎学习第255天:构建配置树

news 来源：原创 2025/7/18 12:32:19

为今天的内容设定背景

今天的任务是构建性能分析（profiling）视图。
目前来看，展示性能分析图形本身并不复杂，大部分相关功能在昨天已经实现。图形显示部分应该相对直接，工作量不大。
真正需要解决的问题，是关于如何查询我们已有的数据。我们当前面临两个核心问题需要处理，具体来说，是数据查询层面上的挑战。也就是说，图形可以画出来，但关键是要搞清楚数据本身是什么，以及我们如何从中获取有用的信息，这才是今天工作的重点所在。

修改一个bug 方块排序的时候会被挡住

在这里插入图片描述

缩放图的按钮

在这里插入图片描述

问题1：没有办法快速获取上一帧的性能分析信息

我们目前面临的第一个问题是，没有一种快速的方式来提取某一帧的性能分析信息，比如上一帧或某一特定帧的数据。现在的做法是通过一个线性链表进行搜索，这种方式效率极低，根本无法满足需求。

由于我们现在记录了大量的性能分析数据，使用的是一种可以不断流式输出到缓冲区的机制，随着帧数的不断增加，数据也在持续堆积。如果继续使用当前的线性搜索方式，查询的效率将会越来越低，性能会不断下降。

程序运行得越久，性能分析的速度就会越慢，最终会严重影响整个程序的运行效率。这种情况显然是无法接受的，因此必须尽快解决。

问题2：为了打印出性能视图，我们需要某种嵌套调用的概念

我们还面临另一个需要解决的问题，就是在绘制性能分析视图时，必须具备对调用嵌套关系的理解。

首先，这是为了图形正确显示。如果一个函数调用发生在另一个调用内部，那么内部调用必须绘制在外部调用之上。否则，如果外层调用的矩形完全覆盖了内层调用，那么内层的内容就完全看不到了。我们采用矩形来表示每个调用的时间块，因此在嵌套调用的情况下，需要确保子调用的矩形绘制在父调用矩形之上。这样才能实现一种层叠式的可视化效果，使调用栈一目了然。

此外，还有性能方面的考虑。每一帧中可能存在成千上万个函数调用，尤其是在系统被“滥用”时，比如大量记录时间块的情况。若每次都绘制所有层级的调用，代价将非常高昂，界面也会极为杂乱，最终每个调用的图形可能只是一些微小的线条，根本无法辨认。

因此，我们希望引入一种机制，只绘制某些特定层级的数据，例如仅显示顶层调用以及它的直接子调用，或者再深入一两层。这样既能保持图形的清晰度，也能提升性能。

为了解决上述问题，我们在数据整理阶段需要构建一种结构，使得性能分析视图能更高效地展示。这可以有几种不同的方式：

一种方案是预处理数据，生成某种“区域”概念的视图，就像最初设想的那样；
另一种方案是扩展当前的数据存储结构，使其变成一种线程感知的树形结构，便于遍历。

我们暂时还不确定哪种方式最合适。但考虑到调试系统已经较为复杂，也许直接构建一棵树是更实际的选择。这样，在绘制性能分析视图时，只需遍历这棵树即可，树中将包含我们需要的所有信息。

接下来，我们将快速在白板上梳理一下思路，建立一个清晰的结构框架，为后续实现做准备。

黑板讲解：性能查询（Profile Queries）

我们现在讨论的是性能分析的查询系统。目标是实现一种机制，能够方便地获取和组织性能分析数据，尤其是在可视化和调试时使用。

首先，我们需要引入“轨道（lane）”的概念。因为在性能分析中涉及多个线程，为了清晰地展示每个线程的调用情况，必须知道线程的编号或标识，像第一个线程、第二个线程、第三个线程等。这样我们就可以把不同线程的调用放到对应的轨道上显示，比如按照时间轴从左到右展示每个线程的调用情况。

此外，还需要有一种方法，能够在给定的帧（frame）中，查询某个特定作用域（scope）被调用的所有时间段。也就是说，对于某个函数或代码块，比如函数 foo，我们需要知道它在该帧中被调用了几次，以及每一次调用发生的具体时间区间，比如从时间 A 到时间 B，再从时间 C 到时间 D 等等。

进一步地，对于每一个调用实例，还要能获取其内部调用的所有子调用（sub-calls）。也就是说，我们不仅要记录某个函数被调用了，还要记录在这个调用过程中又调用了哪些其他函数，形成一个完整的调用层级结构。

综合来看，我们需要的是一个完整的调用层级树（调用树 / 调用图）。因此，一个直接的方案是：在数据整理阶段（collation pass），就直接把这些调用信息组织成树状结构。考虑到这是调试系统，不需要考虑内存开销，我们可以毫不顾忌地使用大量内存来存储这些信息，因为这些代码最终不会进入用户产品中。

只要我们在整理数据时构建好了这棵调用树，那么在绘图或查询时就可以直接遍历这棵树，既高效又清晰。我们可以先假设就是用这种方式来实现，然后再根据具体效果来进一步优化或调整。

接下来就是进入调试系统内部，着手实现这样的结构和机制。

进入 `game_debug.cpp`：启用性能分析器（Profiler）

我们让这个东西持续运行后，它会开始做一些不好的事情。现在它处于一种持续绘制的状态，也就是说它一直在不断地进行图形绘制操作。随着运行的持续，我们可以观察到，它形成了一种链表结构的情况。可以明显地看出，它是以链表的方式组织和链接各个数据或者任务的。这个过程中，还能注意到它逐步潜入了数据流之中，就像是一个木马程序一样，悄悄地嵌入进来并持续活动。这个行为具有持续性和隐蔽性，一旦运行起来，它会不停地执行操作，并且在系统内部扩展自己的影响。
在这里插入图片描述

运行游戏时因渲染器的 PushBuffer 溢出命中 `InvalidCodePath`

我们在运行的过程中，本质上是在不断消耗内存，因为随着运行持续进行，我们不断构建越来越大的链表结构，内存被“咀嚼”掉的速度也越来越快，系统资源的消耗逐步加剧。这导致一些关键数值开始下降，尤其是当进入游戏部分，由于绘制任务骤增，情况变得更加严重。

绘制的内容过于庞大，最终甚至导致渲染器的 push buffer 溢出，单单是绘制这些内容就让整个渲染系统出现了问题。设置的断点也验证了这一点，反映出问题的严重性。

目前的状态显然不是我们想要的。合理的做法应该是移除一些调用频率过高的定时块（timing blocks），这些调用在当前阶段频繁触发，影响性能，基本上不再具备分析价值。

接下来尝试去查找所有的 timing 相关调用点，主要集中在渲染错误处理中。在这个过程中，发现目前我们并没有一个好用的方式来在所有文件中进行搜索，这原本是计划加入的功能，但因为时间关系还没能实现。于是使用开发工具的查找替换功能来进行手动查找。

进一步检查发现，我们正在对一些函数进行频繁的时间测量，比如“get_best_match”被调用的频率可能是每帧成千上万次，尤其是在使用字体相关功能时。而其他一些调用如“play_sound”等不太重的路径基本可以忽略。

一些路径比如 OpenGL 的部分，当前理论上没有被走到，因此相应的时间函数也不该有调用。我们还注意到很多函数如“speculative_collide”、“get_world_chunk”等被调用非常频繁，说明这些路径正在消耗大量资源，可能是性能瓶颈所在。

此外，还发现有一个宏测试用的临时函数“tempt”仍然存在，已经不再需要，应当去除。另一个发现是我们还保留了 stb_truetype 库，即使它现在基本没有实际用途。这部分代码也对时钟统计造成了干扰，误导了我们对实际代码行数和复杂度的判断。移除它后，统计数据减少了约八千行，实际项目的体量比预估小得多。

这样一来，代码结构变得更加精简，对我们来说是好事。我们不希望整个项目像某些大型程序那样拥有十万行代码，理想状态是控制在三万行以内，保持易于维护和理解。

最后，我们还无法完全确定调用频率与性能消耗之间的具体关系，但这些路径和统计数据是我们接下来想要进一步追踪和打印出来的关键部分。整体目标是掌握系统中有哪些关键操作被频繁调用，并且优化渲染和资源管理的方式，确保系统运行更加高效稳定。
开启软件渲染很快除非段错误
在这里插入图片描述

回到 `game_debug.cpp`：禁用性能分析器

可以做的一个改进是添加摘要信息的打印，用于检查当前收集到的数据是否合理。这将有助于理解调试帧的实际内容。为了避免当前还没整理好的信息被绘制出来，先将相关数据清零，确保在数据整理完成前不会尝试进行绘制。

对于每一帧的调试信息，计划添加一个摘要结构，用来记录当前帧的关键信息。例如：

当前帧中总共记录了多少个事件（stored events）
打开和关闭了多少个分析块（profile blocks）
是否存在未闭合的分析块
各类调用的分布情况等

这些信息会直接保存在帧的结构体中，每次处理一帧时，便能清晰地看到该帧的基本情况，方便进行后续分析和验证。通过这样的方式，可以确保调试过程具有更强的可视化和追踪性，也有助于判断整个分析系统是否正常运作，从而提升开发效率和稳定性。
在这里插入图片描述

修改 `game_debug.h`：为 `debug_frame` 添加 `StoredEventCount`、`ProfileBlockCount` 和 `DataBlockCount`

在调试帧（debug frame）中，我们可以选择设置一些调试信息，例如“总存储事件数量”（total stored event count）、“已排序事件数量”（sorted event count）、“打开的分析块数量”（profile block count）以及锁定时的状态（lockout 的相关状态信息）。每次调用时，我们希望这些信息都能及时更新。

我们设定了帧索引（frame index），也就是说在特定位置（比如设置新帧或处理新帧结构体时）会进行初始化或者更新。尽管我们考虑过是否需要手动初始化这些字段，但实际上在帧结构被处理时，它们已经被清零并进入相应的数据片段中，因此并不需要特别手动初始化这些值。

在结构体被清空后，新的帧数据会被正确地填充和切分，我们只需要在设置帧索引时确保这些调试字段被覆盖和刷新。这样每帧都可以获得准确的事件统计、分析状态以及其他调试相关指标，有助于我们更好地掌握程序的运行状态和性能瓶颈。整个过程旨在构建一个可跟踪、可量化的运行时调试框架，使得调试更加直观和高效。
在这里插入图片描述

在 `StoreEvent` 和 `CollateDebugRecords` 中增加这些值的计数逻辑

每当存储一个事件时，无论是哪种类型的事件，都会关联到某个帧。当前处于哪个相关帧，就将这个事件计入那个帧的“已存储事件数”中。这样可以明确知道每一帧到底处理了多少事件。

同样地，还可以进一步在处理相关调试记录（debug records）时，例如遇到打开数据块（open data block）时，可以查看该数据块所属的帧，然后将其计入该帧的“数据块数”中。

当遇到分析块（profile block）相关操作时，同样可以将其记录进该帧的分析块计数。这样每一帧就会拥有完整的统计信息，包括：

存储的事件总数
数据块的数量
分析块的数量

这些信息都可以实时进行统计并附加到对应帧的数据结构中，确保调试时能够清晰看到每一帧的负载和结构。

准备运行这些逻辑之前，可以先将这些统计数据打印出来，作为调试和验证的手段。通过这种方式，可以在程序运行时即时获得各帧的执行摘要，从而有效分析性能、事件分布情况或潜在问题。这样不仅提升了可观察性，也为后续优化打下了基础。
在这里插入图片描述

在控制台中打印出这些值

在处理帧时间的输出部分时，决定加入更多的调试信息来丰富这个概念。在打印每帧相关数据的时候，额外输出一些关键统计数据，以便更全面地了解当前帧的执行状态。

具体来说，在输出帧时间的同时，会一并打印出以下内容：

当前帧中记录的事件数量（stored event count）
当前帧中包含的分析块数量（profile block count）
当前帧中包含的数据块数量（data block count）

这些信息被整合进调试状态结构中，并以最直观的方式在控制台或日志中输出。例如，在输出最近一帧的调试状态时，依次显示事件总数、分析块数和数据块数，方便对帧的内容一目了然地分析。

通过这种方式，可以快速判断当前帧的调试信息是否合理，事件记录是否异常，是否存在过多的分析或数据块，以及是否存在性能瓶颈。所有这些都是为更高效地定位问题、优化性能、保持结构清晰而设计的必要信息输出手段。
在这里插入图片描述

为什么值这么小呢

在这里插入图片描述

运行游戏并查看这些值的实际输出

在调试过程中，我们尝试打印出每一帧的统计数据，以验证逻辑是否正确。起初看到的数字显得异常，例如一帧只记录了 55 个事件和 23 个分析块，这显然太少，感觉不正常。但很快意识到是查看了错误的数据源，当切换到正确的相关帧后，输出的结果更符合预期：

每帧大约记录了 4000 个事件
包含了 9 个数据块
包含约 2000 个分析块

这说明当前系统每帧都在处理大量的数据，也进一步说明如果将这些信息全部绘制出来，会带来相当大的绘制负担。现有的渲染路径主要是为精灵图（sprite blit）优化的，即：低顶点吞吐、高纹理带宽的工作负载。而一个高性能的分析工具视图（profiling view）所需的是相反的特点：不依赖纹理，而是需要极高的顶点吞吐量。

目前没有专门为这种分析视图设计渲染通道，因此绘制这些数据并不是系统当前能力的重点。如果目标是构建一个工业级的分析工具，那么就需要专门为性能分析设计渲染路径，这并不困难，但需要投入额外时间和资源。由于当前项目的核心并非作为分析工具发布，所以这种投入并非必要。

此外，一个积极的发现是：尽管每帧处理和组织上千个事件和相关数据，整个系统在内存方面运行得非常稳定。所有的内存使用都已循环利用，不会随着时间推移而不断增加。系统会自动在固定内存范围内回收利用，始终维持最大程度的调试数据保留而不会引发内存溢出。这种机制运行良好，确保了即使长时间运行也不需要担心内存增长问题，整体设计也因此更加可靠和高效。

探讨如何处理这些数据

我们现在回到事件组织处理部分，开始思考如何更有效地处理和展示调试事件数据。当前面临两个问题：

事件树的构建：
计划构建一个结构化的事件树，用于展示事件之间的层级与关系。这是首选方案，因为它能清晰表达调用嵌套关系，对分析非常有帮助。
处理函数调用过多的情况：
某些函数可能在一帧内被调用成千上万次。由于当前的渲染能力不足，无法可视化这么多调用记录，因此不能简单地将这些事件一一绘制。必须设计一种机制，将这些高频调用合并或抽象成更简洁的表示，例如显示“某函数被调用了 X 次”，而不是每次调用都渲染。

为此，需要在构建事件树时，检测某个事件是否被调用次数过多，若超过阈值，则放弃详细渲染，用聚合数据代替展示。这将大幅提升调试工具的可用性和性能。

接下来开始分析当前事件数据的结构。事件存储结构中包含如下内容：

时间戳（clock value）：用于性能分析，必须保留
线程 ID 与 CPU 核编号（thread id 和 core index）：有助于定位问题，也需要保留
Quid 指针等额外信息：对于性能分析没有实际价值，可省略

因此，有优化空间。可以重新定义事件的存储结构，仅保留性能分析所需的关键信息，去掉无关字段。

具体优化思路如下：

修改 StoredEvent 的结构体或联合体（union），只保留时间戳、线程 ID、CPU 核编号等必要信息
原结构中可能用了四个浮点数（4 floats）保存两个指针的信息，但这些指针不一定都需要，因此可进一步简化
可以定义一种新的事件存储方式，区分完整事件与仅供性能分析使用的轻量事件

最终目标是构建一个既能表达事件逻辑结构，又能应对数据量巨大的分析框架，同时保持内存与渲染负担在可控范围内。这种结构优化不仅提升性能，也为后续构建高效可视化工具打下基础。

在 `game_debug.h` 中引入 `debug_profile_node` 结构

当前正在构思如何优化性能分析相关的调试数据结构，以便更高效地处理并展示信息。目标是在尽可能节省存储的前提下，保留用于分析所需的关键数据，并为渲染部分提供友好的结构。

首先，定义了一个新的结构体，例如称为 DebugProfileNode，这个结构用于存储每一个被记录的调用节点。这个结构需要具备以下信息：

clock value（发生时间戳）
thread ordinal（线程序号，替代 thread id，简化为一个小整数）
可选的 core index（核编号）
frame relative clock（相对于当前帧的时间值）
duration（执行持续时间）
aggregate count（聚合次数，用于处理高频调用）

除此之外，为了构建树形结构，结构中还包含：

firstChild：指向第一个被调用的子函数节点
nextSibling：指向同一父节点下的下一个调用节点

还考虑加入另一个链表指针：

nextSameCall：指向同一函数的下一次调用节点，用于快速查找或聚合相同调用

该结构大小约为 32 字节（多个 8 字节字段），在 CPU 缓存方面表现良好，不会造成太大压力，可以高效存取和遍历。

接下来，调整调试事件的存储机制。当需要记录性能分析相关事件时，不再直接存储原始调试事件数据，而是选择存储一个 DebugProfileNode 结构。对于那些用于存储原始数据值的事件，仍然按原方式存储。这种方式允许调试系统灵活选择存储结构，既兼顾功能，也控制存储开销。

然后，需要在事件记录过程中动态构建这些 DebugProfileNode 节点。通过时间戳、线程标识等信息进行组织，将其串联为树形结构。这些节点可以支持后续绘制和分析。

在渲染方面，假设已经拥有了这个结构，可以直接遍历这些树形结构并进行绘制。由于已聚合了重复调用，并且树结构明确，因此绘制逻辑会非常清晰、高效。此外，节点之间的 nextSameCall 指针可用于绘制简化图表或生成统计数据。

如果以后希望增加更复杂的分析功能，比如按调用栈折叠或分组显示，DebugProfileNode 提供了良好基础。即便当前渲染能力有限，仍能通过聚合和结构组织展示关键性能瓶颈，提升调试体验。

总结：

构建了轻量化、结构化的 DebugProfileNode 用于性能分析
替代原始调试事件中冗余数据，保留关键时间与线程信息
引入 firstChild、nextSibling、nextSameCall 指针以支持树形与聚合遍历
为绘制逻辑提供高效、可扩展的数据结构
减少内存使用量，并提升未来可视化功能的实现能力

在这里插入图片描述

在 `game_debug.cpp` 中：让 `DrawProfileIn` 接收 `debug_profile_node` 并逐步实现使用逻辑

当前的重点是构建一个用于绘制性能剖面视图（Profile View）的系统，目标是以更简洁且结构化的方式展示每帧的调用信息，并通过更合理的数据结构简化渲染流程。以下是详细总结：

一、绘制逻辑的入口设计

我们将剖面视图的起始点定义为一个 DebugProfileNode 节点，这个节点是渲染树的根节点。每个 Profile Node 是一个函数调用的信息片段，整个剖面图基于该根节点向下遍历、递归绘制所有子调用。

二、每帧数据组织策略

我们认为 Profile Node 应该是 按帧组织 的，也就是说，每一帧构建一组 Profile Nodes。好处是：

便于管理和释放：每帧结束时可以整体释放该帧的 profile 数据；
更清晰的数据边界：只需要处理当前帧的数据，无需跨帧关联；
更有利于调试性能瓶颈，观察每一帧内的调用结构。

不过，也考虑了更进一步的结构优化方式，即 Profile Node 不依赖帧，而是依赖父节点的时间信息，通过相对时间来定位调用时序。

三、Profile Node 的结构及扩展

在 DebugProfileNode 结构中包含以下关键信息：

duration: 此调用持续的时间
parentRelativeClock: 相对于其父节点的起始时间偏移
threadOrdinal: 所在线程编号（简化版本）
coreIndex: CPU核编号（可选）
elementPointer: 对应的调试元素指针（用于获取可视化信息）
firstChild: 第一个被调用的子节点
nextSibling: 同一父节点下的下一个节点
可选扩展指针：如 nextSameCall，用于指向相同调用类型的下一个实例

该结构设计紧凑，目标是在 32 字节（半个 cache line）内存放全部信息，保证访问效率和内存友好性。

四、绘制流程构想

在绘制剖面图时，流程如下：

从一个 root 节点开始绘制。
遍历其 firstChild 指针逐层向下递归。
对于每一个节点，根据 parentRelativeClock 计算其在屏幕上的 X 坐标。
使用 duration 确定矩形的宽度。
通过 elementPointer 获取名称、颜色或其他展示属性。
渲染出矩形块，构成水平条状调用图。

取消了之前需要使用全局时间戳进行对齐的逻辑，因为每个节点只需要知道它相对于父节点的起点偏移。

五、代码结构和存储方式

我们打算将 Profile Nodes 存储在 StoredEvents 中的一部分位置，具体做法如下：

将原始 StoredEvent 改成一个联合结构（union），可存放不同类型的调试数据；
Profile Node 类型作为其中一个分支，用于存放性能数据；
这样，在构建 StoredEvent 时可以根据用途选择存放哪种类型信息；
构建 Profile 数据时仅保留必须字段，极大节省存储空间。

六、设计验证和未来渲染扩展

当前阶段主要目标是验证该设计是否具备实用性。因此：

构建了初步的绘制代码路径，假设已有 Profile Node 的结构；
使用模拟数据进行遍历测试；
验证了时间计算逻辑和绘制入口是否合理；
确定了该数据结构适合未来拓展，例如支持调用堆叠、折叠视图、调用频率统计等高级功能。

七、渲染系统依赖和简化

新的设计摒弃了原先复杂的事件追踪逻辑，移除了如下内容：

无需处理 “打开事件” 和 “关闭事件” 的成对逻辑；
不需要帧时间戳对齐或额外的事件过滤；
绘制时只依赖当前节点的结构和相对时间，结构清晰明确；

八、现状与计划

目前还未完全构建 Profile Node 结构，但已有完整概念验证的绘制代码路径。下一步将是：

实际构建 DebugProfileNode 并将其加入存储流程；
完善构建链条：事件 -> Profile Node；
接入实际绘制系统进行效果验证；
根据实际结果进一步优化内存布局和访问模式；

该方案总体具备以下优势：

高性能：紧凑结构，减少内存访问和分支判断；
易于管理：按帧组织，生命周期清晰；
可拓展：支持多种调用分析方式；
简化渲染：剥离旧逻辑，建立高内聚渲染流程。

这将作为构建性能调试系统的一项核心机制，后续可围绕其扩展更复杂的分析工具链。
在这里插入图片描述

在这里插入图片描述

在 `DEBUGDrawElement` 中调用 `DrawProfileIn` 时传入 `RootProfileNode`

当前的工作重点是将性能剖面节点（Profile Nodes）真正构建起来，并将其用于绘制线程间隔图（Thread Interval Graph）。我们已经构思出数据结构和渲染逻辑，接下来开始实际生成这些数据。

一、从最近的帧中提取 Profile 根节点

在绘制线程间隔图时，初步的思路是：直接使用最近一帧的 Profile 根节点作为绘制的起点。为了保证稳定性：

首先检查当前是否确实存在“最近帧”；
如果有，访问该帧对象；
然后在帧中查找其根 Profile 节点，该节点描述了该帧的整个调用跨度；
之后传入渲染系统进行绘制；

这也意味着我们需要在每个帧结构中添加一个字段，用于记录该帧的 Profile 根节点。

二、构建和释放 Profile 节点机制

在构建 Profile 节点时，我们还必须确保：

Profile 节点在帧结束或数据轮转时能够被正确释放；
避免内存泄漏或访问悬空数据；

当前已有的事件清理流程调用了 FreeOldestFrame 方法，在该方法中：

遍历调试元素；
对与即将释放帧有关的事件数据进行清理；
最终调用 FreeFrame 释放帧内存；

初步判断认为，该机制也可自然适用于 Profile 节点。只要 Profile 节点与帧绑定（存在于帧结构内），随着帧的释放，这些节点也会被清除。

三、存储事件与构建 Profile 节点的关联

当前我们使用 StoreEvent 来存储调试事件。现在要做的是在特定类型的事件中（例如“开始块”和“结束块”）生成 Profile 节点。

更具体地：

在处理调试记录（Debug Records）时，遇到“BeginBlock”和“EndBlock”类型时才具备完整的调用时序信息；
在这两个节点对之间构建一个 Profile 节点；
节点中应包含：
- 相对于父节点的起始时间（ParentRelativeClock）；
- 本次调用的持续时间（Duration）；
- 所属调试元素（ElementPointer）；
- 所在线程编号（ThreadOrdinal）；
- 子节点关系（FirstChild）和兄弟节点（NextSibling）；

此外，暂时仍将调试元素作为 Profile 节点的一部分，以便绘制时使用颜色、标签等信息。

四、构建节点的替代方案

尽管目前通过事件构建 Profile 节点，但也提出了后续可能的优化方向：

考虑是否可以脱离调试元素（Debug Element）系统，单独为 Profile 构建专用的节点存储结构；
这将有助于进一步压缩结构体大小，提高效率；
当前阶段保留原有结构以确保兼容性和功能完整；

五、绘制前验证与空数据容错

虽然目前尚未开始真正生成这些节点，但构建绘制系统时已考虑：

若当前帧中没有 Profile 节点，则绘图系统应正常容错；
此时不会崩溃，只是不会显示任何剖面图；
这样可在未初始化阶段先编译通过、测试流程，再逐步补齐生成部分；

六、后续实现目标

接下来要完成的关键任务包括：

在处理“BeginBlock”时，记录 Profile 节点开始时间；
在对应的“EndBlock”时，计算持续时间并完成节点构建；
将节点插入当前帧的 Profile 节点树中（建立子节点与兄弟节点关系）；
确保节点结构与帧绑定，方便生命周期管理；
检查构建过程中是否需要手动分配内存或调整缓存策略；

一旦这些逻辑构建完成，就能在后续渲染中展现准确的调用图，并通过视觉方式分析每一帧的性能瓶颈。

整体而言，这一系列设计将原有事件驱动的调试系统延伸到调用层级的性能可视化，是剖面分析系统核心的一部分，为后续的自动性能分析、热点追踪等功能打下基础。
在这里插入图片描述

在这里插入图片描述

在 `game_debug.h` 中使用 `debug_stored_events` 构建 `debug_profile_node`

我们在设计调试剖面节点（debug_profile_nodes）的过程中，有了进一步的简化和优化思路，以下是这一阶段的具体整理和总结：

一、重用 DebugStoredEvent 结构简化设计

我们意识到剖面节点中的 NextSameCall 指针，其实与现有 DebugStoredEvent 中维护的 next 链非常类似，它们都用于实现同一个调用位置（Callsite）之间的跳转。因此：

不再需要在 Profile Node 中额外存储 NextSameCall；
可以完全复用 DebugStoredEvent 的链式结构；
使用 DebugStoredEvent 替代单独的 Profile Node 链表结构；

这样的改动带来两个直接好处：

减少结构体尺寸：去掉多余字段，提高内存效率；
自动管理内存释放：因为 DebugStoredEvent 已与帧数据绑定，随着帧释放而自动清理 Profile 数据，无需手动处理；

这使得我们构建的 Profile 树节点天然地具备生命周期管理能力，和事件记录系统完美融合。

二、节点之间的层级关系自动生效

原本我们需要显式维护 Profile 节点的：

FirstChild（第一个子节点）；
NextSibling（下一个兄弟节点）；
NextSameCall（同一调用点的下一个事件）；

但现在由于结构合并和复用，许多关系变得不需要单独处理：

所有这些指针关系只需在 DebugStoredEvent 中维护一次；
同一个帧内的所有事件会同时释放，确保一致性；
从父节点指向子节点关系仍可以通过 open/close block 栈来动态构建；

所以在遍历调用结构时，依然可以准确、高效地进行递归处理。

三、剖面事件插入逻辑的构建路径

我们需要在处理 “BeginBlock” 时创建新的 Profile 节点，并插入到当前 Profile 树中：

每个 BeginBlock 表示一次函数或作用域的进入；
如果当前没有开放的 block（即栈为空），则新节点是“根节点”，将其挂到当前帧的 Profile Root 上；
否则，该节点作为当前开放 block 的子节点添加进结构中；
构造过程中，仍使用 StoreEvent 来注册该事件，借助原有机制进行统一管理；

我们已经验证：

在调用 AllocateOpenDebugBlock 时，可能存在“无开放 block”情况；
此时，通过判断是否为 null，我们可以区分是否构建根节点；
无论是否为根节点，都会调用 StoreEvent 注册事件记录；
最终所有 Profile 节点都作为事件的一部分，统一储存在 DebugStoredEvent 中；

四、架构与职责划分优势

这种做法进一步强化了整体架构的设计优势：

复用性强：剖面数据复用已有的调试事件系统，无需新开辟数据通路；
释放机制统一：借助帧释放逻辑，剖面节点无需额外手动回收；
关系天然清晰：父子关系、同调用关系等均通过已有结构维护；
可拓展性高：后续可以基于 DebugStoredEvent 衍生更多调试功能，如调用链分布、热区聚合等；

五、进一步思考与工程哲学

最后也进行了一点工程思考：

喜欢在底层构建这样高效、巧妙的数据结构，说明更偏向于引擎系统设计方向；
如果更期待直接构建玩法系统或逻辑代码，那可能是游戏逻辑开发或设计方向；
无所谓好坏，只是不同倾向的体现；
当前构建调试系统属于偏底层的架构设计任务，需要对数据生命周期、性能以及模块职责具备高度敏感性；

总而言之，我们正在通过巧妙的数据复用和结构简化手段，搭建一个高效且易维护的性能剖面系统，既能准确记录调用层级，也能自动管理资源，具备较强的系统性与可扩展性，为调试可视化提供扎实基础。

在 `game_debug.cpp` 中：设置 `debug_stored_event Node` 为 `StoreEvent` 返回结果（即 `StoredEvent`），随后立刻改写

我们对调试事件的存储逻辑进行了整体改进，并开始在调试性能分析节点（debug_profile_node）的基础上构建新逻辑。以下是具体的思路和结构设计总结：

我们保持了原本的 StoreEvent 逻辑不变，并直接利用它返回的存储槽位来写入我们需要的结构。虽然看似“野蛮”，但这恰好简化了结构，使其更高效，并能够复用原有机制清理内存。

我们借助原有的 debug_stored_event 链接结构，通过 next 指针串联相同调用位置的事件，使得我们可以更高效地遍历这些事件。这种做法省去了额外维护 next_for_same_call 的开销，并且事件随着帧的释放自动清除，无需额外管理，非常干净利落。

节点构造逻辑

在 BeginBlock 中，我们判断当前是否已有打开的 debug block（open debug block）：

如果没有，则说明我们正处于根级别（frame 根 block），此时需要以帧起始时间为基准创建根节点。
如果已有打开的 block，那么我们使用其 opening_event.clock 作为当前节点的基准时钟（parent_relative_clock）。

不论是哪种情况，都会通过 StoreEvent 生成一个节点，并在此基础上构建我们自己的调试性能分析节点（Profile node）结构。具体字段赋值如下：

element：关联的元素信息。
first_child / next_with_same_parent：初始化为 0，后续在真正添加子节点或兄弟节点时再补充。
thread_lane_index：从当前 debug block 中提取。
core_index：暂未支持，预留位。
clock_begin：当前 clock。
duration：初始化为 0，在 EndBlock 时才填入。
parent_relative_clock：当前节点 clock 减去父节点 clock 得到的相对时间。

匹配和补全逻辑

在 EndBlock 中完成闭合逻辑：

获取之前在 BeginBlock 中保存下来的那个 debug_stored_event。
通过当前事件的 clock 减去开始事件的 clock，计算出 duration 并写入。
因为一个 block 可能跨越多个 frame，但我们按“起始帧”组织节点，因此允许 duration 超过当前帧范围是可以接受的。

储存结构优化

我们将 debug_profile_node 存储在对应的 open_debug_block 中，这样在 EndBlock 时可以直接引用该节点完成写入，避免再次查找或重复创建。

我们也清楚哪些字段需要延后写入，例如 duration、next_with_same_parent 等，其他信息都在创建时一次性填入。这种设计使得流程清晰、执行高效，并且与已有的事件存储系统保持一致。

最终效果

统一使用 debug_stored_event 存储 profile 节点数据。
使用 next 指针支持相同调用点的快速遍历。
自动回收机制与事件保持一致，避免内存泄露。
支持层级结构及 parent-child 关系的动态维护。
为未来支持线程核编号、聚合统计等做了接口预留。

我们相信这样的架构既高效又易于扩展，是适用于实时多线程系统的合适选择。
在这里插入图片描述

在这里插入图片描述

运行游戏，发现从未向 `RootProfileNode` 添加任何内容

目前从技术角度来看，我们的系统在当前阶段理论上不应存在运行时的错误。尽管系统内部可能已经存在潜在的 bug，但由于还没有任何事件被添加进根节点对应的组中，所以这些问题在程序执行过程中并不会暴露出来。

目前的状态是，我们尚未真正构建“根组”（Root Group），因此整个系统结构还处于未完全初始化的阶段。这意味着事件遍历逻辑不会访问任何未添加的结构部分，因此即便存在问题，也暂时不会对运行产生实际影响。

也就是说：

当前代码尚未向根组插入任何事件；
遍历逻辑不会触发任何潜在的未初始化访问；
所有未完善的路径都还未被执行；
因此我们当前状态“看起来”是无 bug 的。

我们决定先导出一次 XML 文件，以观察目前为止构建的数据结构是否能正确生成和表示。这样可以在不触发遍历或写入逻辑的前提下，验证结构的初步搭建是否合理。通过生成 XML：

可以清晰看到现有事件或节点的组织结构；
可以判断事件链条、层级、指针等是否布局正确；
为后续完善逻辑和调试提供直观参考。

最后，我们会暂时中止当前开发节奏，把今天的进展保持在初步 XML 测试阶段，明天继续完成未完成的逻辑。

总结：

当前逻辑尚未接入根组添加流程；
潜在 bug 仍存在，但尚不会影响运行；
尝试导出 XML 验证当前结构正确性；
明天将继续完成后续逻辑，完善根节点挂载与遍历流程。

在 `game_debug.cpp` 的 `BeginBlock` 中有条件地设置 `ParentEvent`

现在我们进入了调试事件系统更深层次的搭建阶段，核心目标是确保每一帧（frame）在创建时都能正确关联并承载对应的事件节点（debug stored event），从而构建完整的调试数据结构。

一、根事件节点的初始化逻辑

我们需要确保，在创建一帧时，如果某个 block 没有任何“打开的代码块”（open code block），那么该 block 的父节点必须是一个独立的事件节点。为此：

每一帧都必须具备一个根事件节点（root Profile node）；
如果尚未存在，就在首次调用 begin block 时动态创建；
若存在已分配的根节点，就复用它作为当前事件的父节点。

这一逻辑可以避免每次都重复分配无用的父节点，同时简化遍历与组织结构的关系。

二、事件关系链的构建

为了保持事件之间的结构层级关系，我们需要维护以下两个关键指针：

first_child：记录某个事件节点的第一个子节点；
next_with_same_parent：记录该事件的同级兄弟节点。

处理方式如下：

若当前节点是父节点的第一个子节点，则赋值给 first_child；
否则，将其连接到上一个子节点的 next_with_same_parent 上；
由于并不在意子节点的插入顺序（不需要有序），只需维护简单链表结构即可，无需排序逻辑。

三、事件节点的来源判断与赋值流程

在 begin block 时进行以下判断和处理：

如果有 open code block，则该 code block 所关联的事件节点就是当前事件的父节点；
如果没有 open code block，说明我们处于根层级，这时：
- 检查当前帧是否已有一个根事件节点；
- 若没有，就分配一个“占位”的事件节点（可为一个空事件或填入默认内容）；
- 使用该节点作为当前事件的父节点。

此外，为了方便后续引用，也会将此根节点赋值给当前帧的某个全局字段，如 current_frame.root_Profile_node。

四、最终结论与处理状态

事件系统的根结构已经设计完成；
节点之间的父子与同级关系已具备基本的链接机制；
不关心事件节点的插入顺序，因此结构简单高效；
整体链路清晰，可以满足后续分析与可视化需求；
代码设计已收尾，当前阶段逻辑上已经闭环，可以暂时搁置，留待明天继续完善或集成其他功能。

总结：

我们已完成 debug stored event 构建的整体流程设计，包括根事件初始化、父子关系绑定、同级关系串联等，结构清晰且无需过度维护顺序。系统已具备初步调试信息结构的组织能力，为后续性能分析与展示打下了坚实基础。

在这里插入图片描述

在 `BeginBlock` 中设置子节点关系

我们当前的任务是完善事件节点（调试事件）的父子关系链接逻辑，使得事件树能够正确构建并具备可遍历性。核心在于设置每个节点的 first_child 和 next_with_same_parent 字段，从而串联起所有事件。

一、节点链接策略说明

每当创建一个新的事件节点时，我们需要将它插入到其父节点的子链表中；
插入方式为逆序（后创建的在链表前面）；
由于不需要保证子节点顺序，直接使用链表头插入法处理；
逻辑简洁，性能高效。

二、具体实现逻辑

在每次创建新节点时，执行如下操作：

更新 next_with_same_parent：
将当前节点的 next_with_same_parent 指向其父节点的 first_child（即之前创建的第一个子节点）；
更新 first_child：
将父节点的 first_child 指向当前节点；
这两步构成了典型的“链表头插入”操作。

这样处理后，父节点的所有子节点会形成一个逆序链表，便于遍历。由于后续处理不依赖顺序，所以此方法最简单有效。

三、示意代码逻辑

current_node->next_with_same_parent = parent_node->first_child;
parent_node->first_child = current_node;

这段伪代码概括了整个插入流程。

四、遇到的问题与确认的修复

在实现过程中，发现部分字段名拼写或引用不一致，具体问题包括：

parent_event->first_found 拼写错误，实际应为 parent_event->first_child；
引用的对象结构不一致，已统一为 Profile 或 stored_event 对象下的结构；
明确变量含义，避免将调试事件与其对应的 Profile 节点混淆。

五、最终状态与总结

父子关系已经完整建立；
同级关系通过链表链接完成；
插入顺序不影响功能逻辑；
所有字段指向均正确；
当前结构支持完整的事件层级遍历；
代码逻辑清晰、简洁、有效，已经达到预期目标。

我们已成功构建了调试事件节点之间的组织结构，具备完整的父子与兄弟关系，结构轻量、逻辑稳定，为后续调试、可视化与分析提供坚实的数据基础。

使用调试器进入 `DrawProfileIn`，检查 `RootEvent`

我们对当前事件调试系统进行了初步验证，目标是确认在运行时能否正确构建根事件（Root Event）及其子事件结构，并查看它们是否包含预期的调试信息。

一、初步运行验证

我们执行了一次测试运行，观察程序是否崩溃，以及数据结构是否被正确构建。

程序未发生崩溃，运行成功；
已成功进入正确的文件位置，读取并检查相关结构；
事件系统初始化成功，能正确生成根事件并填充子节点。

二、事件数据结构检查

我们进一步查看根事件（Root Event）中的内容，发现以下结果：

存在根事件（Root Event）对象；
表明事件系统的基础结构已经建立；
根事件中包含了一个 Profile Node；
- Profile Node 是用于性能分析的数据节点；
- 它表示一个函数或逻辑块的执行记录；
Profile Node 内部成功挂载了子节点（First Child）；
- 子节点表示了事件块内部的第一个逻辑事件；
- 说明子节点链接逻辑（first_child、next_with_same_parent）已经生效；
- 子节点是通过我们此前构建的逆序链表方式插入的；
时间信息已填充：
- 包括起始时间（clock）与父相对时间（parent relative clock）；
- 当前的时间差值较大，但合理，例如函数块顶部可能存在这种情况；
- 尚未确定具体是哪个函数或帧，但结构整体有效。

三、结论与后续计划

当前事件调试系统的基本功能已经工作；
数据结构正确生成，运行时未崩溃；
时间与层级结构基本符合预期；
子节点成功挂载，逻辑链路有效；
接下来需进一步验证：
- 时间差是否合理；
- 子节点是否能完整形成事件树；
- 后续事件结束（end block）时的时间闭环是否正确更新；
- 多层嵌套、多线程场景下的正确性。

此次验证为后续调试器功能打下良好基础，事件采集、分析、可视化等功能有望基于当前结构进一步扩展。

在 `game_debug.cpp` 中正确设置节点的持续时间 `Duration`

我们在调试过程中发现，虽然事件系统中的根节点（Root Profile Node）和子节点已经成功构建，但有一个关键字段——持续时间（duration）——未被正确设置，这会影响性能分析数据的准确性。为了解决这个问题，我们对框架的初始化流程进行了补充和修复。

一、问题分析

在创建根 Profile Node 时，未填写持续时间等核心字段；
原因是在构造时，没有正确地填入起始时间、持续时间、父相对时间等值；
此外，因为事件结构最初是用全零初始化的，所以一些字段默认已清除；
但也正是由于这个清零机制，导致未主动设置的字段默认为无效状态；
最终造成根事件的 Profile Node 虽然存在，但无有效的时间数据，无法参与后续分析。

二、修复方案实施

我们对根 Profile Node 的初始化流程进行了修复，具体如下：

设置字段为有效值：
- 将 element 设置为 0，表示是根节点或占位元素；
- 将 first_child 设置为 0，初始无子节点；
- 将 parent_relative_clock 设置为 0，根节点没有父事件；
- 设置 duration 字段为：帧结束时的时间戳 - 帧开始的时间戳；
  - 这一差值反映当前帧的完整持续时间；
  - 是评估性能的关键数据。
类型转换处理：
- 将 duration 明确转换为 uint32 类型；
- 避免默认行为使用 uint64 参与计算，造成类型不匹配；
- 这样可以确保结构体数据的一致性和稳定性。
结构体清零机制审视：
- 因为所有事件结构初始时都被清零；
- 所以我们不再手动清除无关字段；
- 只需设置我们需要保留或填充的字段即可；
- 其余部分自动保持为清除状态，确保简洁与效率。
优化心态调整：
- 虽然一开始认为可以“偷懒”使用清零机制；
- 但为了稳妥处理未来结构变化（如结构体尺寸变更等）；
- 决定手动设置该设置的字段，以避免依赖实现细节；
- 这是对系统稳定性和未来兼容性负责的做法。

三、结论

我们已正确补充了根节点 Profile Node 的时间字段；
duration 字段现在可以反映帧的真实执行时间；
element、first_child 和 parent_relative_clock 等字段也都初始化完毕；
数据结构更加完整，调试信息更准确；
后续分析和可视化流程将基于这些信息更可靠地展开；
我们预计，修复后运行时将能够输出有效的性能分析数据，标志着事件系统的一个关键功能已完成基本闭环。

奇怪不知道什么原因

在这里插入图片描述

运行游戏，看到一些奇怪的结果

在这里插入图片描述

我们当前处于一个关键阶段，尽管已经完成了事件系统中重要部分的填充与修复，但实际运行后的输出结果仍然存在一些令人困惑和意料之外的情况。我们对这些现象进行了观察和初步判断：

一、运行状态与心理预期

系统已经成功跑通，并输出了结果；
但结果中的某些数据完全出乎意料；
某些值看起来十分奇怪，完全猜不到它们是怎么来的；
这些数据并不像是预期中构造出来的合理结构；
面对这些异常结果，我们暂时还无法理解其来源或含义；
目前没有明显的崩溃或错误，但逻辑上明显不对劲；
所以虽然执行流程通畅，但信息内容仍需进一步验证。

二、态度与策略

尽管无法解释当前结果，但我们保持冷静；
不打算立刻做出重大调整，先进行观察与记录；
保持“先看清，再判断”的策略；
同时我们也承认当前系统中仍有许多未知与不确定因素；
这些结果可能暴露出更深层的逻辑问题，也可能只是数据尚未完善；
当前阶段的重点仍是验证结构通路是否贯通，不是结果准确性；
所以我们把重点放在确认数据链路是否已经贯穿整个事件记录系统。

三、结语

尽管结果看不懂，但这并不妨碍我们向前推进；
构建过程本身已经取得了阶段性成果；
后续还需继续完善结构填充与数据验证；
当前处于“初步成型但结果待调试”的状态；
总体来说，我们虽不明所以，但保持积极推进的态度；
这个阶段就像“早熟”的探索期，虽怪异但预示着系统正在走向活跃。

计数器明天会溢出吗？还是变量会被扩展成更多位？

我们正在讨论一个关于计数器溢出的问题，重点集中在计数变量是否即将超出其可表示范围，以及变量类型本身是否有足够的位数来承载更大的值。

一、对变量溢出的担忧

存在对“日计数器”可能在明天发生溢出的担心；
具体来说，是担心计数器达到了256这一数值边界；
如果使用的是8位（byte）类型变量，那么最大值就是255，256会导致溢出；
这种情况下，担忧是合理的，因为会出现从255回到0的循环。

二、变量类型分析与假设

但根据目前观察，该变量可能并不是8位；
如果是更高位数的类型，比如16位或32位整数，那就不会在256时发生溢出；
有人以调侃的语气表示：“如果你以为它会在 byte 边界溢出，那你就是‘grumpy giant 0’”；
- 意思是：你以为它从255溢出回到0，其实没有；
实际上情况是**“256”**，也就是说：变量成功跨越了256，证明它能继续计数。

三、结论

当前计数变量没有在256发生溢出，说明它拥有超过8位的存储能力；
原本担心的“byte 边界溢出”并未发生；
我们可以判断：变量类型提供了更高的位宽，因此系统在明天不会因计数器溢出而出错；
对此我们放心了，但也提醒自己要注意变量类型的选择和边界控制，以防未来类似问题。

是否能通过调试界面打开/关闭特定函数的性能分析？

我们讨论了是否可以通过调试视图来为特定函数启用或关闭性能分析（profiling）的问题，并得出了以下结论：

一、关于启用或关闭性能分析的方式

可以选择是否记录分析数据，也就是说可以全局性地开启或关闭 profiling 的记录；
但是，并不能动态地控制某个具体函数是否被插入分析点；
- 也就是说，我们无法通过在界面或工具中输入一个函数名来启用或禁用它的 profiling；
- 没有机制支持在运行时解析函数名并对其插入或移除分析点。

二、如何控制分析的对象

要分析某个函数，必须在代码中手动添加分析点；
- 也就是说，只有事先被标记为需要分析的函数才会被纳入 profiling 的范围；
如果想要排除某些函数，就不能在这些函数中添加分析标记。

三、当前能力范围

我们不会设计或实现一个系统，允许用户动态选择函数进行 profiling；
profiling 的粒度是基于手动添加分析点，并且在构建或运行之前就已经决定了哪些函数会被分析；
调试视图能控制的是是否记录分析信息，但不能改变哪些函数被分析的事实。

四、总结

我们可以开启或关闭 profiling 的记录过程，但无法通过调试界面动态控制某个函数是否被分析。要分析哪个函数，必须在开发阶段就明确插入分析点，不能依赖后期界面上的操作来决定分析对象。

对我来说启动慢的主要原因是 `ModeArena` 当前默认会清零，大约 256MB

我们分析了启动阶段性能较慢的问题，并明确指出其主要原因之一是新模式（mode）分配使用的 arena 在初始化时被清空为默认状态。这一行为带来了明显的开销，具体总结如下：

一、新模式 arena 初始化耗时

当前新模式 arena 被清空为默认值；
这个过程非常耗时，约 需要两小时左右；
也就是说，在程序启动阶段，会花费大量时间进行这一块的初始化。

二、arena 清空与性能关系

由于 arena 是在内存中为后续数据结构分配空间的机制；
清空为默认意味着对整个内存区域进行全量初始化操作；
对于较大的 arena 来说，这种操作代价极高；
因此，这直接拖慢了启动性能。

三、其他讨论点

提到 arena 相关的 slow 性能问题时，可能也与一些特定使用场景（如 kids 或 game 的操作）有关；
不管是哪一种情形，新模式 arena 的初始化都是一个性能瓶颈；
启动阶段的优化应该从减少或延迟该区域清空操作入手。

四、总结

当前启动阶段性能缓慢，很大一部分是因为新模式下使用的 arena 被清空为默认状态，而这个过程本身非常耗时。未来的优化方向应该包括考虑是否有必要进行全量清空，或是否可以通过延迟初始化、按需填充等方式降低启动时的负担，从而提升整体启动效率。

修改 `win32_game.cpp`：将 `GlobalRenderingType` 设为软件渲染

我们决定进行一个简单的测试，目的是验证性能问题是否与 OpenGL 的初始化有关。这个测试不需要使用任何性能分析工具或额外的调试信息，具体步骤总结如下：

一、测试意图

我们计划绕过 OpenGL 的初始化过程；
通过这种方式可以观察系统启动或运行时是否会因此变得更快，从而判断 OpenGL 初始化是否为性能瓶颈。

二、实现方式

在游戏启动逻辑中（例如 WednesdayToGame 函数中）；
找到调用 InitOpenGL 的代码段；
将其临时禁用或跳过执行；
然后，将渲染模式强制设为软件渲染模式（Software Rendering），以便程序仍能正常运行，但不依赖于 OpenGL。

三、测试动机

我们想通过这种简单的手段，初步判断是否 OpenGL 初始化开销很大；
如果跳过这部分之后程序启动变快了，说明可以进一步研究 OpenGL 初始化中的细节；
如果没有明显变化，则需要从其他方面寻找性能瓶颈。

四、总结

我们采用一种最小化干预的方式进行测试，即临时跳过 OpenGL 的初始化，同时切换到软件渲染模式。这个测试不涉及复杂的分析工具，便于快速得出直观结论，从而为接下来的性能优化提供方向。

运行游戏，看到一个非常缓慢的淡入动画

我们观察当前的程序运行状态，目的是分析性能瓶颈是否与 OpenGL 渲染有关，具体情况和判断过程如下：

一、观察现象

启动后发现一个非常缓慢的淡入动画；
尽管跳过了 OpenGL 的初始化，但程序运行依然显得迟缓；
初步怀疑：游戏逻辑部分仍然在被调用，即使没有初始化 OpenGL 渲染。

二、理论预期

在不调用 OpenGL 初始化函数的情况下，理论上应该只使用软件渲染；
按照这个设定，渲染逻辑不应该依赖 OpenGL，因此本应变得更简单、更快；
但是目前来看，仍存在明显的性能问题。

三、潜在问题分析

可能仍然存在 OpenGL 的资源泄漏或残留链接，虽然显式没有调用初始化，但底层仍可能保持依赖或残留状态；
另外也有可能是其他代码路径仍在间接触发 OpenGL 相关函数；
当前尚不明确是否完全跳过了所有相关路径，因此需要进一步验证。

四、下一步操作建议

进一步确认是否真正完全绕过 OpenGL 初始化及其依赖；
检查渲染模式切换是否在所有相关模块中生效；
可以加一个明确的日志或断点来验证是否还有 OpenGL 调用在运行；
或者在 OpenGL 初始化处设置标志位，并在渲染路径中验证其状态。

五、总结

我们已经做了绕过 OpenGL 初始化的设置，但程序依然表现出明显的卡顿，推测可能是某些逻辑仍然在调用相关代码或资源未完全隔离。需要进一步检查代码路径，确保真正实现了渲染逻辑的隔离，才能明确判断性能问题是否与 OpenGL 相关。

为今天的内容设定背景

修改一个bug 方块排序的时候会被挡住

缩放图的按钮

问题1：没有办法快速获取上一帧的性能分析信息

问题2：为了打印出性能视图，我们需要某种嵌套调用的概念

黑板讲解：性能查询（Profile Queries）

进入 game_debug.cpp：启用性能分析器（Profiler）

运行游戏时因渲染器的 PushBuffer 溢出命中 InvalidCodePath

回到 game_debug.cpp：禁用性能分析器

修改 game_debug.h：为 debug_frame 添加 StoredEventCount、ProfileBlockCount 和 DataBlockCount

在 StoreEvent 和 CollateDebugRecords 中增加这些值的计数逻辑

在控制台中打印出这些值

为什么值这么小呢

运行游戏并查看这些值的实际输出

探讨如何处理这些数据

在 game_debug.h 中引入 debug_profile_node 结构

在 game_debug.cpp 中：让 DrawProfileIn 接收 debug_profile_node 并逐步实现使用逻辑

一、绘制逻辑的入口设计

二、每帧数据组织策略

三、Profile Node 的结构及扩展

四、绘制流程构想

五、代码结构和存储方式

六、设计验证和未来渲染扩展

七、渲染系统依赖和简化

八、现状与计划

在 DEBUGDrawElement 中调用 DrawProfileIn 时传入 RootProfileNode

一、从最近的帧中提取 Profile 根节点

二、构建和释放 Profile 节点机制

三、存储事件与构建 Profile 节点的关联

四、构建节点的替代方案

五、绘制前验证与空数据容错

六、后续实现目标

在 game_debug.h 中使用 debug_stored_events 构建 debug_profile_node

一、重用 DebugStoredEvent 结构简化设计

二、节点之间的层级关系自动生效

三、剖面事件插入逻辑的构建路径

四、架构与职责划分优势

五、进一步思考与工程哲学

在 game_debug.cpp 中：设置 debug_stored_event *Node 为 StoreEvent 返回结果（即 *StoredEvent），随后立刻改写

节点构造逻辑

匹配和补全逻辑

储存结构优化

最终效果

运行游戏，发现从未向 RootProfileNode 添加任何内容

在 game_debug.cpp 的 BeginBlock 中有条件地设置 ParentEvent

一、根事件节点的初始化逻辑

二、事件关系链的构建

三、事件节点的来源判断与赋值流程

四、最终结论与处理状态

在 BeginBlock 中设置子节点关系

一、节点链接策略说明

二、具体实现逻辑

三、示意代码逻辑

四、遇到的问题与确认的修复

五、最终状态与总结

使用调试器进入 DrawProfileIn，检查 RootEvent

一、初步运行验证

二、事件数据结构检查

三、结论与后续计划

在 game_debug.cpp 中正确设置节点的持续时间 Duration

一、问题分析

二、修复方案实施

三、结论

奇怪不知道什么原因

运行游戏，看到一些奇怪的结果

一、运行状态与心理预期

二、态度与策略

三、结语

计数器明天会溢出吗？还是变量会被扩展成更多位？

一、对变量溢出的担忧

二、变量类型分析与假设

三、结论

是否能通过调试界面打开/关闭特定函数的性能分析？

一、关于启用或关闭性能分析的方式

二、如何控制分析的对象

三、当前能力范围

四、总结

对我来说启动慢的主要原因是 ModeArena 当前默认会清零，大约 256MB

一、新模式 arena 初始化耗时

二、arena 清空与性能关系

进入 `game_debug.cpp`：启用性能分析器（Profiler）

运行游戏时因渲染器的 PushBuffer 溢出命中 `InvalidCodePath`

回到 `game_debug.cpp`：禁用性能分析器

修改 `game_debug.h`：为 `debug_frame` 添加 `StoredEventCount`、`ProfileBlockCount` 和 `DataBlockCount`

在 `StoreEvent` 和 `CollateDebugRecords` 中增加这些值的计数逻辑

在 `game_debug.h` 中引入 `debug_profile_node` 结构

在 `game_debug.cpp` 中：让 `DrawProfileIn` 接收 `debug_profile_node` 并逐步实现使用逻辑

在 `DEBUGDrawElement` 中调用 `DrawProfileIn` 时传入 `RootProfileNode`

在 `game_debug.h` 中使用 `debug_stored_events` 构建 `debug_profile_node`

在 `game_debug.cpp` 中：设置 `debug_stored_event Node` 为 `StoreEvent` 返回结果（即 `StoredEvent`），随后立刻改写

运行游戏，发现从未向 `RootProfileNode` 添加任何内容

在 `game_debug.cpp` 的 `BeginBlock` 中有条件地设置 `ParentEvent`

在 `BeginBlock` 中设置子节点关系

使用调试器进入 `DrawProfileIn`，检查 `RootEvent`

在 `game_debug.cpp` 中正确设置节点的持续时间 `Duration`

对我来说启动慢的主要原因是 `ModeArena` 当前默认会清零，大约 256MB

修改 `win32_game.cpp`：将 `GlobalRenderingType` 设为软件渲染