当前位置：首页 > news >正文

doris：导入时实现数据转换

news 来源：原创 2025/7/7 2:04:15

Doris 在数据导入时提供了强大的数据转换能力，可以简化部分数据处理流程，减少对额外 ETL 工具的依赖。主要支持以下四种转换方式：

列映射：将源数据列映射到目标表的不同列。
列变换：使用函数和表达式对源数据进行实时转换。
前置过滤：在列映射和列变换前过滤掉不需要的原始数据。
后置过滤：在列映射和列变换后数据对最终结果进行过滤。

通过这些内置的数据转换功能，可以提高导入效率，并确保数据处理逻辑的一致性。

导入语法

Stream Load

通过在 HTTP header 中设置以下参数实现数据转换：

参数	说明
`columns`	指定列映射和列变换
`where`	指定后置过滤

注意: Stream Load 不支持前置过滤。

示例：

curl --location-trusted -u user:passwd \-H "columns: k1, k2, tmp_k3, k3 = tmp_k3 + 1" \-H "where: k1 > 1" \-T data.csv \http://<fe_ip>:<fe_http_port>/api/example_db/example_table/_stream_load

Broker Load

在 SQL 语句中通过以下子句实现数据转换：

子句	说明
`column list`	指定列映射，格式为 `(k1, k2, tmp_k3)`
`SET`	指定列变换
`PRECEDING FILTER`	指定前置过滤
`WHERE`	指定后置过滤

示例：

LOAD LABEL test_db.label1
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE `test_tbl`(k1, k2, tmp_k3)PRECEDING FILTER k1 = 1SET (k3 = tmp_k3 + 1)WHERE k1 > 1
)
WITH S3 (...);

Routine Load

在 SQL 语句中通过以下子句实现数据转换：

子句	说明
`COLUMNS`	指定列映射和列变换
`PRECEDING FILTER`	指定前置过滤
`WHERE`	指定后置过滤

示例：

CREATE ROUTINE LOAD test_db.label1 ON test_tblCOLUMNS(k1, k2, tmp_k3, k3 = tmp_k3 + 1),PRECEDING FILTER k1 = 1,WHERE k1 > 1...

Insert Into

Insert Into 可以直接在 SELECT 语句中完成数据转换，使用 WHERE 子句实现数据过滤。

列映射

列映射用于定义源数据列与目标表列之间的对应关系，能够处理以下场景：

源数据与目标表的列顺序不一致
源数据与目标表的列数量不匹配

调整列顺序

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

目标表有 k1, k2, k3, k4 四列，要实现如下映射：

列1 -> k1
列2 -> k3
列3 -> k2
列4 -> k4

创建目标表

CREATE TABLE example_table
(k1 INT,k2 STRING,k3 INT,k4 DOUBLE
) ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u user:passwd \-H "column_separator:," \-H "columns: k1,k3,k2,k4" \-T data.csv \-X PUT \http://<fe_ip>:<fe_http_port>/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label_broker
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(k1, k3, k2, k4)
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, k3, k2, k4),
COLUMNS TERMINATED BY ","
FROM KAFKA (...);

查询结果

mysql> select * from example_table;
+------+-----------+------+------+
| k1   | k2        | k3   | k4   |
+------+-----------+------+------+
|    2 | shanghai  |  200 |  1.2 |
|    4 | chongqing | NULL |  1.4 |
|    3 | guangzhou |  300 |  1.3 |
|    1 | beijing   |  100 |  1.1 |
+------+-----------+------+------+

源文件列数量多于表列数

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

目标表有 k1, k2, k3 三列，而源文件包含四列数据。我们只需要源文件的第1、第2、第4列，映射关系如下：

列1 -> k1
列2 -> k2
列4 -> k3

要跳过源文件中的某些列，只需在列映射时使用任意不存在于目标表的列名。这些列名可以自定义，不受限制，导入时会自动忽略这些列的数据。

创建示例表

CREATE TABLE example_table
(k1 INT,k2 STRING,k3 DOUBLE
) ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u usr:passwd \-H "column_separator:," \-H "columns: k1,k2,tmp_skip,k3" \-T data.csv \http://<fe_ip>:<fe_http_port>/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label_broker
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(tmp_k1, tmp_k2, tmp_skip, tmp_k3)SET (k1 = tmp_k1,k2 = tmp_k2,k3 = tmp_k3)
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, k2, tmp_skip, k3),
PROPERTIES
("format" = "csv","column_separator" = ","
)
FROM KAFKA (...);

注意：示例中的 tmp_skip 可以替换为任意名称，只要这些名称不在目标表的列定义中即可。

查询结果

mysql> select * from example_table;
+------+------+------+
| k1   | k2   | k3   |
+------+------+------+
|    1 | 100  |  1.1 |
|    2 | 200  |  1.2 |
|    3 | 300  |  1.3 |
|    4 | NULL |  1.4 |
+------+------+------+

源文件列数量少于表列数

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

目标表有 k1, k2, k3, k4, k5 五列，而源文件包含四列数据。我们只需要源文件的第1、第2、第3、第4列，映射关系如下：

列1 -> k1
列2 -> k3
列3 -> k2
列4 -> k4
k5 使用默认值

创建示例表

CREATE TABLE example_table
(k1 INT,k2 STRING,k3 INT,k4 DOUBLE,k5 INT DEFAULT 2
) ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u user:passwd \-H "column_separator:," \-H "columns: k1,k3,k2,k4" \-T data.csv \http://<fe_ip>:<fe_http_port>/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label_broker
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(tmp_k1, tmp_k3, tmp_k2, tmp_k4)SET (k1 = tmp_k1,k3 = tmp_k3,k2 = tmp_k2,k4 = tmp_k4)
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, k3, k2, k4),
COLUMNS TERMINATED BY ","
FROM KAFKA (...);

说明：

如果 k5 列有默认值，将使用默认值填充
如果 k5 列是可空列（nullable）但没有默认值，将填充 NULL 值
如果 k5 列是非空列且没有默认值，导入会失败

查询结果

mysql> select * from example_table;
+------+-----------+------+------+------+
| k1   | k2        | k3   | k4   | k5   |
+------+-----------+------+------+------+
|    1 | beijing   |  100 |  1.1 |    2 |
|    2 | shanghai  |  200 |  1.2 |    2 |
|    3 | guangzhou |  300 |  1.3 |    2 |
|    4 | chongqing | NULL |  1.4 |    2 |
+------+-----------+------+------+------+

列变换

列变换功能允许用户对源文件中列值进行变换，支持使用绝大部分内置函数。列变换操作通常是和列映射一起定义的，即先对列进行映射，再进行变换。

将源文件中的列值经变换后导入表中

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

表中有 k1,k2,k3,k4 4 列，导入映射和变换关系如下：

列1       -> k1
列2 * 100 -> k3
列3       -> k2
列4       -> k4

创建示例表

CREATE TABLE example_table
(k1 INT,k2 STRING,k3 INT,k4 DOUBLE
)
ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u user:passwd \-H "column_separator:," \-H "columns: k1, tmp_k3, k2, k4, k3 = tmp_k3 * 100" \-T data.csv \http://host:port/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label1
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(k1, tmp_k3, k2, k4)SET (k3 = tmp_k3 * 100)
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, tmp_k3, k2, k4, k3 = tmp_k3 * 100),
COLUMNS TERMINATED BY ","
FROM KAFKA (...);

查询结果

mysql> select * from example_table;
+------+-----------+-------+------+
| k1   | k2        | k3    | k4   |
+------+-----------+-------+------+
|    1 | beijing   | 10000 |  1.1 |
|    2 | shanghai  | 20000 |  1.2 |
|    3 | guangzhou | 30000 |  1.3 |
|    4 | chongqing |  NULL |  1.4 |
+------+-----------+-------+------+

通过 case when 函数，有条件的进行列变换

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

表中有 k1,k2,k3,k4 4 列。对于源数据中 beijing, shanghai, guangzhou, chongqing 分别转换为对应的地区 id 后导入：

列1                  -> k1
列2                  -> k2
列3 进行地区id转换后    -> k3
列4                  -> k4

创建示例表

CREATE TABLE example_table
(k1 INT,k2 INT,k3 INT,k4 DOUBLE
)
ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u user:passwd \-H "column_separator:," \-H "columns: k1, k2, tmp_k3, k4, k3 = CASE tmp_k3 WHEN 'beijing' THEN 1 WHEN 'shanghai' THEN 2 WHEN 'guangzhou' THEN 3 WHEN 'chongqing' THEN 4 ELSE NULL END" \-T data.csv \http://host:port/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label1
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(k1, k2, tmp_k3, k4)SET (k3 = CASE tmp_k3 WHEN 'beijing' THEN 1 WHEN 'shanghai' THEN 2 WHEN 'guangzhou' THEN 3 WHEN 'chongqing' THEN 4 ELSE NULL END)
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, k2, tmp_k3, k4, k3 = CASE tmp_k3 WHEN 'beijing' THEN 1 WHEN 'shanghai' THEN 2 WHEN 'guangzhou' THEN 3 WHEN 'chongqing' THEN 4 ELSE NULL END),
COLUMNS TERMINATED BY ","
FROM KAFKA (...);

查询结果

mysql> select * from example_table;
+------+------+------+------+
| k1   | k2   | k3   | k4   |
+------+------+------+------+
|    1 |  100 |    1 |  1.1 |
|    2 |  200 |    2 |  1.2 |
|    3 |  300 |    3 |  1.3 |
|    4 | NULL |    4 |  1.4 |
+------+------+------+------+

源文件中的 NULL 值处理

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

表中有 k1,k2,k3,k4 4 列。在对地区 id 转换的同时，对于源数据中 k1 列的 null 值转换成 0 导入：

列1                      -> k1
列2 如果为null 则转换成0   -> k2
列3                      -> k3
列4                      -> k4

创建示例表

CREATE TABLE example_table
(k1 INT,k2 INT,k3 INT,k4 DOUBLE
)
ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u user:passwd \-H "column_separator:," \-H "columns: k1, tmp_k2, tmp_k3, k4, k2 = ifnull(tmp_k2, 0), k3 = CASE tmp_k3 WHEN 'beijing' THEN 1 WHEN 'shanghai' THEN 2 WHEN 'guangzhou' THEN 3 WHEN 'chongqing' THEN 4 ELSE NULL END" \-T data.csv \http://host:port/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label1
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(k1, tmp_k2, tmp_k3, k4)SET (k2 = ifnull(tmp_k2, 0),k3 = CASE tmp_k3 WHEN 'beijing' THEN 1 WHEN 'shanghai' THEN 2 WHEN 'guangzhou' THEN 3 WHEN 'chongqing' THEN 4 ELSE NULL END)
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, tmp_k2, tmp_k3, k4, k2 = ifnull(tmp_k2, 0), k3 = CASE tmp_k3 WHEN 'beijing' THEN 1 WHEN 'shanghai' THEN 2 WHEN 'guangzhou' THEN 3 WHEN 'chongqing' THEN 4 ELSE NULL END),
COLUMNS TERMINATED BY ","
FROM KAFKA (...);

查询结果

mysql> select * from example_table;
+------+------+------+------+
| k1   | k2   | k3   | k4   |
+------+------+------+------+
|    1 |  100 |    1 |  1.1 |
|    2 |  200 |    2 |  1.2 |
|    3 |  300 |    3 |  1.3 |
|    4 |    0 |    4 |  1.4 |
+------+------+------+------+

前置过滤

前置过滤是在数据转换前对原始数据进行过滤的功能，可以提前过滤掉不需要处理的数据，减少后续处理的数据量，提高导入效率。该功能仅支持 Broker Load 和 Routine Load 两种导入方式。前置过滤有以下应用场景：

转换前做过滤

希望在列映射和转换前做过滤的场景，能够先行过滤掉部分不需要的数据。

过滤列不存在于表中，仅作为过滤标识

比如源数据中存储了多张表的数据（或者多张表的数据写入了同一个 Kafka 消息队列）。数据中每行有一列表名来标识该行数据属于哪个表。用户可以通过前置过滤条件来筛选对应的表数据进行导入。

示例

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

前置过滤条件为:

列1>1，即只导入 列1>1 的数据，其他数据过滤掉。

创建示例表

CREATE TABLE example_table
(k1 INT,k2 INT,k3 STRING,k4 DOUBLE
)
ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Broker Load

LOAD LABEL example_db.label1
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(k1, k2, k3, k4)PRECEDING FILTER k1 > 1
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, k2, k3, k4),
COLUMNS TERMINATED BY ","
PRECEDING FILTER k1 > 1
FROM KAFKA (...)

查询结果

mysql> select * from example_table;
+------+------+-----------+------+
| k1   | k2   | k3        | k4   |
+------+------+-----------+------+
|    2 |  200 | shanghai  |  1.2 |
|    3 |  300 | guangzhou |  1.3 |
|    4 | NULL | chongqing |  1.4 |
+------+------+-----------+------+

后置过滤

后置过滤在数据转换后执行，可以根据转换后的结果进行过滤。

在列映射和转换缺省的情况下，直接过滤

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

表中有 k1,k2,k3,k4 4 列，在缺省列映射和转换的情况下，只导入源文件中第 4 列为大于 1.2 的数据行。

创建示例表

CREATE TABLE example_table
(k1 INT,k2 INT,k3 STRING,k4 DOUBLE
)
ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u user:passwd \-H "column_separator:," \-H "columns: k1, k2, k3, k4" \-H "where: k4 > 1.2" \-T data.csv \http://host:port/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label1
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(k1, k2, k3, k4)where k4 > 1.2
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, k2, k3, k4),
COLUMNS TERMINATED BY ","
WHERE k4 > 1.2;
FROM KAFKA (...)

查询结果

mysql> select * from example_table;
+------+------+-----------+------+
| k1   | k2   | k3        | k4   |
+------+------+-----------+------+
|    3 |  300 | guangzhou |  1.3 |
|    4 | NULL | chongqing |  1.4 |
+------+------+-----------+------+

对经过列变换的数据进行过滤

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

表中有 k1,k2,k3,k4 4 列。在列变换示例中，我们将省份名称转换成了 id。这里我们希望过滤掉 id 为 3 的数据

创建示例表

CREATE TABLE example_table
(k1 INT,k2 INT,k3 INT,k4 DOUBLE
)
ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u user:passwd \-H "column_separator:," \-H "columns: k1, k2, tmp_k3, k4, k3 = case tmp_k3 when 'beijing' then 1 when 'shanghai' then 2 when 'guangzhou' then 3 when 'chongqing' then 4 else null end" \-H "where: k3 != 3" \-T data.csv \http://host:port/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label1
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(k1, k2, tmp_k3, k4)SET (k3 = CASE tmp_k3 WHEN 'beijing' THEN 1 WHEN 'shanghai' THEN 2 WHEN 'guangzhou' THEN 3 WHEN 'chongqing' THEN 4 ELSE NULL END)WHERE k3 != 3
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, k2, tmp_k3, k4),
COLUMNS TERMINATED BY ","
SET (k3 = CASE tmp_k3 WHEN 'beijing' THEN 1 WHEN 'shanghai' THEN 2 WHEN 'guangzhou' THEN 3 WHEN 'chongqing' THEN 4 ELSE NULL END
)
WHERE k3 != 3;
FROM KAFKA (...)

查询结果

mysql> select * from example_table;
+------+------+------+------+
| k1   | k2   | k3   | k4   |
+------+------+------+------+
|    1 |  100 |    1 |  1.1 |
|    2 |  200 |    2 |  1.2 |
|    4 | NULL |    4 |  1.4 |
+------+------+------+------+

多条件过滤

假设有以下源数据（表头列名仅为方便表述，实际并无表头）：

列1,列2,列3,列4
1,100,beijing,1.1
2,200,shanghai,1.2
3,300,guangzhou,1.3
4,\N,chongqing,1.4

表中有 k1,k2,k3,k4 4 列。过滤掉 k1 列为 null 的数据，同时过滤掉 k4 列小于 1.2 的数据

创建示例表

CREATE TABLE example_table
(k1 INT,k2 INT,k3 STRING,k4 DOUBLE
)
ENGINE = OLAP
DUPLICATE KEY(k1)
DISTRIBUTED BY HASH(k1) BUCKETS 1;

导入数据

Stream Load

curl --location-trusted -u user:passwd \-H "column_separator:," \-H "columns: k1, k2, k3, k4" \-H "where: k1 is not null and k4 > 1.2" \-T data.csv \http://host:port/api/example_db/example_table/_stream_load

Broker Load

LOAD LABEL example_db.label1
(DATA INFILE("s3://bucket_name/data.csv")INTO TABLE example_tableCOLUMNS TERMINATED BY ","(k1, k2, k3, k4)where k1 is not null and k4 > 1.2
)
WITH s3 (...);

Routine Load

CREATE ROUTINE LOAD example_db.example_routine_load ON example_table
COLUMNS(k1, k2, k3, k4),
COLUMNS TERMINATED BY ","
WHERE k1 is not null and k4 > 1.2
FROM KAFKA (...);

查询结果

mysql> select * from example_table;
+------+------+-----------+------+
| k1   | k2   | k3        | k4   |
+------+------+-----------+------+
|    3 |  300 | guangzhou |  1.3 |
|    4 | NULL | chongqing |  1.4 |
+------+------+-----------+------+

doris：导入时实现数据转换

Doris 在数据导入时提供了强大的数据转换能力，可以简化部分数据处理流程，减少对额外 ETL 工具的依赖。主要支持以下四种转换方式： 列映射：将源数据列映射到目标表的不同列。列变换：使用函数和表达式对源数据进行实时…...

编程日记 2025/7/7 2:04:15

开源智慧园区管理系统对比五款主流产品探索智能运营新模式

内容概要在这个数字化迅速发展的时代，园区管理也迎来了全新的机遇和挑战。众所周知，开源智慧园区管理系统作为一种创新解决方案，正逐步打破传统管理的局限性。它的开放性不仅使得系统可以根据具体需求进行灵活调整，也为用户提供…...

编程日记 2025/7/6 23:51:43

ARM内核：嵌入式时代的核心引擎

引言在当今智能设备无处不在的时代，ARM（Advanced RISC Machines）处理器凭借其高性能、低功耗的特性，成为智能手机、物联网设备、汽车电子等领域的核心引擎。作为精简指令集（RISC）的典范，ARM核…...

编程日记 2025/7/6 16:13:21

ITS290F Human Computer Interaction

ITS290F Human Computer Interaction & User Experience Design Lab 1. Introduction to CodePen What you’ll learn in this lab: • Understanding CodePen • Creating a front-end page • Using Google form to submit your lab work CodePen is a cloud-based in…...

编程日记 2025/7/7 1:55:14

[Java]继承

1. 什么是继承？ 继承是面向对象编程的一种机制，允许一个类（叫做子类）继承另一个类（叫做父类）的属性和方法。也就是说，子类可以“继承”父类的行为（方法）和状态&#xff…...

编程日记 2025/7/2 1:25:55

DeepSeek能下围棋吗？（续）

休息了一下，接着琢磨围棋，其实前面一篇里的规则有个漏洞的，就是邻居关系定义有问题，先回顾一下游戏规则： 游戏规则定义： 1.数字对，是指两个1到9之间的整数组成的有序集合。可与记为(m,n)&…...

编程日记 2025/7/1 15:11:33

51单片机（STC89C52）开发：点亮一个小灯

软件安装： 安装开发板CH340驱动。安装KEILC51开发软件：C51V901.exe。下载软件：PZ-ISP.exe 创建项目： 新建main.c 将main.c加入至项目中： main.c:点亮一个小灯 #include "reg52.h"sbit LED1P2^0; //P2的…...

编程日记 2025/7/4 10:04:56

【数据结构】并查集

1.基本操作 void makeset(){ for(int i1;i<n;i)fa[i]i; }int findd(int x){ while(fa[x]!x)xfa[x]fa[fa[x]]; return x; }void unionn(int x,int y){ int zxfindd(x);int zyfindd(y); if(zx!zy)fa[zy]zx; }2.种类并查集 Parity Game 关押罪犯 [NOIP 2010 提高组] 关押罪…...

编程日记 2025/7/7 0:32:16

基于Rectified Flow FLUX的图像编辑方法 RF-Solver

Diffusion Models专栏文章汇总：入门与实战前言：现在越来越多的开源模型是基于Rectified Flow，特别是FLUX和HunYuan Video，但是Rectified Flow inversion的性质和之前有所不同，这篇博客解读一下如何使用Rectified Flow对FLUX进行编辑。目录 RF直接逆向会出现问题为什R…...

编程日记 2025/7/6 12:44:41

[创业之路-269]：《创业讨论会》- 系统之韵：从麻雀到5G系统的共通性探索

关键词： 从系统的角度，麻雀、人体系统、企业系统、软硬件系统、软件系统、通信系统、5G系统是类似的： 都有：内在看不见的规律、外在显性各种现象都是：输入、处理、输出都是：静态、要素、组成、结构、组织…...

编程日记 2025/7/7 0:37:41

C语言指针专题三 -- 指针数组

目录 1. 指针数组的核心原理 2. 指针数组与二维数组的区别 3. 编程实例 4. 常见陷阱与防御 5. 总结 1. 指针数组的核心原理指针数组是一种特殊数组，其所有元素均为指针类型。每个元素存储一个内存地址，可指向不同类型的数据（通常指向同…...

编程日记 2025/7/7 1:05:27

Contrastive Imitation Learning

机器人模仿学习中对比解码的一致性采样摘要本文中，我们在机器人应用的对比模仿学习中，利用一致性采样来挖掘演示质量中的样本间关系。通过在排序后的演示对比解码过程中，引入相邻样本间的一致性机制，我们旨在改进用于机器人学习…...

编程日记 2025/7/1 7:35:35

Springboot使用AOP时,需不需要引入AspectJ?

Springboot使用AOP时,需不需要引入AspectJ? 在Spring Boot中使用AOP时，是否需要引入AspectJ取决于你选择的具体AOP实现方式。以下是详细分步说明： 1. 默认场景：使用Spring AOP（基于代理） 不需要引入AspectJ依赖&am…...

编程日记 2025/6/27 11:25:56

使用iis服务器模拟本地资源服务器unityaddressables热更新出错记录

editor中设置了using exculexing 模拟远程加载addressable可以实现资源热更新，build后的软件却没有成功。 iis服务器中mime中需要设置bundle的文件扩展名，时editor成功，build后失败原因没有设置hash的扩展名，设置后editor和buil…...

编程日记 2025/7/6 6:42:18

17 一个高并发的系统架构如何设计

高并发系统的理解第一:我们设计高并发系统的前提是该系统要高可用，起码整体上的高可用。第二:高并发系统需要面对很大的流量冲击，包括瞬时的流量和黑客攻击等第三:高并发系统常见的需要考虑的问题，如内存不足的问题，服务抖动的…...

编程日记 2025/6/28 0:06:51

MongoDb user自定义 role 添加 action（collStats, EstimateDocumentCount)

使用 mongosh cd mongsh_bin_path mongosh “mongodb://user:passip:port/db”这样就直接进入了对应的db 直接输入： 这样 role “read_only_role" 就获得了3个 action， 分别是查询，列举集合，集合元数据查询 P.S: 如果没有 …...

编程日记 2025/7/3 13:39:19

我的AI工具箱Tauri版-Custom3DModelCreationforH2Panel卡通图片2D转绘3D

本教程基于自研的AI工具箱Tauri版进行ComfyUI工作流Custom3DModelCreationforH2Panel卡通图片2D转绘3D。 Custom3DModelCreationforH2Panel卡通图片2D转绘3D 基于先进的SD模型技术，能够将2D动漫图片高效转换为高清的3D图像，满足各种创作需求。通过智能算…...

编程日记 2025/7/2 21:34:59

1 HDFS

1 HDFS 1. HDFS概述2. HDFS架构3. HDFS的特性4. HDFS 的命令行使用5. hdfs的高级使用命令6. HDFS 的 block 块和副本机制6.1 抽象为block块的好处6.2 块缓存6.3 hdfs的文件权限验证6.4 hdfs的副本因子 7. HDFS 文件写入过程（非常重要）7.1 网络拓扑概念7.…...

编程日记 2025/7/4 16:38:25

14-6-3C++STL的list

（一）list的插入 1.list.insert(pos,elem);//在pos位置插入一个elem元素的拷贝，返回新数据的位置 #include <iostream> #include <list> using namespace std; int main() { list<int> lst; lst.push_back(10); l…...

编程日记 2025/7/6 17:46:10

GESP2023年12月认证C++六级( 第三部分编程题（2）工作沟通)

参考程序1代码： #include <cstdio> #include <cstdlib> #include <cstring> #include <algorithm> #include <string> #include <map> #include <iostream> #include <cmath> #include <vector> using name…...

编程日记 2025/7/3 8:23:51

深度学习的应用

目录一、机器视觉 1.1 应用场景 1.2 常见的计算机视觉任务 1.2.1 图像分类 1.2.2 目标检测 1.2.3 图像分割二、自然语言处理三、推荐系统 3.1 常用的推荐系统算法实现方案四、图像分类实验补充 4.1 CIFAR-100 数据集实验实验代码 4.2 CIFAR-10 实验代码深…...

编程日记 2025/7/3 4:35:29

【自学笔记】MySQL的重点知识点-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 MySQL重点知识点MySQL知识点总结一、数据库基础二、MySQL的基本使用三、数据类型四、触发器（Trigger）五、存储引擎六、索引七、事务处理八、…...

编程日记 2025/7/2 4:13:22

计算机网络之物理层通信基础（信道、信号、带宽、码元、波特、速率、信源与信宿等基本概念）

一、信道信道是信号的传输媒介，一般用来表示向某一个方向传送信息的介质。信道可以按照不同标准进行分类： 按传输信号分类：可分为模拟信道和数字信道。按传输介质分类：可分为无线信道和有线信道。无线信道以电磁波为传输介质&…...

编程日记 2025/7/1 11:34:58

C++初阶 -- 初识STL和string类详细使用接口的教程（万字大章）

目录一、STL 1.1 什么是STL 1.2 STL的版本 1.3 STL的六大组件二、string类 2.1 string类的基本介绍 2.2 string类的默认成员函数 2.2.1 构造函数 2.2.2 析构函数 2.2.3 赋值运算符重载 2.3 string类对象的容量操作 2.3.1 size和length 2.3.2 capacity 2.3.3 r…...

编程日记 2025/7/1 1:21:23

Cursor 背后的技术栈：从 VS Code 到 AI 集成

引言在当今快速发展的软件开发领域，开发者工具正在经历一场由人工智能（AI）驱动的革命。Cursor 作为一款新兴的智能编程助手，凭借其强大的 AI 能力和高效的开发体验，迅速吸引了大量开发者的关注。Cursor 不仅继承了 V…...

编程日记 2025/7/2 19:33:33

ESP32和STM32在处理中断方面的区别

为了通俗地讲解ESP32和STM32在处理中断方面的区别，我们可以把它们想象成两个不同的“智能管家”系统，各自负责管理一个家庭（即嵌入式项目）的各种任务。我们将重点放在如何处理突发事件（即中断）上。 ESP32 …...

编程日记 2025/7/4 6:09:11

99.23 金融难点通俗解释：小卖部经营比喻PPI（生产者物价指数）vsCPI（消费者物价指数）

目录 0. 承前1. 简述：价格指数对比2. 比喻：两大指数对比2.1 简单对比2.2 生动比喻 3. 实际应用3.1 价格传导现象 4. 总结5. 有趣的对比6. 数据获取实现代码7. 数据可视化实现代码 0. 承前本文主旨： 本文使用小卖部比喻PPI和CPI，…...

编程日记 2025/7/4 22:10:35

计算机网络概述

1. 计算机网络的定义计算机网络是指由多个通过物理介质或无线方式互相连接的计算设备组成的系统。其主要目的是实现数据的传输和资源共享。网络中的计算设备可以包括台式机、笔记本电脑、服务器、手机、打印机、智能设备等。网络的广义定义首先要理解“网络”的广义含义。网…...

编程日记 2025/7/3 22:02:19

169 多数元素

给定一个大小为 n 的数组 nums ，返回其中的多数元素。多数元素是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的，并且给定的数组总是存在多数元素。 class Solution { public int majorityElement(int[] nums) { // 存储每个数字的…...

编程日记 2025/7/1 10:21:45

线程配置经验

工作时，时常会遇到，线程相关的问题与解法，本人会持续对开发过程中遇到的关于线程相关的问题及解决记录更新记录在此篇博客中。目录一、线程基本知识 1. 线程和进程二、问题与解法 1. 避免乘法级别数量线程并行 1）使用线程池…...

编程日记 2025/7/6 22:23:54

算法随笔_34: 最后一个单词的长度

上一篇:算法随笔_33: 132模式-CSDN博客题目描述如下: 给你一个字符串 s，由若干单词组成，单词前后用一些空格字符隔开。返回字符串中最后一个单词的长度。单词是指仅由字母组成、不包含任何空格字符的最大子字符串。示例 1： 输入&am…...

编程日记 2025/7/5 20:09:35

java 正则表达式匹配Matcher 类

Matcher 类用法在 Java 中，Matcher 类是用于匹配正则表达式的工具，而 group() 方法是 Matcher 类中的一个重要方法，用于提取匹配结果中的捕获组（captured groups）。以下是对 group() 方法的详细解释： 1.…...

编程日记 2025/7/3 15:16:03

【Blazor学习笔记】.NET Blazor学习笔记

我是大标题我学习Blazor的顺序是基于Blazor University，然后实际内容不完全基于它，因为它的例子还是基于.NET Core 3.1做的，距离现在很遥远了。截至本文撰写的时间，2025年，最新的.NET是.NET9了都，可能1…...

编程日记 2025/7/6 7:43:19

python 使用Whisper模型进行语音翻译

目录一、Whisper 是什么？二、Whisper 的基本命令行用法三、代码实践四、是否保留Token标记五、翻译长度问题六、性能分析一、Whisper 是什么？ Whisper 是由 OpenAI 开源的一个自动语音识别（Automatic Speech Recognition, ASR）系统。它的主要特点是：多语言…...

编程日记 2025/7/4 14:05:14

pytorch实现循环神经网络

人工智能例子汇总：AI常见的算法和例子-CSDN博客 PyTorch 提供三种主要的 RNN 变体： nn.RNN：最基本的循环神经网络，适用于短时依赖任务。nn.LSTM：长短时记忆网络，适用于长序列数据，能有效解决…...

编程日记 2025/6/28 6:32:35

侯捷 C++ 课程学习笔记：深入理解 C++ 核心技术与实战应用

目录引言第一章：C 基础回顾 1.1 C 的历史与发展 1.2 C 的核心特性 1.3 C 的编译与执行第二章：面向对象编程 2.1 类与对象 2.2 构造函数与析构函数 2.3 继承与多态第三章：泛型编程与模板 3.1 函数模板 3.2 类模板 3.3 STL 容器…...

编程日记 2025/7/6 3:13:17

大厂面试题备份20250131

20250131 模型压缩怎么做？除了知识蒸馏模型压缩是为了减少深度学习模型的计算和存储需求，提高推理效率。除了知识蒸馏，常见的模型压缩方法包括： 1. 剪枝（Pruning） 非结构化剪枝（Unstructur…...

编程日记 2025/7/1 8:07:36

（三）QT——信号与槽机制——计数器程序

目录前言信号（Signal）与槽（Slot）的定义一、系统自带的信号和槽二、自定义信号和槽三、信号和槽的扩展四、Lambda 表达式总结前言信号与槽机制是 Qt 中的一种重要的通信机制，用于不同对象之间的事件响…...

编程日记 2025/7/4 13:15:20

玩转大语言模型——配置图数据库Neo4j（含apoc插件）并导入GraphRAG生成的知识图谱

系列文章目录玩转大语言模型——使用langchain和Ollama本地部署大语言模型玩转大语言模型——ollama导入huggingface下载的模型玩转大语言模型——langchain调用ollama视觉多模态语言模型玩转大语言模型——使用GraphRAGOllama构建知识图谱玩转大语言模型——完美解决Gra…...

编程日记 2025/7/5 23:24:34

从0开始，来看看怎么去linux排查Java程序故障

一，前提准备最基本前提：你需要有liunx环境，如果没有请参考其它文献在自己得到local建立一个虚拟机去进行测试。有了虚拟机之后，你还需要安装jdk和配置环境变量 1. 安装JDK（以OpenJDK 17为例） 下载JDK…...

编程日记 2025/7/5 16:54:19

Java实现LFU缓存策略实战

LFU算法原理在Java中示例实现集成Caffeine的W-TinyLFU策略缓存实战总结LFU与LRU稍有不同，LFU是根据数据被访问的频率来决定去留。尽管它考虑了数据的近期使用，但它不会区分数据的首次访问和后续访问，淘汰那些访问次数最少的数据。这种缓存策略主要用来处理以下场景：数据…...

编程日记 2025/7/2 14:05:42

LeetCode--84. 柱状图中最大的矩形【单调栈】

84. 柱状图中最大的矩形正文题目如下给定 n 个非负整数，用来表示柱状图中各个柱子的高度。每个柱子彼此相邻，且宽度为 1 。求在该柱状图中，能够勾勒出来的矩形的最大面积。这道题暴力很简单，但是时间复杂度是O(N^2)&#xf…...

编程日记 2025/7/5 17:47:47

感悟人生路

匆匆复匆匆，新春时光沙漏里，过了又来，只是那时和此时。累了，行过百公里，灯光交汇处，都是向往幸福之所。一路长虹，速度跟上节奏，福祉盈门，出入平安。跨越时空&#xff…...

编程日记 2025/7/4 16:07:20

Autogen_core源码：_agent_instantiation.py

目录 _agent_instantiation.py代码代码解释代码示例示例 1：使用 populate_context 正确设置上下文示例 2：尝试在上下文之外调用 current_runtime 和 current_agent_id示例 3：模拟 AgentRuntime 使用 AgentInstantiationContext _agent_instan…...

编程日记 2025/7/1 15:58:10

开源智慧园区管理系统如何重塑企业管理模式与运营效率

内容概要在如今快速发展的商业环境中，企业面临着日益复杂的管理挑战。开源智慧园区管理系统应运而生，旨在通过技术创新来应对这些挑战。它不仅是一个简单的软件工具，而是一个全面整合大数据、物联网和智能化功能的综合平台，为企…...

编程日记 2025/7/1 21:01:57

网络工程师（9）文件管理

一、树形目录结构 （一）定义与构成树形目录结构由一个根目录和若干层子文件夹（或称为子目录）组成，它像一棵倒置的树。这棵树的根称为根文件夹（也叫根目录），从根向下，每一…...

编程日记 2025/7/2 20:18:29

Java小白入门教程：内置数据类型（四类八种）和引用数据类型

目录一、内置数据类型（四类八种） 1. 整数类型（四种子类型） 2. 浮点类型（两种子类型） 3. 字符类型（一种子类型） 4. 布尔类型（一种子类型） 二、引用数据类…...

编程日记 2025/7/2 11:13:00

pytorch图神经网络处理图结构数据

人工智能例子汇总：AI常见的算法和例子-CSDN博客图神经网络（Graph Neural Networks，GNNs）是一类能够处理图结构数据的深度学习模型。图结构数据由节点（vertices）和边（edges）组成&a…...

编程日记 2025/7/4 18:55:54

CRC校验详解

CRC校验即循环冗余校验（Cyclic Redundancy Check），是基于数据计算一组效验码，用于核对数据传输过程中是否被更改或传输错误。首先看两个概念，后续会用到。模2除法：也叫模2运算，就是结果除以2后取余数。模2除法每一位除的结果不影响其它位，即不向上一位借位，所以实际…...

编程日记 2025/7/4 12:33:56

使用where子句筛选记录

默认情况下,SearchCursor将返回一个表或要素类的所有行.然而在很多情况下,常常需要某些条件来限制返回行数. 操作方法: 1.打开IDLE,加载先前编写的SearchCursor.py脚本 2.添加where子句,更新SearchCursor()函数,查找记录中有<>文本的<>字段 with arcpy.da.Searc…...

编程日记 2025/7/6 10:04:37

导入语法​

Stream Load​

Broker Load​

Routine Load​

Insert Into​

列映射​

调整列顺序​

创建目标表​

导入数据​

查询结果​

源文件列数量多于表列数​

创建示例表​

导入数据​

查询结果​

源文件列数量少于表列数​

创建示例表​

导入数据​

查询结果​

列变换​

将源文件中的列值经变换后导入表中​

创建示例表​

导入数据​

查询结果​

通过 case when 函数，有条件的进行列变换​

创建示例表​

导入数据​

查询结果​

源文件中的 NULL 值处理​

创建示例表​

导入数据​

查询结果​

前置过滤​

示例​

创建示例表​

导入数据​

查询结果​

后置过滤​

在列映射和转换缺省的情况下，直接过滤​

创建示例表​

导入数据​

查询结果​

对经过列变换的数据进行过滤​

创建示例表​

导入数据​

查询结果​

多条件过滤​

创建示例表​

导入数据​

查询结果​

相关文章：

导入语法

Stream Load

Broker Load

Routine Load

Insert Into

列映射

调整列顺序

创建目标表

导入数据

查询结果

源文件列数量多于表列数

创建示例表

导入数据

查询结果

源文件列数量少于表列数

创建示例表

导入数据

查询结果

列变换

将源文件中的列值经变换后导入表中

创建示例表

导入数据

查询结果

通过 case when 函数，有条件的进行列变换

创建示例表

导入数据

查询结果

源文件中的 NULL 值处理

创建示例表

导入数据

查询结果

前置过滤

示例

创建示例表

导入数据

查询结果

后置过滤

在列映射和转换缺省的情况下，直接过滤

创建示例表

导入数据

查询结果

对经过列变换的数据进行过滤

创建示例表

导入数据

查询结果

多条件过滤

创建示例表

导入数据

查询结果