当前位置：首页 > news >正文

Docker 部署 - Crawl4AI 文档 (v0.5.x)

news 来源：原创 2025/7/24 5:23:26

Docker 部署 - Crawl4AI 文档 (v0.5.x)

快速入门 🚀

拉取并运行基础版本：

# 不带安全性的基本运行
docker pull unclecode/crawl4ai:basic
docker run -p 11235:11235 unclecode/crawl4ai:basic# 带有 API 安全性启用的运行
docker run -p 11235:11235 -e CRAWL4AI_API_TOKEN=your_secret_token unclecode/crawl4ai:basic

使用 Docker Compose 运行 🐳

从本地 Dockerfile 或 Docker Hub 使用 Docker Compose

Crawl4AI 提供灵活的 Docker Compose 选项，用于管理你的容器化服务。你可以使用提供的 Dockerfile 本地构建镜像，也可以使用 Docker Hub 上的预构建镜像。

选项 1：使用 Docker Compose 本地构建

如果你希望本地构建镜像，请使用提供的 docker-compose.local.yml 文件。

docker-compose -f docker-compose.local.yml up -d

这将：
1. 从提供的 Dockerfile 构建 Docker 镜像。
2. 启动容器并将其暴露在 http://localhost:11235。

选项 2：使用 Docker Compose 从 Hub 获取预构建镜像

如果你更倾向于使用 Docker Hub 上的预构建镜像，请使用 docker-compose.hub.yml 文件。

docker-compose -f docker-compose.hub.yml up -d

这将：
1. 拉取预构建镜像 unclecode/crawl4ai:basic（或根据你的配置选择 all）。
2. 启动容器并将其暴露在 http://localhost:11235。

停止正在运行的服务

要停止通过 Docker Compose 启动的服务，可以使用：

docker-compose -f docker-compose.local.yml down
# 或者
docker-compose -f docker-compose.hub.yml down

如果容器无法停止且应用仍在运行，请检查正在运行的容器：

找到正在运行的服务的 CONTAINER ID 并强制停止它：

docker stop <CONTAINER_ID>

使用 Docker Compose 调试

查看日志：要查看容器日志：

docker-compose -f docker-compose.local.yml logs -f

移除孤立容器：如果服务仍在意外运行：

docker-compose -f docker-compose.local.yml down --remove-orphans

手动移除网络：如果网络仍在使用中：

docker network ls
docker network rm crawl4ai_default

为什么使用 Docker Compose？

Docker Compose 是部署 Crawl4AI 的推荐方式，因为：
1. 它简化了多容器设置。
2. 允许你在单个文件中定义环境变量、资源和端口。
3. 使在本地开发和生产镜像之间切换变得更容易。

例如，你的 docker-compose.yml 可以包含 API 密钥、令牌设置和内存限制，使部署快速且一致。

API 安全性 🔒

了解 CRAWL4AI_API_TOKEN

CRAWL4AI_API_TOKEN 为你的 Crawl4AI 实例提供可选的安全性：

如果设置了 CRAWL4AI_API_TOKEN：所有 API 端点（除了 /health）都需要认证。
如果没有设置 CRAWL4AI_API_TOKEN：API 将公开可用。

# 安全实例
docker run -p 11235:11235 -e CRAWL4AI_API_TOKEN=your_secret_token unclecode/crawl4ai:all# 未受保护实例
docker run -p 11235:11235 unclecode/crawl4ai:all

进行 API 调用

对于受保护的实例，在所有请求中包含令牌：

import requests# 设置标头（如果使用了令牌）
api_token = "your_secret_token"  # 与 CRAWL4AI_API_TOKEN 中设置的令牌相同
headers = {"Authorization": f"Bearer {api_token}"} if api_token else {}# 发起认证请求
response = requests.post("http://localhost:11235/crawl",headers=headers,json={"urls": "https://example.com","priority": 10}
)# 检查任务状态
task_id = response.json()["task_id"]
status = requests.get(f"http://localhost:11235/task/{task_id}",headers=headers
)

与 Docker Compose 一起使用

在你的 docker-compose.yml 中：

services:crawl4ai:image: unclecode/crawl4ai:allenvironment:- CRAWL4AI_API_TOKEN=${CRAWL4AI_API_TOKEN:-}  # 可选# ... 其他配置

然后可以：
1. 在 .env 文件中设置：

CRAWL4AI_API_TOKEN=your_secret_token

或者在命令行中设置：

CRAWL4AI_API_TOKEN=your_secret_token docker-compose up

安全提示：如果你启用了 API 令牌，请确保保持其安全性，不要将其提交到版本控制中。除了健康检查端点（/health）外，所有 API 端点都需要该令牌。

配置选项 🔧

环境变量

你可以使用环境变量来配置服务：

# 基本配置
docker run -p 11235:11235 \-e MAX_CONCURRENT_TASKS=5 \unclecode/crawl4ai:all# 启用安全性和 LLM 支持
docker run -p 11235:11235 \-e CRAWL4AI_API_TOKEN=your_secret_token \-e OPENAI_API_KEY=sk-... \-e ANTHROPIC_API_KEY=sk-ant-... \unclecode/crawl4ai:all

使用 Docker Compose（推荐） 🐳

创建一个 docker-compose.yml 文件：

version: '3.8'services:crawl4ai:image: unclecode/crawl4ai:allports:- "11235:11235"environment:- CRAWL4AI_API_TOKEN=${CRAWL4AI_API_TOKEN:-}  # 可选 API 安全性- MAX_CONCURRENT_TASKS=5# LLM 提供商密钥- OPENAI_API_KEY=${OPENAI_API_KEY:-}- ANTHROPIC_API_KEY=${ANTHROPIC_API_KEY:-}volumes:- /dev/shm:/dev/shmdeploy:resources:limits:memory: 4Greservations:memory: 1G

你可以通过两种方式运行它：

直接使用环境变量：

CRAWL4AI_API_TOKEN=secret123 OPENAI_API_KEY=sk-... docker-compose up

使用 .env 文件（推荐）：
在同一目录下创建一个 .env 文件：

# API 安全性（可选）
CRAWL4AI_API_TOKEN=your_secret_token# LLM 提供商密钥
OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...# 其他配置
MAX_CONCURRENT_TASKS=5

然后只需运行：

测试部署 🧪

import requests# 对于未受保护的实例
def test_unsecured():# 健康检查health = requests.get("http://localhost:11235/health")print("健康检查：", health.json())# 基本爬取response = requests.post("http://localhost:11235/crawl",json={"urls": "https://www.nbcnews.com/business","priority": 10})task_id = response.json()["task_id"]print("任务 ID：", task_id)# 对于受保护的实例
def test_secured(api_token):headers = {"Authorization": f"Bearer {api_token}"}# 带认证的基本爬取response = requests.post("http://localhost:11235/crawl",headers=headers,json={"urls": "https://www.nbcnews.com/business","priority": 10})task_id = response.json()["task_id"]print("任务 ID：", task_id)

当你配置了 LLM 提供商密钥（通过环境变量或 .env 文件），你可以使用 LLM 提取：

request = {"urls": "https://example.com","extraction_config": {"type": "llm","params": {"provider": "openai/gpt-4","instruction": "从页面中提取主要主题"}}
}# 发起请求（如果使用 API 安全性，请添加标头）
response = requests.post("http://localhost:11235/crawl", json=request)

提示：记得将 .env 添加到 .gitignore 中，以确保你的 API 密钥安全！

使用示例 📝

基本爬取

request = {"urls": "https://www.nbcnews.com/business","priority": 10
}response = requests.post("http://localhost:11235/crawl", json=request)
task_id = response.json()["task_id"]# 获取结果
result = requests.get(f"http://localhost:11235/task/{task_id}")

schema = {"name": "加密货币价格","baseSelector": ".cds-tableRow-t45thuk","fields": [{"name": "加密货币","selector": "td:nth-child(1) h2","type": "text",},{"name": "价格","selector": "td:nth-child(2)","type": "text",}],
}request = {"urls": "https://www.coinbase.com/explore","extraction_config": {"type": "json_css","params": {"schema": schema}}
}

处理动态内容

request = {"urls": "https://www.nbcnews.com/business","js_code": ["const loadMoreButton = Array.from(document.querySelectorAll('button')).find(button => button.textContent.includes('Load More')); loadMoreButton && loadMoreButton.click();"],"wait_for": "article.tease-card:nth-child(10)"
}

request = {"urls": "https://www.nbcnews.com/business","extraction_config": {"type": "cosine","params": {"semantic_filter": "商业 财务 经济","word_count_threshold": 10,"max_dist": 0.2,"top_k": 3}}
}

平台特定指令 💻

macOS

docker pull unclecode/crawl4ai:basic
docker run -p 11235:11235 unclecode/crawl4ai:basic

Ubuntu

# 基础版本
docker pull unclecode/crawl4ai:basic
docker run -p 11235:11235 unclecode/crawl4ai:basic# 带 GPU 支持
docker pull unclecode/crawl4ai:gpu
docker run --gpus all -p 11235:11235 unclecode/crawl4ai:gpu

Windows（PowerShell）

docker pull unclecode/crawl4ai:basic
docker run -p 11235:11235 unclecode/crawl4ai:basic

测试 🧪

将以下内容保存为 test_docker.py：

import requests
import json
import time
import sysclass Crawl4AiTester:def __init__(self, base_url: str = "http://localhost:11235"):self.base_url = base_urldef submit_and_wait(self, request_data: dict, timeout: int = 300) -> dict:# 提交爬取任务response = requests.post(f"{self.base_url}/crawl", json=request_data)task_id = response.json()["task_id"]print(f"任务 ID：{task_id}")# 轮询结果start_time = time.time()while True:if time.time() - start_time > timeout:raise TimeoutError(f"任务 {task_id} 超时")result = requests.get(f"{self.base_url}/task/{task_id}")status = result.json()if status["status"] == "completed":return statustime.sleep(2)def test_deployment():tester = Crawl4AiTester()# 测试基本爬取request = {"urls": "https://www.nbcnews.com/business","priority": 10}result = tester.submit_and_wait(request)print("基本爬取成功！")print(f"内容长度：{len(result['result']['markdown'])}")if __name__ == "__main__":test_deployment()

高级配置 ⚙️

爬虫参数

crawler_params 字段允许你配置浏览器实例和爬取行为。以下是你可以使用的关键参数：

request = {"urls": "https://example.com","crawler_params": {# 浏览器配置"headless": True,                    # 以无头模式运行"browser_type": "chromium",          # chromium/firefox/webkit"user_agent": "custom-agent",        # 自定义用户代理"proxy": "http://proxy:8080",        # 代理配置# 性能与行为"page_timeout": 30000,               # 页面加载超时（毫秒）"verbose": True,                     # 启用详细日志"semaphore_count": 5,               # 并发请求限制# 防检测功能"simulate_user": True,               # 模拟人类行为"magic": True,                       # 高级防检测"override_navigator": True,          # 覆盖导航器属性# 会话管理"user_data_dir": "./browser-data",   # 浏览器配置文件位置"use_managed_browser": True,         # 使用持久浏览器}
}

extra 字段允许直接将额外参数传递给爬虫的 arun 函数：

request = {"urls": "https://example.com","extra": {"word_count_threshold": 10,          # 每个区块的最小字数"only_text": True,                   # 仅提取文本"bypass_cache": True,                # 强制刷新爬取"process_iframes": True,             # 包含 iframe 内容}
}

完整示例

高级新闻爬取

request = {"urls": "https://www.nbcnews.com/business","crawler_params": {"headless": True,"page_timeout": 30000,"remove_overlay_elements": True      # 移除弹出窗口},"extra": {"word_count_threshold": 50,          # 更长的内容区块"bypass_cache": True                 # 刷新内容},"css_selector": ".article-body"
}

防检测配置

request = {"urls": "https://example.com","crawler_params": {"simulate_user": True,"magic": True,"override_navigator": True,"user_agent": "Mozilla/5.0 ...","headers": {"Accept-Language": "en-US,en;q=0.9"}}
}

带有自定义参数的 LLM 提取

request = {"urls": "https://openai.com/pricing","extraction_config": {"type": "llm","params": {"provider": "openai/gpt-4","schema": pricing_schema}},"crawler_params": {"verbose": True,"page_timeout": 60000},"extra": {"word_count_threshold": 1,"only_text": True}
}

基于会话的动态内容

request = {"urls": "https://example.com","crawler_params": {"session_id": "dynamic_session","headless": False,"page_timeout": 60000},"js_code": ["window.scrollTo(0, document.body.scrollHeight);"],"wait_for": "js:() => document.querySelectorAll('.item').length > 10","extra": {"delay_before_return_html": 2.0}
}

带自定义时间的截图

request = {"urls": "https://example.com","screenshot": True,"crawler_params": {"headless": True,"screenshot_wait_for": ".main-content"},"extra": {"delay_before_return_html": 3.0}
}

参数参考表

分类	参数	类型	描述
浏览器	headless	布尔值	以无头模式运行浏览器
浏览器	browser_type	字符串	浏览器引擎选择
浏览器	user_agent	字符串	自定义用户代理字符串
网络	proxy	字符串	代理服务器 URL
网络	headers	字典	自定义 HTTP 标头
定时	page_timeout	整数	页面加载超时（毫秒）
定时	delay_before_return_html	浮点数	捕获前等待时间
防检测	simulate_user	布尔值	模拟人类行为
防检测	magic	布尔值	高级保护
会话	session_id	字符串	浏览器会话 ID
会话	user_data_dir	字符串	配置文件目录
内容	word_count_threshold	整数	每个区块的最小字数
内容	only_text	布尔值	仅提取文本
内容	process_iframes	布尔值	包含 iframe 内容
调试	verbose	布尔值	详细日志
调试	log_console	布尔值	浏览器控制台日志

故障排除 🔍

常见问题

连接拒绝

错误：连接被 localhost:11235 拒绝

解决方案：确保容器正在运行且端口映射正确。

资源限制

错误：没有可用插槽

解决方案：增加 MAX_CONCURRENT_TASKS 或容器资源。

GPU 访问

解决方案：确保安装了正确的 NVIDIA 驱动程序并使用 --gpus all 标志。

调试模式

访问容器进行调试：

docker run -it --entrypoint /bin/bash unclecode/crawl4ai:all

查看容器日志：

docker logs [container_id]

最佳实践 🌟

资源管理
- 设置适当的内存和 CPU 限制
- 通过健康端点监控资源使用情况
- 对于简单爬取任务使用基础版本
扩展
- 对于高负载使用多个容器
- 实施适当的负载均衡
- 监控性能指标
安全性
- 使用环境变量存储敏感数据
- 实施适当的网络隔离
- 定期进行安全更新

API 参考 📚

健康检查

提交爬取任务

POST /crawl
Content-Type: application/json{"urls": "字符串或数组","extraction_config": {"type": "basic|llm|cosine|json_css","params": {}},"priority": 1-10,"ttl": 3600
}

Docker 部署 - Crawl4AI 文档 (v0.5.x)

Docker 部署 - Crawl4AI 文档 (v0.5.x) 快速入门 🚀 拉取并运行基础版本： # 不带安全性的基本运行 docker pull unclecode/crawl4ai:basic docker run -p 11235:11235 unclecode/crawl4ai:basic# 带有 API 安全性启用的运行 docker run -p 11235:1123…...

编程日记 2025/7/24 5:23:26

在C++中，符号位是否参与位运算

在C中，符号位是否参与位运算取决于具体的运算符和数据类型。以下是详细解释： 1. 按位与（&）、按位或（|）、按位异或（^） 规则：这些运算符会处理包括符号位在内的所有二…...

编程日记 2025/7/22 20:18:53

【计算机网络】NAT技术、内网穿透与代理服务器全解析：原理、应用及实践

编程日记 2025/7/20 7:05:01

redis数据结构-08（SINTER、SUNION、SDIFF、SISMEMBER）

集合运算：SINTER、SUNION、SDIFF、SISMEMBER Redis 集合是一种功能强大的数据结构，可用于存储一组唯一元素。本课基于上一课对 Redis 集合的介绍，深入探讨了使 Redis 集合如此多功能的基本集合操作： SINTER 、 SUNION 、 SDIFF 和…...

编程日记 2025/7/20 10:56:38

大模型都有哪些超参数

大模型的超参数是影响其训练效果、性能和泛化能力的关键设置，可分为以下几大类别并结合实际应用进行详细说明：一、训练过程相关超参数学习率（Learning Rate）作用：控制参数更新的步长，直接影响收敛速度和稳定性。过高会导致震荡或过拟合，过低则收敛缓慢。调整策略：初…...

编程日记 2025/7/22 21:51:50

【更新至2023年】1999-2023年上市公司人工智能词频统计数据（年报词频统计）

【更新至2023年】1999-2023年上市公司人工智能词频统计数据（年报词频统计） 1、时间：1999-2023年 2、来源：上市公司年报 3、指标：股票代码、公司简称、年报标题、年份、行业名称、行业代码、全文-文本总长度、仅中英…...

编程日记 2025/7/23 15:59:58

通过 Azure DevOps 探索 Helm 和 Azure AKS

俗话说：“慷慨之人必昌盛；滋润他人者，必得滋润。” 如果您觉得这篇文章对您有有所帮助，请点赞，关注，转发！ 前言在不断发展的云计算世界中，应用程序的无缝部署和管理至关重要。Azu…...

编程日记 2025/7/19 14:57:19

Go语言标识符

文章目录标识符的组成规则Go语言关键字预定义标识符标识符命名惯例特殊标识符标识符访问权限控制在Go语言中，标识符(Identifier)是用来命名变量、函数、类型、常量等程序实体的名称。标识符的组成规则 1、必须以字母或下划线(_)开头： 字母包括Unico…...

编程日记 2025/7/19 20:20:45

Spring Cloud : OpenFeign(远程调用)

RestTemplate虽然比直接用HTTPClient简单的多，但是还是存在着许多的问题，比如url拼接麻烦，容易出错，并且可读性很差 public OrderDetail selectOrderById(Integer orderId){OrderDetail orderDetail orderMapper.selectOrderById…...

编程日记 2025/7/21 4:58:00

JVM内存结构有哪些？HashMap和HashTable的区别？

JVM内存结构 JVM内存主要分为以下几个区域： 程序计数器(Program Counter Register) 线程私有，记录当前线程执行的字节码行号指示器唯一一个不会出现OOM的内存区域 Java虚拟机栈(Java Virtual Machine Stacks) 线程私有，生命周期与线程相…...

编程日记 2025/7/21 1:31:06

三维空间中的组织行为映射：MATLAB 数据插值可视化技术

在组织行为学研究中，如何直观呈现多维变量之间的关系一直是个挑战。今天我们将深入解析一段 MATLAB 代码，看看如何通过数据插值和三维可视化技术，将抽象的组织行为数据转化为直观的三维曲面图，揭示组织自尊 (OBSE)、牺牲性领导 (SSL) 与责任感知 (FO) 之间的复杂关系。 �…...

编程日记 2025/7/20 23:22:19

ImportError: DLL load failed: 找不到指定的程序。

查看其他博客说是缺少libssl-1_1-x64.dll 和 libcrypto-1_1-x64.dll 然后去下载放到博客说的目录下没有用解决不了一点 OpenSSL for Windows 64位完整安装包在这里项目地址: https://gitcode.com/open-source-toolkit/eb627 注意事项此安装包仅适用于64位Windows系…...

编程日记 2025/7/22 17:36:10

计算机的三个根本性基础

1. 计算机是执行输入、运算、输出的机器从硬件上看，计算机是执行输入、运算、输出的机器，计算机的硬件由大量的IC（Integrated Circuit，集成电路）组成。 IC会在其中内部对外部输入的信息进行运算，并把运算…...

编程日记 2025/7/23 12:17:43

C++ Builder XE 使用DevMode设置打印机的自定义纸张，打印方向

代码功能介绍（以备以后查询)：该代码片段展示了如何将TPanel控件的内容作为图像打印出来。首先，代码创建了一个与TPanel大小相同的位图，并通过BitBlt函数将TPanel的内容复制到位图中。接着，代码配置打印机，设…...

编程日记 2025/7/20 8:08:20

QOwnNotes：功能强大的跨平台笔记应用程序

QOwnNotes是一款功能强大的跨平台笔记应用程序，专为追求高效、灵活笔记管理的用户设计。它不仅支持Windows、macOS和Linux等多种操作系统，还提供了丰富的功能，帮助用户轻松管理笔记、任务和清单。无论是日常记录、学习笔记还是工作计划&#…...

编程日记 2025/7/23 19:36:41

深入理解反序列化攻击：原理、示例与利用工具实战

反序列化漏洞是现代 Web 安全中的一个高危攻击类型，常常导致远程代码执行（RCE）、文件读写、身份伪造等严重后果。本文将从基础原理讲起，结合实际代码和工具（PHPGGC、ysoserial）演示反序列化攻击的完整过程。…...

编程日记 2025/7/19 10:34:00

【今日三题】素数回文(模拟) / 活动安排(区间贪心) / 合唱团(动态规划)

⭐️个人主页：小羊 ⭐️所属专栏：每日两三题很荣幸您能阅读我的文章，诚请评论指点，欢迎欢迎 ~ 目录素数回文(模拟)活动安排(区间贪心)合唱团(动态规划) 素数回文(模拟) 素数回文 #include <iostream> #include <st…...

编程日记 2025/7/22 21:37:06

一文了解B+树的删除原理

1. B树的核心特性回顾 B树是一种广泛应用于数据库和文件系统的平衡多路搜索树，其核心特性包括： 阶数（m）：定义每个节点最多拥有的子节点数（或键数）节点容量规则： 根节点&#xff1a…...

编程日记 2025/7/17 22:47:52

Spring Boot项目(Vue3+ElementPlus+Axios+MyBatisPlus+Spring Boot前后端分离)

下载地址： 前端：https://download.csdn.net/download/2401_83418369/90811402 后端：https://download.csdn.net/download/2401_83418369/90811405 一、前端vue部分的搭建这里直接看另一期刊的搭建Vue前端工程部分前端vue后端ssm项目_v…...

编程日记 2025/7/17 21:58:23

26考研——中央处理器_指令流水线_指令流水线的基本概念流水线的基本实现（5）

408答疑文章目录六、指令流水线指令流水线的基本概念流水线的基本实现流水线设计的原则流水线的逻辑结构流水线的时空图表示八、参考资料鲍鱼科技课件26王道考研书六、指令流水线前面介绍的指令都是在单周期处理机中采用串行方法执行的，同一时刻 CPU 中只有一…...

编程日记 2025/7/20 7:20:28

DAY 22 复习日kaggle泰坦里克号人员生还预测

复习日仔细回顾一下之前21天的内容，没跟上进度的同学补一下进度。作业： 自行学习参考如何使用kaggle平台，写下使用注意点，并对下述比赛提交代码 kaggle泰坦里克号人员生还预测输入： import pandas as pd from sklea…...

编程日记 2025/7/23 20:27:04

SpringCloud Gateway知识点整理和全局过滤器实现

predicate(断言)： 判断uri是否符合规则 • 最常用的的就是PathPredicate，以下列子就是只有url中有user前缀的才能被gateway识别，否则它不会进行路由转发 routes:- id: ***# uri: lb://starry-sky-upmsuri: http://localhost:9003/predicate…...

编程日记 2025/7/19 15:22:32

婴幼儿托育实训室师资协同培养模式

随着社会对婴幼儿托育服务需求的日益增长，培养适应市场需求的高素质托育人才成为当务之急。产教融合作为一种有效的人才培养模式，对于婴幼儿托育实训室建设具有重要意义，能够有效整合学校和企业的资源，为婴幼儿托育实训室人才培养…...

编程日记 2025/7/22 13:54:51

Gartner 《2025大数据管理规划指南》学习心得

概要本研究旨在为数据和分析（D&A）技术专业人员提供2025年的数据管理规划指导，帮助他们应对最新数据管理趋势，以增强决策制定并实现卓越的业务成果。强调了持续适应数据管理实践的组织将更有能力做好人工智能（AI&…...

编程日记 2025/7/24 1:51:17

理解反向Shell：隐藏在合法流量中的威胁

引言在网络安全领域，反向Shell（Reverse Shell） 是一种隐蔽且危险的攻击技术，常被渗透测试人员和攻击者用于绕过防火墙限制，获取对目标设备的远程控制权限。与传统的“正向Shell”（攻击者主动连接…...

编程日记 2025/7/20 13:31:47

《AI大模型应知应会100篇》第55篇：大模型本地开发环境搭建

第55篇：大模型本地开发环境搭建 ——从零开始构建你的AI炼金炉 📌 摘要在人工智能尤其是大模型（LLM）领域，一个高效、稳定、可扩展的本地开发环境是每位开发者的第一块基石。本文将手把手带你完成从硬件选型到软件配…...

编程日记 2025/7/23 22:17:14

AI预测3D新模型百十个定位预测+胆码预测+去和尾2025年5月11日第74弹

从今天开始，咱们还是暂时基于旧的模型进行预测，好了，废话不多说，按照老办法，重点8-9码定位，配合三胆下1或下2，杀1-2个和尾，再杀6-8个和值，可以做到100-300注左右。 (1)定…...

编程日记 2025/7/24 1:49:43

Docker：安装配置教程（最新版本）

文章目录一、前言二、具体操作2.1 卸载 Docker (可选)2.2 重新安装（使用清华大学镜像）2.3 配置轩辕镜像加速2.4 Docker 基本命名2.5 测试是否成功三、结语一、前言 Docker 是一种容器化技术，在软件开发和部署中得到广泛的应用&#xff0c…...

编程日记 2025/7/21 1:43:42

数据结构【二叉树的遍历实现】

📘考研数据结构基础：二叉树的存储、遍历与队列辅助实现详在数据结构的学习中，二叉树作为一种结构清晰、应用广泛的树形结构，是考研计算机专业课中重点内容之一。本文将以实际代码为基础，介绍二叉树的存储结构、遍历方…...

编程日记 2025/7/20 5:18:59

稳态电路和瞬态电路

一、概述稳态电路是指电路在长时间运行后达到的一种稳定状态； 瞬态电路是指电路在切换或者初始化节点经历过渡的过程。在电路分析中，稳态和瞬态是动态电路的两个阶段。在电路中，如果有电感或者电容时， 他们的电压和电流不能瞬间…...

编程日记 2025/7/17 21:57:21

目录 1. Spark 的运行架构1.1 Driver1.2 Executor1.3 Cluster Manager1.4 工作流程 2. Spark 的核心组件2.1 Spark Core2.2 Spark SQL2.3 Spark Streaming2.4 MLlib2.5 GraphX 3. Spark 架构图4. Spark 的优势4.1 高性能4.2 易用性4.3 扩展性4.4 容错性 5. 总结 1. Spark 的运行…...

编程日记 2025/7/19 9:32:17

Linux服务器常用运维工具/命令

常用工具/命令 1、查看内存使用 free -m上述命令用于显示系统中内存的使用情况，并将内存使用量以兆字节（MB）为单位显示。这个命令在 Linux 和类 Unix 系统上非常常见，是监视系统内存的一个简单而有用的工具。具体而言&#xf…...

编程日记 2025/7/23 7:40:13

KaiwuDB 2.0：为 AIoT 而生，融合时序、关系与 AI 的未来数据库

目录: 引言：AIoT 数据洪流下的数据库“窘境”KaiwuDB 2.0：为 AIoT “量身定制”的智能数据基座核心利器：多模融合 + 原生 AI，解锁数据新范式不止于云：KaiwuDB Lite 轻装上阵边缘计算硬核实力：AIoT 场景下的显著优势技术基因：融合创新，构筑未来数据架构应用蓝图：深耕 A…...

编程日记 2025/7/19 12:12:17

Python打卡训练营Day22

浙大疏锦行 DAY 22 复习日复习日仔细回顾一下之前21天的内容，没跟上进度的同学补一下进度。作业： 自行学习参考如何使用kaggle平台，写下使用注意点，并对下述比赛提交代码 kaggle 一、Kaggle 核心功能学习参考注册与基础设置…...

编程日记 2025/7/22 0:34:03

Oracle — 内置函数

介绍 Oracle内置函数是数据库中预定义的编程工具，用于简化数据处理与计算逻辑。这些函数分为单行函数和聚合函数两大类。单行函数针对每条数据独立运算，例如LOWER函数转换文本为小写，ROUND实现数值四舍五入，TO_CHAR格式化日期输出…...

编程日记 2025/7/20 22:30:56

Kubernetes基础(三十二)：Worker节点启动全解析

Worker节点是Kubernetes集群的"肌肉"，负责实际运行业务负载。本文将深入剖析Worker节点的完整启动流程，并揭秘生产环境中的关键优化点。一、启动流程全景图二、核心启动阶段详解 1. 系统初始化（0-30秒） 关键任务&a…...

编程日记 2025/7/14 1:21:54

“爱生活”小项目问题总结

目录爱生活小程序 1.用户登录和注册模块遇到的问题 1.1在使用密码加密时，注册新用户，客户端响应401的问题原因： 正确操作： 1.2在设置密码加密后，发送post登录请求，服务器出现报错java.lang.reflect.…...

编程日记 2025/7/23 10:23:24

实战项目5（08）

目录任务场景一【r1配置】【r2配置】【r3配置】任务场景二【r1配置】【r2配置】任务场景一按照下图完成网络拓扑搭建和配置任务要求： 通过在路由器R1、R2和R3上配置静态路由，实现网络中各终端PC能够正常…...

编程日记 2025/7/20 16:21:50

LeetCode 1550.存在连续三个奇数的数组：遍历

【LetMeFly】1550.存在连续三个奇数的数组：遍历力扣题目链接：https://leetcode.cn/problems/three-consecutive-odds/ 给你一个整数数组 arr，请你判断数组中是否存在连续三个元素都是奇数的情况：如果存在，请返回 tr…...

编程日记 2025/7/23 8:48:57

大模型在肾肿瘤诊疗全流程预测及方案制定中的应用研究

目录一、引言 1.1 研究背景与意义 1.2 研究目的 1.3 研究创新点 1.4 研究方法与数据来源二、肾肿瘤概述与大模型技术 2.1 肾肿瘤相关知识 2.1.1 定义、分类及症状 2.1.2 发病机制与影响因素 2.1.3 治疗现状与挑战 2.2 大模型技术原理及医疗应用现状 2.2.1 大模型…...

编程日记 2025/7/14 14:55:10

5月11号.

导入Maven项目: Maven依赖管理: 生命周期: 测试: 断言: Junit常见注解:...

编程日记 2025/7/23 22:34:34

数据库基础概述

一、基础概述 1.数据库 （1）概述数据库就是存储数据的仓库，其本质是一个文件系统，按照特定的格式将数据存储起来，用户可以对数据库中的数据进行增加，修改，删除及查询操作使用数据库可以高效的…...

编程日记 2025/7/20 12:04:25

Hibernate 性能优化：告别慢查询，提升数据库访问性能

Hibernate 性能优化：告别慢查询，提升数据库访问性能 Hibernate 作为一款流行的 ORM 框架，极大地简化了 Java 应用程序与数据库之间的交互，但如果不进行合理优化，性能瓶颈在高并发场景下就会暴露无遗。本文将深入探讨 …...

编程日记 2025/7/22 22:37:10

【JavaWeb+后端常用部件】

回顾内容看： 一、获取请求参数的方法参考：[JavaWeb]——获取请求参数的方式(全面！！！)_java 获取请求参数-CSDN博客 Json格式的Body加备注RequestBody{id}动态路径加备注PathVariableid?&name?直接接收就好 i…...

编程日记 2025/7/19 20:31:46

Playwright 简介

Playwright 简介说明：本教程基于 @playwright/test@1.51.1 版本编写，内容和目录结构与该版本官方推荐保持一致。适合人群与学习路径适合谁？想入门自动化测试的测试工程师需要跨浏览器、移动端自动化的开发者希望提升测试效率、减少维护成本的团队学习建议跟着文档动手实…...

编程日记 2025/7/23 20:36:35

# 2-STM32-复位和时钟控制RCC

STM32-复位和时钟控制RCC 2-STM32-复位和时钟控制RCC摘要说明本文参考资料如下： 一、STM32最小系统回顾STM32F103C8T6核心板原理图二、复位三、时钟3.1 时钟树3.2 STM32启动过程3.2 SystemInit()函数3.2.1 SystemInit()第1句：3.2.2 SystemInit()第2句&a…...

编程日记 2025/7/19 7:41:27

idea中的vcs不见了，如何解决

按如下顺序依次找 filesettingsversion controldirectory mappings点击号vcs 改为Subversion 省流：看如下图...

编程日记 2025/7/19 18:23:22

元数据分类

元数据（Metadata）是描述数据的数据，通常分为业务元数据、技术元数据和操作元数据。这三类元数据从不同维度对数据进行描述和管理，以下是它们的定义、作用和示例： 1. 业务元数据（Business Metadata&#…...

编程日记 2025/7/21 12:41:56

【C语言】(9)—指针3

文章目录一、字符指针的深入理解二、数组指针详解三、二维数组传参的本质四、函数指针及其应用五、函数指针数组与转移表一、字符指针的深入理解 1.1 字符指针的基本使用字符指针(char*)是指向字符类型数据的指针，它有两种常见的使用方式： // 方式一…...

编程日记 2025/7/23 16:47:19

拍电影为什么常用绿幕?认识色度键控（Chroma Key）技术

许多电影拍摄使用绿幕技术，其核心原因在于它通过色度键控（Chroma Key）技术实现背景替换，从而为创作提供高度灵活性、成本效益和视觉效果的可控性。以下从技术原理、应用场景、优势及与其他技术的对比等方面展开分析：一、绿幕技术的基本原理绿幕技术的核心是色度键控（C…...

编程日记 2025/7/19 13:41:29

Docker 部署 - Crawl4AI 文档 (v0.5.x)

快速入门 🚀

使用 Docker Compose 运行 🐳

从本地 Dockerfile 或 Docker Hub 使用 Docker Compose

选项 1：使用 Docker Compose 本地构建

选项 2：使用 Docker Compose 从 Hub 获取预构建镜像

停止正在运行的服务

使用 Docker Compose 调试

为什么使用 Docker Compose？

API 安全性 🔒

了解 CRAWL4AI_API_TOKEN

进行 API 调用

与 Docker Compose 一起使用

配置选项 🔧

环境变量

使用 Docker Compose（推荐） 🐳

测试部署 🧪

使用示例 📝

基本爬取

处理动态内容

平台特定指令 💻

macOS

Ubuntu

Windows（PowerShell）

测试 🧪

高级配置 ⚙️

爬虫参数

完整示例

参数参考表

故障排除 🔍

常见问题

调试模式

最佳实践 🌟

API 参考 📚

健康检查

提交爬取任务

相关文章：