当前位置: 首页 > news >正文

AI Compass前沿速览:GPT-5-Codex 、宇树科技世界模型、InfiniteTalk美团数字人、ROMA多智能体框架、混元3D 3.0

AI Compass前沿速览:GPT-5-Codex 、宇树科技世界模型、InfiniteTalk美团数字人、ROMA多智能体框架、混元3D 3.0

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

  • github地址:AI-Compass👈:https://github.com/tingaicompass/AI-Compass
  • gitee地址:AI-Compass👈:https://gitee.com/tingaicompass/ai-compass

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

1.每周大新闻

混元3D 3.0 – 腾讯混元3D生成模型

腾讯混元3D 3.0是腾讯公司最新发布的一款先进的3D生成模型,旨在高效生成高质量、高分辨率的3D内容。

3d.png

核心功能

  • 超高清3D几何结构生成:能够生成细节丰富、精细度极高的3D几何结构。
  • 高精度建模:相较于现有技术,其建模精度提升了3倍。
  • 高分辨率输出:支持高达1536³的几何分辨率,确保输出内容的视觉质量。

技术原理

该模型采用了首创的3D-DiT分级雕刻技术(3D Diffusion Transformer),通过分层处理和精细化雕刻,实现了对3D几何结构的高精度生成和细节表达,克服了传统3D生成模型在分辨率和精细度上的局限。

应用场景

  • 游戏与虚拟现实:用于快速生成游戏资产、VR/AR场景中的3D模型。
  • 影视动画制作:提升动画角色、场景和道具的制作效率与质量。
  • 工业设计与产品原型:辅助设计师进行产品概念验证和原型建模。
  • 元宇宙内容创建:为元宇宙平台提供高保真的3D数字资产生成能力。

FunAudio-ASR – 阿里达摩院

FunAudio-ASR 是由阿里巴巴达摩院推出的端到端语音识别大模型,旨在解决语音大模型在企业落地过程中遇到的关键问题。

核心功能

该模型的核心功能在于通过创新的Context增强模块,有效优化了语音识别中常见的“幻觉”(hallucination)和“串语种”(cross-language interference)等问题,从而提升了识别的准确性和稳定性。

技术原理

FunAudio-ASR 的技术原理核心在于其Context增强模块。此模块通过引入和利用上下文信息,对语音识别过程中的模型预测进行校正和优化。具体而言,它能够帮助模型在识别过程中更好地理解语境,从而减少不相关的词语或句子生成(幻觉),并降低在多语言场景下语言混合识别的错误率(串语种)。这使得模型在处理复杂、多变的真实企业应用场景时,能够提供更精准、鲁棒的语音识别服务。

应用场景

FunAudio-ASR 主要应用于企业级场景,解决语音识别在实际业务中的“最后一公里”问题。具体包括但不限于:

  • 智能客服:提高语音交互的准确性,减少客服回复错误。
  • 会议记录:准确识别会议发言,生成高质量的会议纪要。
  • 内容审核:对音视频内容进行自动语音转写,辅助内容合规性审查。
  • 智能家居/车载系统:提供更自然的语音控制和交互体验,减少误识别。
  • 多语种通信:在需要处理多种语言的场景下,有效避免语种混淆问题。

GPT-5-Codex – OpenAI推出的Agent编程优化模型

GPT-5-Codex 是OpenAI基于GPT-5模型进行深度优化的AI模型,专门针对软件工程任务和Agentic编程工作流设计。它旨在提升开发者在代码相关任务中的效率和准确性,提供更强大的AI辅助编程能力。

gpt-5.png

核心功能

  • Agentic编程优化: 针对自主化、长时间的编码任务进行优化,深入集成到开发者工作流中。
  • 代码生成与补全: 能够从零开始搭建项目,或在现有代码库中进行功能添加。
  • 代码重构与调试: 支持代码结构优化、错误诊断及修复。
  • 代码审查与测试: 具备代码审查能力,能发现关键缺陷并协助编写测试。
  • 多环境支持: 可在Codex工具、GitHub、云环境和ChatGPT等多种开发环境中使用。

技术原理

GPT-5-Codex 是在基础模型GPT-5之上,通过对大量代码数据和软件工程任务的特化训练进一步强化而成。其核心在于将大型语言模型的能力与Agentic范式结合,使其不仅能理解和生成代码,还能以更自主和高效的方式执行复杂的、端到端的编程任务。它通过优化长任务处理、自主工作能力以及与命令行接口(CLI)、集成开发环境(IDE)和云服务的深度集成,显著提升了在速度、质量和效率方面的表现。

  • 项目官网:https://openai.com/index/introducing-upgrades-to-codex/

Grok 4 Fast – xAI推出的快速版AI模型

Grok 是由 xAI 公司开发的一款人工智能助手,旨在最大化真理和客观性。它能够理解和生成类似人类语言的文本,并提供实时、准确的帮助。Grok 4 是其最新版本,目前已面向公众提供服务,包括免费试用版本,致力于成为触手可及的AI工具。

核心功能

Grok 的核心功能包括:

  • 实时搜索与信息获取: 能够进行实时的网络搜索,获取最新信息。
  • 图像生成: 具备根据文本描述生成图像的能力。
  • 趋势分析: 提供对当前趋势的洞察和分析。
  • 对话式AI助理: 作为聊天机器人,与用户进行自然语言交互,回答问题。
  • API接入: 提供API接口,便于开发者将其集成到各类应用中。

技术原理

Grok 基于先进的大型语言模型 (LLM) 架构,通过深度学习技术进行训练。其核心在于强大的自然语言处理 (NLP) 能力,使其能够理解复杂的查询、生成连贯且有逻辑的文本响应。模型通过海量数据训练,掌握语言模式、事实知识和推理能力。强调“实时”特性暗示其可能结合了实时数据流处理知识图谱增强技术,以确保提供最新和最准确的信息。图像生成功能则可能依赖于扩散模型 (Diffusion Models) 或其他生成对抗网络 (GAN) 架构。

2.每周项目推荐

UnifoLM-WMA-0 – 宇树科技世界模型行动框架

UnifoLM-WMA-0是宇树科技开源的世界模型-动作(World-Model-Action, WMA)架构,旨在实现通用机器人学习,适用于多类机器人本体。其核心在于构建一个能够理解机器人与环境之间物理交互规律的世界模型,并具备交互式仿真引擎和策略增强两大功能,以优化机器人的决策性能并提供合成数据进行学习。该架构已在真实机器人上部署,能够实现动作的可控生成和长期交互生成,显著提升机器人在复杂环境中的学习与决策能力。

宇树.png

核心功能

  • 动作可控生成: 根据当前图像和预期的机器人未来动作,生成交互可控的视频,辅助机器人进行行为预测与规划。
  • 长期交互生成: 能够支持长时序任务的持续交互生成,适用于需要复杂序列操作的场景。
  • 策略增强: 通过预测机器人与环境的未来交互过程,进一步优化决策策略,提升机器人在复杂环境中的适应性和性能。
  • 仿真引擎: 作为交互式模拟器运行,生成大量合成数据,用于机器人模型的学习和训练,提高模型的泛化能力。

宇树2.png

技术原理

  • 世界模型(World Model): 利用传感器(如摄像头)获取环境状态和历史交互数据,通过深度学习模型(如Transformer或LSTM)预测未来的环境状态。该模型帮助机器人理解物理交互,并为决策模块提供前瞻性的环境信息,以制定更合理的动作规划。
  • 决策模块(Decision Module): 基于世界模型提供的预测信息,生成最优的决策策略。将这些策略转化为具体的机器人动作指令,确保机器人能够高效、准确地完成任务。
  • 仿真引擎(Simulation Engine): 运用先进的仿真技术,生成高保真的合成数据,用于世界模型和决策模块的训练。它提供丰富的环境反馈,使机器人能够更好地学习和适应真实世界。
  • 微调视频生成模型(Fine-tuned Video Generation Model): 在特定机器人作业数据集(如Open-X)上进行微调,使其能够根据指令生成与未来动作对应的视频。模型能够结合当前视觉输入和未来动作指令,生成可控的交互视频,从而协助机器人进行动作预测与规划。

应用场景

  • 智能制造: 协助机器人预测设备状态,优化生产流程,提高工厂的自动化水平和生产效率。

  • 货物搬运: 在物流仓储环境中,机器人能够预测其他机器人位置、货物动态等环境变化,优化路径规划和搬运策略。

  • 库存管理: 通过长期交互生成能力,机器人可更高效地管理库存,优化补货和存储策略。

  • 酒店服务: 服务型机器人可在酒店环境中提供如送餐、清洁等服务,优化服务流程,提升客户体验。

  • 家庭服务: 机器人能够执行家务劳动,如打扫、烹饪等,提供个性化的家庭辅助服务。

  • 项目官网:https://unigen-x.github.io/unifolm-world-model-action.github.io/

  • GitHub仓库:https://github.com/unitreerobotics/unifolm-world-model-action

InfiniteTalk – 美团开数字人视频

InfiniteTalk是美团视觉智能部推出的一种新型数字人驱动技术,旨在通过稀疏帧视频配音范式生成自然流畅的数字人视频。它解决了传统技术中口型、头部动作、身体姿态和面部表情与音频同步的难题,并支持生成无限长度的视频。

InfiniteTalk.png

核心功能

  • 音频驱动视频生成: 根据输入的音频和视频(或静态图像),生成同步的数字人视频。
  • 精确唇形同步: 实现人物口型与音频内容的精确匹配。
  • 一致性身份保持: 在生成视频过程中,保持数字人的身份特征、背景和摄像机运动的连贯性。
  • 表情与姿态对齐: 自动调整头部动作、身体姿态和面部表情以符合音频情绪和内容。
  • 稀疏帧视频配音: 仅需少量关键帧即可驱动数字人生成视频,提高了效率。
  • 无限长度视频生成: 支持生成不受时长限制的数字人视频内容。
  • 图像-音频到视频生成: 可将静态图像和音频作为输入,生成会说话的数字人视频。

infinite.png

infinite2.png

技术原理

InfiniteTalk基于“稀疏帧视频配音范式”(Sparse-Frame Video Dubbing) 实现。它通过深度学习模型分析输入音频和视频(或图像),提取语音特征、面部关键点、头部姿态和身体骨骼信息。相较于传统仅关注唇部同步的方法,InfiniteTalk更进一步,通过复杂的神经网络架构(可能涉及Transformer、扩散模型等),将音频信息映射到面部表情、头部运动和身体姿态上,实现多模态的同步生成。其核心在于保持角色身份、背景和摄像机运动的稳定性的同时,生成与新音频精确匹配的动态视频内容。

应用场景

  • 虚拟主播/数字人直播: 创建长时间、高逼真度的虚拟主播进行新闻播报、产品介绍或娱乐直播。

  • 视频内容本地化: 对现有视频进行多语言配音时,自动生成与新语言同步的口型和表情。

  • 教育培训: 制作交互式教学视频,由数字讲师进行课程讲解。

  • 营销宣传: 生成个性化的广告和宣传视频,提升用户参与度。

  • 影视后期制作: 辅助电影、电视剧中的角色配音和表情重塑。

  • 虚拟客服: 部署数字人客服,提供更自然、富有表现力的服务体验。

  • 个人内容创作: 帮助个人创作者快速生成高质量的口播视频。

  • 项目官网:https://meigen-ai.github.io/InfiniteTalk/

  • GitHub仓库:https://github.com/MeiGen-AI/InfiniteTalk

  • HuggingFace模型库:https://huggingface.co/MeiGen-AI/InfiniteTalk

  • arXiv技术论文:https://arxiv.org/pdf/2508.14033

Lumina-DiMOO – 上海AI Lab

Lumina-DiMOO 是由上海人工智能实验室等机构开源的新一代多模态生成与理解模型。它作为一个全能基础模型(omni foundational model),旨在实现无缝的多模态生成与理解,能够统一处理文本、图像等多种模态数据。

AI lab-teaser.png

核心功能

  • 多模态生成: 支持文本到图像的生成,并具备处理多种模态数据的能力。
  • 多模态理解: 能够对不同模态的信息进行综合理解和分析。
  • 开源开放: 作为开源模型,便于研究者和开发者进行安装、使用及进一步开发。

技术原理

Lumina-DiMOO 采用全离散扩散架构 (discrete diffusion architecture)。这种架构允许模型统一处理不同类型的数据模态(如文本、图像),通过离散化的方式实现高效且高质量的生成与理解。其作为全能基础模型 (omni foundational model),意味着它旨在构建一个能够处理并整合多种数据流的统一框架,从而实现更广泛、更复杂的智能任务。

应用场景

  • 内容创作: 通过文本生成图像,应用于艺术设计、广告创意、虚拟场景构建等领域。

  • 多模态AI研究: 为学术界和工业界提供一个开放平台,推动多模态学习、生成与理解技术的发展和实验。

  • 跨模态交互系统: 构建能够理解并响应多种输入(如文字描述、图像信息)的智能系统。

  • 项目官网:https://synbol.github.io/Lumina-DiMOO/

  • GitHub仓库:https://github.com/Alpha-VLLM/Lumina-DiMOO

  • HuggingFace模型库:https://huggingface.co/Alpha-VLLM/Lumina-DiMOO

xiaohongshu-mcp

Xiaohongshu MCP(Model Context Protocol)是一个旨在实现与小红书(Xiaohongshu.com)平台自动化交互的服务器。它作为小红书社交媒体平台与会话式接口之间的桥梁,支持人工智能客户端和其他外部应用,通过标准化的协议便捷地访问和管理小红书内容。

核心功能

  • 内容搜索与检索: 能够智能搜索并获取小红书平台上的笔记、内容。
  • 用户信息访问: 提供对用户相关信息的访问能力。
  • 评论管理: 支持对小红书评论进行管理和操作。
  • 自动化交互: 促进AI客户端等实现与小红书平台的自动化内容及信息流交互。
  • API交互: 通过认证的API接口实现上述各项功能。

技术原理

该系统基于模型上下文协议(Model Context Protocol, MCP)构建,这是一个开放协议,旨在实现大型语言模型(LLM)应用与外部数据源及工具之间的无缝集成。Xiaohongshu MCP作为具体的MCP服务器实现,通过提供结构化的接口,将小红书平台的数据和功能抽象化,使其可被遵循MCP协议的客户端(如AI应用)调用。其后端主要采用 Go语言 进行开发,确保了服务的性能和稳定性。

应用场景

  • AI客户端集成: 供AI客户端或大型语言模型应用,实现对小红书内容的智能分析、聚合或生成。

  • 会话式接口: 为聊天机器人、虚拟助手等提供小红书内容查询和管理能力,增强用户交互体验。

  • 数据分析与研究: 开发者和研究人员可以利用其获取小红书数据进行市场趋势分析、用户行为研究等。

  • 自动化营销: 用于自动化发布、管理小红书内容,或进行用户互动,提升运营效率。

  • 第三方应用开发: 为希望集成小红书功能到自身应用中的开发者提供便捷的API接口。

  • Github仓库:https://github.com/xpzouying/xiaohongshu-mcp

ROMA – Sentient AGI开源的多智能体框架

ROMA(Recursive Open Meta-Agent)是由Sentient AGI团队开源的多智能体系统框架。它通过递归分层的结构,将复杂的任务分解为可并行执行的子任务,并协调各种智能体和工具来高效解决这些任务,同时保持过程的透明性和可追溯性。

seal-0-full.001.jpeg

核心功能

  • 递归任务拆解: 自动将复杂任务分解为层级化的子任务,并支持并行执行以加速处理。
  • 多模态支持与工具集成: 能够处理文本、图像、代码等多种数据类型,并通过MCP协议和API集成外部工具及模型。
  • 内置专业智能体: 预置通用任务解决器、深度研究Agent、金融分析Agent等,以应对多样化需求。
  • 透明调试与可扩展性: 执行过程清晰可见,便于调试优化,且模块化设计支持在任意节点插入新的Agent、工具或模型。

ROMA – Sentient AGI.png

ROMA – Sentient AGI-2.png

技术原理

ROMA的核心在于其递归层次结构。任务被表示为树状节点,父节点将复杂任务原子化(Atomizer)后,通过规划器(Planner)拆解并递归分配给子节点。执行器(Executor)负责执行原子任务(可调用LLM、API或其他Agent),而聚合器(Aggregator)则将子任务结果自底向上整合回父节点。这种上下文流管理确保了信息的清晰传递和任务的连贯性,实现了复杂推理任务的并行化处理。

应用场景

  • 研究与分析: 进行深度学术研究、市场分析,自动整合多源信息生成报告。
  • 金融决策: 实时监控金融市场,集成多数据源生成投资分析报告。
  • 项目管理: 自动化项目任务拆解、分配和进度跟踪,提升项目管理效率。
  • 企业自动化: 构建多Agent工作流,实现企业内部流程的自动化和运营效率提升。
  • 教育辅助: 帮助学生通过自然语言创建研究Agent,自动收集和整合信息以生成研究报告。#### 简介
    ROMA(Recursive Open Meta-Agent)是由Sentient AGI团队开源的多智能体系统框架。它通过递归分层的结构,将复杂的任务分解为可并行执行的子任务,并协调各种智能体和工具来高效解决这些任务,同时保持过程的透明性和可追溯性。

核心功能

  • 递归任务拆解: 自动将复杂任务分解为层级化的子任务,并支持并行执行以加速处理。
  • 多模态支持与工具集成: 能够处理文本、图像、代码等多种数据类型,并通过MCP协议和API集成外部工具及模型。
  • 内置专业智能体: 预置通用任务解决器、深度研究Agent、金融分析Agent等,以应对多样化需求。
  • 透明调试与可扩展性: 执行过程清晰可见,便于调试优化,且模块化设计支持在任意节点插入新的Agent、工具或模型。

技术原理

ROMA的核心在于其递归层次结构。任务被表示为树状节点,父节点将复杂任务原子化(Atomizer)后,通过规划器(Planner)拆解并递归分配给子节点。执行器(Executor)负责执行原子任务(可调用LLM、API或其他Agent),而聚合器(Aggregator)则将子任务结果自底向上整合回父节点。这种上下文流管理确保了信息的清晰传递和任务的连贯性,实现了复杂推理任务的并行化处理。

应用场景

  • 研究与分析: 进行深度学术研究、市场分析,自动整合多源信息生成报告。

  • 金融决策: 实时监控金融市场,集成多数据源生成投资分析报告。

  • 项目管理: 自动化项目任务拆解、分配和进度跟踪,提升项目管理效率。

  • 企业自动化: 构建多Agent工作流,实现企业内部流程的自动化和运营效率提升。

  • 教育辅助: 帮助学生通过自然语言创建研究Agent,自动收集和整合信息以生成研究报告。

  • 项目官网:https://blog.sentient.xyz/posts/recursive-open-meta-agent

  • GitHub仓库:https://github.com/sentient-agi/ROMA

Mini-o3 – 字节联合港大推出的视觉推理模型

Mini-o3是由字节跳动和香港大学联合推出的开源模型,专注于解决复杂的视觉搜索问题。它具备强大的“图像思考”能力,能够生成类似于OpenAI o3的多轮代理式轨迹,旨在通过扩展推理模式和交互轮次来增强视觉-语言模型(VLMs)在处理挑战性视觉任务时的性能。

mini-o3-teaser.png

核心功能

  • 复杂视觉搜索: 精准处理需要深度视觉理解和多步骤分析的搜索任务。
  • 深度多轮推理: 能够执行复杂且连续的推理过程,而非简单的单步识别。
  • 代理式轨迹生成: 模拟智能代理的决策路径,生成一系列连贯的动作或思考步骤来解决问题。
  • 图像工具集成: 利用基于图像的工具来辅助和增强视觉信息的处理与分析。

mini-o3-demo.png

技术原理

Mini-o3的技术核心在于其对视觉-语言模型(VLMs)的强化,通过强化学习(Reinforcement Learning)机制进行训练,使其能够学习并优化多轮推理模式。模型集成并运用基于图像的工具来分解和解决复杂的视觉问题。其关键创新在于“扩展推理模式和交互轮次”,这意味着它能够处理更长的推理链条和更复杂的交互序列,从而生成高效且类似于人类思考的代理式轨迹(Agentic Trajectories),以应对高级视觉任务的需求。

应用场景

  • 高级视觉搜索与识别: 在海量图像或视频数据中进行复杂且多条件的搜索。

  • 智能视觉问答: 处理涉及多步观察和推理的视觉相关问题。

  • 机器人视觉与操作: 赋予机器人理解复杂视觉场景并执行多步操作的能力。

  • 自动化内容理解与分析: 对图像和视频内容进行深入的语义理解和结构化分析。

  • 项目官网:https://mini-o3.github.io/

  • GitHub仓库:https://github.com/Mini-o3/Mini-o3

  • HuggingFace模型库:https://huggingface.co/Mini-o3/models

  • arXiv技术论文:https://arxiv.org/pdf/2509.07969

LLaSO – 逻辑智能开语音模型

LLaSO(Large Language and Speech Model)是一个由北京深度逻辑智能科技有限公司、智谱AI和清华大学共同推出的全球首个完全开源的大型语音语言模型。它旨在解决大型语音语言模型(LSLM)领域长期存在的挑战,并支持中英文的端到端语音聊天机器人功能。

核心功能

  • 端到端语音对话: 提供从语音输入到语音输出的完整对话能力。
  • 多语言支持: 支持中文和英文的语音及文本处理。
  • 开源框架: 开放代码、数据集(LLaSO-Align, LLaSO-Instruct, LLaSO-Eval)和预训练模型,促进可复现研究。
  • 数据集与模型提供: 包含用于对齐、指令遵循和评估的专用数据集以及可用的预训练模型。

技术原理

LLaSO模型结合了大型语言模型(如Glm-4-9B-Base)与语音处理技术,构建了一个统一的语音语言模型架构。其技术实现涉及:

  1. 语音识别(ASR)与语音合成(TTS)集成: 实现端到端的语音输入理解和语音输出生成。
  2. 大语言模型(LLM)能力: 继承并利用如Glm-4-9B-Base等基座模型的强大语义理解、推理和生成能力。
  3. 多模态对齐: 通过专门的LLaSO-Align数据集进行训练,确保语音和语言模态之间的有效融合与对齐。
  4. 指令微调: 利用LLaSO-Instruct数据集对模型进行指令遵循训练,提升其在对话任务中的表现。
  5. 评估机制: 采用LLaSO-Eval进行系统性评估,确保模型在各项指标上的性能和鲁棒性。

应用场景

  • 智能语音助手: 作为智能设备、智能家居和车载系统的核心语音交互引擎。

  • 多语言客服系统: 支持中英文客户的语音咨询、问题解答和自动化服务。

  • 教育辅助工具: 提供语音学习、语言练习和发音纠正等功能。

  • 无障碍交流: 帮助有语言障碍的用户进行更便捷的交流。

  • 研究与开发: 为大型语音语言模型领域的研究人员提供可复现的框架、代码和数据集,加速技术创新。

  • GitHub仓库:https://github.com/EIT-NLP/LLaSO

  • HuggingFace模型库:https://huggingface.co/papers/2508.15418

  • arXiv技术论文:https://arxiv.org/pdf/2508.15418v1

3. AI-Compass

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

  • github地址:AI-Compass👈:https://github.com/tingaicompass/AI-Compass
  • gitee地址:AI-Compass👈:https://gitee.com/tingaicompass/ai-compass

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

📋 核心模块架构:

  • 🧠 基础知识模块:涵盖AI导航工具、Prompt工程、LLM测评、语言模型、多模态模型等核心理论基础
  • ⚙️ 技术框架模块:包含Embedding模型、训练框架、推理部署、评估框架、RLHF等技术栈
  • 🚀 应用实践模块:聚焦RAG+workflow、Agent、GraphRAG、MCP+A2A等前沿应用架构
  • 🛠️ 产品与工具模块:整合AI应用、AI产品、竞赛资源等实战内容
  • 🏢 企业开源模块:汇集华为、腾讯、阿里、百度飞桨、Datawhale等企业级开源资源
  • 🌐 社区与平台模块:提供学习平台、技术文章、社区论坛等生态资源

📚 适用人群:

  • AI初学者:提供系统化的学习路径和基础知识体系,快速建立AI技术认知框架
  • 技术开发者:深度技术资源和工程实践指南,提升AI项目开发和部署能力
  • 产品经理:AI产品设计方法论和市场案例分析,掌握AI产品化策略
  • 研究人员:前沿技术趋势和学术资源,拓展AI应用研究边界
  • 企业团队:完整的AI技术选型和落地方案,加速企业AI转型进程
  • 求职者:全面的面试准备资源和项目实战经验,提升AI领域竞争力

相关文章:

AI Compass前沿速览:GPT-5-Codex 、宇树科技世界模型、InfiniteTalk美团数字人、ROMA多智能体框架、混元3D 3.0

AI Compass前沿速览:GPT-5-Codex 、宇树科技世界模型、InfiniteTalk美团数字人、ROMA多智能体框架、混元3D 3.0AI Compass前沿速览:GPT-5-Codex 、宇树科技世界模型、InfiniteTalk美团数字人、ROMA多智能体框架、混元3D 3.0 AI-Compass 致力于构建最全面、最实用、最前沿的AI…...

C++中set与map的自定义排序方法详解

在C++标准模板库(STL)中,set和map是两种常用的关联容器,它们默认按照键的升序进行排序。但在实际开发中,我们经常需要根据特定需求对元素进行自定义排序。本文将详细介绍如何为set和map实现自定义排序。 默认排序行为 在深入了解自定义排序之前,我们先看一下set和map的默认…...

id

卷姬神经瓦特 2025.09.16本文来自博客园,作者:transformert,转载请注明原文链接:https://www.cnblogs.com/ac-network/p/19095883...

【汇总】Qt常用模块头文件

一、变量、命令、参数排序 项目.pro文件 模块导入 include 文件 中文说明 备注、示例ABCDEFGHIJKLM#include <QMessageBox> 信息提示窗口QMessageBox::about(this, "关于",“关于说明”);NOPQRSQT += serialport #include <QSerialPort> 串口控制类#inc…...

Advanced Algorithm —— Hashing and Sketching

Birthday Problem \(m\) 个人,\(n\) 天,没有两个人生日相同的概率为: \[\displaystyle{ \begin{align*} \Pr[\mathcal{E}]=\left(1-\frac{1}{n}\right)\cdot \left(1-\frac{2}{n}\right)\cdots \left(1-\frac{m-1}{n}\right) &= \prod_{k=1}^{m-1}\left(1-\frac{k}{n}\r…...

CF2136 Codeforces Round 1046 (Div. 2) 补题

题目标签B笛卡尔树的应用C有思维难度的 dp / 递推D交互题 利用曼哈顿距离反过来解坐标:二元线性方程组 考虑“问最值/极限情况”E二分图,边双连通分量 两条路径 -> 环 异或运算的性质 (见题解)题解:E. By the Assignment观察1:对于本题,每个边双连通分量内部的点权可…...

【IEEE出版、EI检索稳定】第四届云计算、大数据应用与软件工程国际学术会议(CBASE 2025)

第四届云计算、大数据应用与软件工程国际学术会议(CBASE 2025) 2025 4th International Conference on Cloud Computing, Big Data Application and Software Engineering 在这里看会议官网详情 2025年10月24-26日丨中国-成都(线上同步举办) 截稿日期:看官网 检索类型:IE…...

缺省源

自用,你不见得会用。 快读:点击查看代码 #define getc() getchar_unlocked() #define putc(a) putchar_unlocked(a) #define en_ putc(\n) #define e_ putc( )template<class T> inline T in() { T n = 0; char p = getc();while (p < -) p = getc();bool f = p == …...

97. 交错字符串

题目链接:97. 交错字符串 - 力扣(LeetCode)‘解析:二维dp dp[i][j]代表s1前i个和s2前j个是否能组成s3的i+j个 状态转移方程就很简单了, 但这一题要求空间限制,可以观察到dp其实只记录一维就可以,因为用到了i-1或者j-1class Solution { public:bool isInterleave(string …...

MODint(自动取模)

主要来自here,我就只是补充了点东西,修改了一点东西,改了点 re 判断。 建议和我的快读一同使用,兼容的。 in,out兼容,不过建议in(a.val),快一些。同理,建议out(a.val) 不行的话也有流输入输出的兼容。 除法是 \(O(\log mod)\) 的,嫌慢可以自行修改 inv() 函数内容。 t…...

BFD实验

动态bfd+OSPF: bfd q ospf 1 bfd all-interfaces enable net .... net .......

2025.9.16——卷1阅读程序1、2

阅读程序2 vector容量与大小 容量表示在不申请内存的情况下vector还可以添加多少元素,通常超过限制之后容量会增加>=1,具体看算法实现 大小表示vector中有多少元素 .assign(n,val) 将vector的内容替换为n个val值的元素...

25/9/15(补)

来的比较晚,把ABC题改了,随机跳了一道贪心+数学题,学习了一下题解思路。然后做了下2020csps单选,错了2道。不知道今年没有小学生s分数线会不会巨高,后面几天就练练第一轮。...

[Paper Reading] DINOv3

目录DINOv3TL;DRMethodDataArchitectureLearning ObjectiveGram Anchoring ObjectiveLeveraging Higher-Resolution Featurespost-hoc strategiesExperiment相关链接 DINOv3 link 时间:25.08 单位:Meta 相关领域:Self Supervised Learning 作者相关工作: 被引次数:7 项目主…...

25/9/16

作业比较多,来的时候就剩25分钟了,于是补了一下博客,复习了一下之前写的题。然后又研究了一下昨天的P11205(贪心+数学),稍微参悟到了一些。...

JavaDay5

增强for循环 Java增强for循环语法格式如下: for(声明语句:表达式) {//代码句子 }声明语句:声明新的局部变量,该变量的类型必须和数组元素的类型匹配。其作用域限定在环语句块,其值与此时数组元素的值相等。 表达式:表达式是要访问的数组名,或者是返回值为数组的方法 packag…...

揭秘Mobile Me数据挖掘:从WebDAV探测到隐藏文件发现

本文详细分析了Mobile Me服务的公开文件访问机制,通过WebDAV协议和XML解析技术实现目录遍历,发现用户代理字符串影响隐藏文件显示,并开发了自动化探测工具Me Finder进行数据收集。我最近发布了Bucket Finder脚本,Darren在Hak5节目中进行了专题报道。有反馈指出Mobile Me采用…...

25/9/14(补)

下午: 随机跳题做了p2926 就是一个每个数字为a[i]的环,对于每个a[i]统计a[i]是aj的因数的a[j]个数。 做法:首先是否是环对答案无影响,因为每个数都要走一遍,所以开一个桶b,记录每个数字的出现次数,外层1-1000000枚举i,判断b[i]是否有值,如果有内层1-1000000/i枚举判断b…...

【IEEE出版、往届会后4个月EI检索】第二届计算机视觉、图像处理与计算摄影国际学术会议(CVIP 2025)

第二届计算机视觉、图像处理与计算摄影国际学术会议(CVIP 2025) 2025 2nd International Conference on Computer Vision, Image Processing and Computational Photography *IEEE出版 | 往届会后4个月EI检索,非常稳定!收录范围广 重要信息 在这里看会议官网详情 时间地点:…...

VSCode + Python 开发踩坑:虚拟环境不在项目根目录导致包无法识别该怎么办

最近在学习Dify ,尝试自己使用源码启动项目并进行二次开发。 我按照Dify的官方文档说明使用uv在项目的api目录下安装了Python虚拟环境,但是在VSCode右下角的Python解释器选择中却无法像conda管理的虚拟环境一样直接找到并选中,需要手动选择解释器存在,而且我在手动设置之后…...

洛谷 P10936 导弹防御塔 题解

题目描述请移步 https://www.luogu.com.cn/problem/P10936题目简述有n个防御塔,每个防御塔都有充足的导弹 导弹需要一定时间发出,又需要一定时间冷却 导弹有确定的速度,发出后会沿最短路径攻击任意一个入侵者 有m个入侵者,给定防御塔和入侵者的坐标,求至少多久才能击退所有…...

Python爬虫实战:研究Pandas,构建地理信息资料采集和分析便捷的系统

Python爬虫实战:研究Pandas,构建地理信息资料采集和分析便捷的系统pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier Ne…...

初赛复习

重要知识点 存储单位卡特兰数 以下是一些卡特兰数 \(C_n\) 的应用:二叉树计数\(n\) 个结点的不同形态的二叉树的数量是卡特兰数 \(C_n\)。括号匹配\(n\) 对括号的有效组合数。栈操作序列(出栈顺序)\(n\) 个元素的出栈顺序数。凸多边形的三角划分\(n + 2\) 条边的凸多边形划分…...

用户帐户控制(UAC)

您拥有标准用户的用户名和密码。可在 中查看lusrmgr.msc 。...

fg/bg/jobs/kill命令--linux

[转载](https://www.cnblogs.com/machangwei-8/p/10391440.html) 目录一、命令详解二、进程的终止三、进程的挂起(暂停) 基础命令学习目录首页原文链接:http://www.cnblogs.com/chjbbs/p/6307333.html linux提供的fg和bg命令,可以让我们轻松调度正在运行的任务假如你发现…...

【OC】单例模式 - 教程

【OC】单例模式 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", monospace !important; font-size: 1…...

ios电脑系统和windows系统

iOS电脑系统与Windows系统的对比与选择指南 一、引言 随着科技的快速发展,个人计算机已经成为了我们日常生活中不可或缺的一部分。操作系统作为连接硬件与应用程序之间的桥梁,其重要性不言而喻。在众多操作系统中,iOS(实际上,这里应当指的是macOS,因为iOS是苹果公司为移动…...

HCIP-VRRP

...

JSON Schema 校验是什么?面试时怎么说?

JSON Schema 校验,其实就是 对接口返回的数据结构做自动化校验,确保它符合预期格式。 比如下单接口返回的数据是这样的: { "orderId": 12345, "status": "paid", "amount": 58.5, "items": [ { "productId": 1…...

【征文启动】IvorySQL PostgreSQL 迁移实战经验征集:分享你的技术沉淀,赢取专属好礼!

在数据库技术选型与迭代的浪潮中,迁移始终是企业与开发者绕不开的核心课题——从旧数据库升级到 PostgreSQL 社区版,从其他数据库(Oracle)迁移至 IvorySQL/PostgreSQL,每一步都藏着技术决策的智慧与实战踩坑的经验。 为汇聚更多迁移场景下的实战方案,助力开发者少走弯路,…...

MCP的天气预报的使用

`{{ formatTime(message.timestamp) }}<!-- 输入区域 --><div class="input-area"><el-input v-model="inputMessage" placeholder="请输入您的问题..."@keydown.enter.exact.prevent="sendMessage" /><el-butto…...

6款超好用的AI换脸软件,一键视频直播换脸(附下载链接)

随着AIGC的火爆,AI换脸技术也被广泛应用于娱乐、广告、电影制作等领域,本期文章系统介绍了市面上超火的6款AI软件 换脸整合包收录了全部6款AI工具,请按照需要选择下载: 百度网盘:https://pan.baidu.com/s/1LWMp7mvGc_76PDueFBv3tQ?pwd=fwu41.Roop 作为AI换脸领域的鼻祖,…...

lc1029-两地调度

难度:中等(后期巅峰)题目描述给定一个数组,长度为 2n,表示 2n 个人 每个元素都是一个二元组,前一个数表示去 a 的路费,后一个数表示去 b 的路费 需要让 n 个人去 a,另 n 个人去 b,求最小总花费示例 输入:costs = [[10,20],[30,200],[400,50],[30,20]] 输出:110 解释…...

pyAutoGUI 模块主要效果介绍-(2)键盘功能

pyAutoGUI 模块主要效果介绍-(2)键盘功能pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", monospace !import…...

(简记)时间复杂度分析 $\Omicron,\Theta,\Omega$ 的区别

严谨定义请前往OI-wiki渐进符号定义介绍 备考初赛。为了方便记忆,给出如下定义:对于 \(f(n)=\Theta(g(n))\),我们恰可以用 \(g(n)\) 乘上两个非 \(0\) 常数分别拟合出 \(f(n)\) 的上下界(可以取等号)。对于 \(f(n)=\Omicron(g(n))\),我们仅可以用 \(g(n)\) 乘上一非 \(0\…...

Java的运算符

java的二元运算符 package com.zhong.operator;public class Demo01 {public static void main(String[] args) {//二元运算符//Ctrl+D 复制当前行到下一行int a = 10;int b = 20;int c = 25;int d = 25;System.out.println(a+b);System.out.println(a-b);System.out.println(…...

2025年最强API安全解决方案:以智能风险监测重塑企业数据防护体系

2025年最强API安全解决方案:以智能风险监测重塑企业数据防护体系在数字化浪潮席卷全球的今天,应用程序编程接口(API)已成为企业数字化转型的核心枢纽。随着API调用量呈现指数级增长,其安全风险也日益凸显。数据泄露、未授权访问、业务逻辑滥用等安全事件频发,使得API安全…...

HTML打包EXE工具中的WebView2内核更新指南

在HTML一键打包工具推出了免费的WebView2内核后, 有很多朋友都开始使用它来发布自己的HTML项目。无论是一个内部管理系统的小工具,还是一个要分发给客户的桌面应用,只要原本是基于网页的,就能轻松地一键打包成一个 Windows 可执行程序。WebView2内核占用空间小, 而且免费, 深…...

Javadoc生成文档方法

javadoc文档生成 package com.zhong.operator;/*** @author zcx* @version 1.0* @since 1.8*/ public class Doc {String name;/*** @* @param name* @return* @throws Exception*/public String test(String name) throws Exception{return name;} }1.在命令行中输入javadoc 文…...

HTML一键打包EXE工具中使用Websocket

你是否曾好奇微信网页版为何能即时收到消息?为何在线游戏能实时同步玩家操作?这一切都要归功于一种名为WebSocket的技术。今天,我们就来聊聊这项让网页活起来的技术, 并且会附上示例代码,可以方便的通过html一键打包exe工具打包成一个桌面程序。 网址一键转成桌面程序HTML…...

KUKA程序中DEF 与 DEFFCT 的区别

程序/ 子程序DEF 在SRC 声明程序使用DEF,生成的DAT 文件使用DEFDAT,SRC 文件中最多可由255 个局部子程序组成,局部子程序允许多次调用 局部程序名称需要使用括号,运行完毕局部子程序后,跳回到调出子程序后面的第一个指令,最多可相互嵌人20 个子程序。 函数编程DEFFCT 函数…...

第一天作业

大家好,我是23数据科学与大数据技术一班的黄敏,目前还在编程学习的入门阶段。 平时喜欢看看电视剧,打打游戏,还有散步。 说到优势,可能是耐心比较好。之前为了弄懂 Excel 的 VLOOKUP 函数,对着教程反复练习了三天,直到能熟练用它处理班级的成绩表。虽然只是简单的办公技…...

EXE一机一码打包加密大师 - 打包加壳原理

​软件开发的世界里,我们倾注心血写下的每一行代码,编译生成的EXE文件,都如同亲手打造的艺术品。然而,在互联网的“丛林”中,这款艺术品却时刻面临着被破解、盗用、恶意篡改的风险。如何保护我们的劳动成果?今天,我们就来聊聊一项核心的保护技术——加壳,并探讨如何从零…...

力扣62题 不同路径

1.确定dp数组(dp table)以及下标的含义 dp[i][j] :表示从(0 ,0)出发,到(i, j) 有dp[i][j]条不同的路径。 2.确定递推公式 想要求dp[i][j],只能有两个方向来推导出来,即dp[i - 1][j] 和 dp[i][j - 1]。 此时在回顾一下 dp[i - 1][j] 表示啥,是从(0, 0)的位置到(i - 1,…...

八皇后问题

2025.9.16 题目内容 一个如下的 \(6 \times 6\) 的跳棋棋盘,有六个棋子被放置在棋盘上,使得每行、每列有且只有一个,每条对角线(包括两条主对角线的所有平行线)上至多有一个棋子上面的布局可以用序列 \(2\ 4\ 6\ 1\ 3\ 5\) 来描述,第 \(i\) 个数字表示在第 \(i\) 行的相应…...

零知识证明中的专业漏洞解析

本文深入分析离散对数证明和加密证明中的关键漏洞,揭示攻击者如何通过输入验证缺失伪造不可能证明,影响区块链阈值签名安全,涵盖技术细节和修复方案。专业零知识证明漏洞 - Trail of Bits博客 零知识(ZK)证明是近年来备受关注的密码学工具,主要应用于加密货币领域。ZK证明…...

2025.9.16日软件工程学习日志

今日设计了测试项目的html页面 `科技成果信息填报系统* { box-sizing: border-box; margin: 0; padding: 0; font-family: "Microsoft YaHei", sans-serif } body { background-color: rgba(245, 247, 250, 1); color: rgba(51, 51, 51, 1); line-height: 1.6; paddi…...

2025ccpc南昌邀请赛感想+补题

比赛前去了81纪念馆和滕王阁,必须说江西的风景还是不错的,不过可惜的是作为一个江西人没有吃到足够辣的江西菜 赛前一晚做梦梦到比赛打炸了,然后还有另一个比赛也忘记打了,回去被同学鞭尸给我吓醒了,谁懂醒来还在酒店床上的救赎感 还好梦是反的,最后7题拿下第一个金牌,可…...

img标签如何去除边框?

原文版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/qq_41964720/article/details/131397016 原文作者:grapelet_kmw于 2023-06-26 14:41:12 发布—————————————————————…...

25.9.16 java se大致了解后开始学习MySQL

今天把java se基础内容看完了,有些内容现在单独看是很脱节的,先了解个大概,后面用到了再加深理解。 把mysql和datagrip配置了一下,看了mysql的基础、事务,索引刚看完B+树(从八股上看索引是重点)。 明天计划把mysql的大部分内容看完,主要剩下的重点是 SQL优化、锁、Inno…...