当前位置: 首页 > news >正文

字节跳动发布UI-TARS,超越GPT-4o和Claude,能接管电脑完成复杂任务

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

字节跳动的全新人工智能代理UI-TARS横空出世,其能力不仅可以接管用户的电脑,还能自主完成复杂的工作流,大幅超越现有的竞争对手。

UI-TARS与Anthropic的“Computer Use”类似,能够理解图形用户界面(GUI)、进行逻辑推理并逐步执行操作。

行业领先的性能表现

UI-TARS基于约500亿训练标注数据,提供7B和72B参数版本。无论是在性能、感知能力、任务执行能力还是整体表现上,UI-TARS在10多个GUI基准测试中均表现出色,超越OpenAI的GPT-4o、Anthropic的Claude,以及谷歌的Gemini。

例如,在VisualWebBench测试中,UI-TARS 72B取得了82.8%的高分,领先于GPT-4o(78.5%)和Claude 3.5(78.2%)。在WebSRC测试(衡量网页语义内容理解能力)中,UI-TARS-7B得分93.6%,而在复杂屏幕布局理解的ScreenQA-short测试中,UI-TARS-72B以88.6%的成绩拔得头筹,全面超越Qwen、Claude 3.5和Gemini系列模型。

研究团队表示,这些成果证明了UI-TARS在网页与移动端环境中优异的感知与理解能力。这种能力为复杂任务的精准执行奠定了坚实基础。

操作演示:能看懂界面并自主行动

UI-TARS的操作界面分为两部分:左侧为思考过程,实时记录其每一步推理逻辑;右侧为操作窗口,可自动打开文件、访问网站或运行应用程序。

实例场景

  • 搜索航班:UI-TARS被指示查找从西雅图(SEA)到纽约(NYC)下个月5日出发、10日返回的往返航班,并按价格升序排序。它会自动导航至航空公司官网,填写相关信息,逐步完成操作,同时详细解释每一步的行动逻辑。
  • 安装VS Code扩展:它会先打开VS Code,等待应用完全加载,再导航至扩展视图,搜索并安装autoDocstring扩展。整个过程中遇到问题时,模型会尝试纠正,比如点击不准时会重新调整并执行操作。

UI-TARS的多步骤操作能力和故障恢复能力展示了其出色的自主学习和适应性。

背后技术解析

UI-TARS通过大规模截图数据集训练,数据包含元素描述、类型、视觉信息、位置框和功能等元数据。模型可以全面描述截图内容,不仅识别界面元素,还能理解它们的空间关系。

  • 状态变化描述:UI-TARS通过截图前后的对比,识别界面变化并判断是否执行了点击或输入等操作。
  • 短期与长期记忆:模型具备实时处理任务的能力,同时保留历史交互记录以优化后续决策。
  • 推理能力:UI-TARS兼具快速直觉式(System 1)和深度反思式(System 2)推理,支持多步骤决策、错误纠正及动态适应。

研究人员还引入了纠错和反思数据,确保模型能够识别错误并动态调整,从而进一步提升任务完成的可靠性与效率。

超越竞争对手的全能表现

与Anthropic的Claude相比,UI-TARS不仅在网页任务中表现优异,还能轻松胜任移动端操作。

Claude在移动任务上的短板反映了其GUI操作能力的局限,而UI-TARS在跨平台领域(如网页和移动端)都展现了卓越的能力。例如,在多步骤操作与移动任务中,UI-TARS在AndroidWorld的116项测试中实现了高分表现,进一步验证了其通用性和实用性。

未来展望

UI-TARS的诞生代表着AI原生代理技术的重大进步。研究人员表示,未来的发展方向在于结合主动学习和持续学习,使代理通过与真实世界的交互自主改进能力。这种前瞻性设计将推动AI在更多实际场景中的落地应用,成为竞争激烈的AI代理市场中的重要玩家。

相关文章:

字节跳动发布UI-TARS,超越GPT-4o和Claude,能接管电脑完成复杂任务

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...

2025课题推荐——USBL和DVL的误差建模与补偿

在海洋探测与研究中,定位技术的准确性至关重要。超短基线(USBL)和多普勒速度计(DVL)是两种广泛应用于水下定位和导航的技术,它们在深海探测、海洋工程和水下机器人等领域发挥着重要作用。然而,这…...

mysql_use_result的概念和使用案例

mysql_use_result 是 MySQL C API 中的一个函数,它用于检索一个结果集,并且不同于 mysql_store_result,它不会立即将整个结果集读入客户端。相反,它会初始化一个结果集,客户端随后可以通过调用 mysql_fetch_row 来逐行…...

微信小程序date picker的一些说明

微信小程序的picker是一个功能强大的组件&#xff0c;它可以是一个普通选择器&#xff0c;也可以是多项选择器&#xff0c;也可以是时间、日期、省市区选择器。 官方文档在这里 这里讲一下date picker的用法。 <view class"section"><view class"se…...

FLTK - FLTK1.4.1 - demo - adjuster.exe

文章目录 FLTK - FLTK1.4.1 - demo - adjuster.exe概述笔记根据代码&#xff0c;用fluid重建一个adjuster.fl 备注 - fluid生成的代码作为参考代码好了修改后可用的代码END FLTK - FLTK1.4.1 - demo - adjuster.exe 概述 想过一遍 FLTK1.4.1的demo和测试工程&#xff0c;工程…...

神经网络入门:从感知机到激活函数

什么是神经网络 神经网络&#xff08;Neural Network&#xff09; 是一种模拟生物神经系统工作方式的计算模型&#xff0c;是机器学习和深度学习的核心组成部分。它的设计灵感来源于人脑中神经元之间的连接和信息传递方式。神经网络通过模拟这种结构&#xff0c;能够从数据中学…...

第04章 13 管道信息对象分类说明

在VTK&#xff08;Visualization Toolkit&#xff09;中&#xff0c;管道信息&#xff08;Pipeline Information&#xff09;是一个重要的概念&#xff0c;它允许管道中的不同对象之间传递元数据和执行策略。这些信息对象帮助协调管道中各个组件的操作&#xff0c;确保数据在传…...

AI 发展是否正在放缓?AI 发展将驶向何方?

编者按&#xff1a; 人工智能真的已经遇到发展瓶颈了吗&#xff1f;随着 OpenAI、Google 和 Anthropic 等顶级 AI 公司纷纷表示新模型开发收益在减少&#xff0c;这个问题引发了整个行业的深度思考。 我们今天为大家带来的这篇文章&#xff0c;作者的核心观点是&#xff1a;虽然…...

一个简单的自适应html5导航模板

一个简单的 HTML 导航模板示例&#xff0c;它包含基本的导航栏结构&#xff0c;同时使用了 CSS 进行样式美化&#xff0c;让导航栏看起来更美观。另外&#xff0c;还添加了一些 JavaScript 代码&#xff0c;用于在移动端实现导航菜单的展开和收起功能。 PHP <!DOCTYPE htm…...

CrypTen——基于pytorch的隐私保护机器学习框架

目录 一、CrypTen概述 二、应用场景 三、CrypTen优势 四、CrypTen技术解析 1.基于pytorch的构建基础 2.核心密码学原语 3.加密模型训练流程 五、传统隐私保护技术与CrypTen的对比 1.传统隐私保护技术介绍 2.CrypTen与传统隐私保护技术的区别 六、CrypTen的环境配置…...

日志模块升级,采用sleuth实现日志链路追踪

文章目录 1.common-log4j2-starter1.目录结构2.pom.xml 引入sleuth3.application.yml 开启Sleuth4.log4j2-spring.xml xiugai 日志输出格式5.TraceIdFilter.java 输出带有TraceId的箭头6.LogAspect.java 更改AOP的范围&#xff08;因为后面出现了栈溢出问题&#xff09;7.pom.x…...

84,【8】BUUCTF WEB [羊城杯 2020]Blackcat

进入靶场 音乐硬控我3分钟 回去看源码 <?php // 检查 POST 请求中是否包含 Black-Cat-Sheriff 和 One-ear 字段 // 如果任意一个字段为空&#xff0c;则输出错误信息并终止脚本执行 if(empty($_POST[Black-Cat-Sheriff]) || empty($_POST[One-ear])){die(请提供 Black-C…...

中信证券、安我保险-安我股保联合策略

中信证券2025年资本市场年会在深圳开幕,会议以“站上起跑线”为主题,对2025年全球金融市场、宏观经济与政策、A股市场投资策略、大类资产配置、资本市场新格局下的各经济领域发展趋势进行了全面展望。 据悉,中信证券2025年资本市场年会,现场邀请了百余位顶尖学者、产业专家、企…...

WPF实战案例 | C# WPF实现大学选课系统

WPF实战案例 | C# WPF实现大学选课系统 一、设计来源1.1 主界面1.2 登录界面1.3 新增课程界面1.4 修改密码界面 二、效果和源码2.1 界面设计&#xff08;XAML&#xff09;2.2 代码逻辑&#xff08;C#&#xff09; 源码下载更多优质源码分享 作者&#xff1a;xcLeigh 文章地址&a…...

如何在Spring Boot项目中高效集成Spring Security

1 Spring Security 介绍 Spring Security 是一个功能强大且高度可定制的安全框架,专为保护基于Java的应用程序而设计。它不仅提供了认证(Authentication)和授权(Authorization)的功能,还支持防止各种常见的安全攻击模式。本文将详细介绍Spring Security的主要特点、功能…...

浅谈Unity中Canvas的三种渲染模式

Overview UGUI通过 Canvas 组件渲染和管理UI元素。Canvas 是 UI 元素的容器&#xff0c;它决定了 UI 元素的渲染方式以及它们在屏幕上的显示效果。Canvas 有三种主要的渲染模式&#xff0c;每种模式有不同的用途和特点。本文将介绍这三种渲染模式 1. Screen Space - Overlay 模…...

组件中的emit

我们从页面向子组件传递参数时&#xff0c;我们可以使用props&#xff1b;我们从页面向子组件传递模板片段时&#xff0c;可以使用slots&#xff1b;当我们需要子组件传递参数给调用它的页面时&#xff0c;我们可以使用emit进行参数传递。 例如&#xff1a; <template>…...

java发送邮件

文章目录 需要的依赖发送邮件准备申请授权码 配置文件测试代码 遇到的问题 需要的依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><…...

网络安全 | F5-Attack Signatures-Set详解

关注&#xff1a;CodingTechWork 创建和分配攻击签名集 可以通过两种方式创建攻击签名集&#xff1a;使用过滤器或手动选择要包含的签名。  基于过滤器的签名集仅基于在签名过滤器中定义的标准。基于过滤器的签名集的优点在于&#xff0c;可以专注于定义用户感兴趣的攻击签名…...

左右互搏03-so调用java md5-android开发

依然走动态注册 新建一个java类 package com.koohai.encutils;import android.content.Context; import android.content.pm.PackageInfo; import android.content.pm.PackageManager; import android.util.Log;import java.security.MessageDigest; import java.util.List; …...

性能测试丨JVM 性能数据采集

什么是JVM性能数据采集&#xff1f; JVM性能数据采集是指通过一些工具和技术采集与Java虚拟机相关的性能数据。这些数据包括但不限于内存使用、CPU使用、垃圾回收&#xff08;GC&#xff09;行为、线程活动等。合理地分析这些数据&#xff0c;可以帮助我们找出系统的瓶颈&…...

MySQL 基础学习(3):排序查询和条件查询

MySQL 查询与条件操作&#xff1a;详解与技巧 在本文中&#xff0c;我们将探讨 MySQL 中的查询操作及其相关功能&#xff0c;包括别名、去重、排序查询和条件查询等&#xff0c;并总结一些最佳实践和注意事项。 一、使用别名&#xff08;AS&#xff09; 在查询中&#xff0c…...

Autogen_core: Quickstart

代码 from dataclasses import dataclass from typing import Callablefrom autogen_core import DefaultTopicId, MessageContext, RoutedAgent, default_subscription, message_handlerdataclass class Message:content: intdefault_subscription class Modifier(RoutedAgen…...

导出地图为pdf文件

有时我们只是想创建能共享的pdf文件,而不是将地图打印出来,arcpy的ExportToPDF()函数可以实现该功能. 操作方法: 1.在arcmap中打开目标地图 2.导入arcpy.mapping模块 import arcpy.mapping as mapping 3.引用当前活动地图文档,把该引用赋值给变量 mxd mapping.MapDocumen…...

从零开始打造智能推荐引擎:技术、实践与未来展望

友友们好! 我的新专栏《Python进阶》正式启动啦!这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏,无论你是已经有一定基础的开发者,还是希望深入挖掘Python潜力的爱好者,这里都将是你不可错过的宝藏。 在这个专栏中,你将会找到: ● 深入解析:每一篇文章都将…...

【Leetcode刷题记录】16.最接近的三数之和

16. 最接近的三数之和 给你一个长度为 n 的整数数组 nums 和 一个目标值 target。请你从 nums 中选出三个整数&#xff0c;使它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在恰好一个解。&#x1f4d1;排序双指针 这道题和三数之和很像&#xff0c;不同点是…...

什么是Pytest Fixtures作用域及如何为Pytest Fixtures设置合适的作用域

关注开源优测不迷路 大数据测试过程、策略及挑战 测试框架原理&#xff0c;构建成功的基石 在自动化测试工作之前&#xff0c;你应该知道的10条建议 在自动化测试中&#xff0c;重要的不是工具 编写重复代码很可能是你最不乐意做的事情之一。至少对我来说是这样。 在一个全力追…...

vue3 vue2区别

Vue 3 和 Vue 2 之间存在多个方面的区别&#xff0c;以下是一些主要的差异点&#xff1a; 1. 性能改进 Vue 3&#xff1a;在性能上有显著提升&#xff0c;包括更小的包体积、更快的渲染速度和更好的内存管理。Vue 2&#xff1a;性能相对较低&#xff0c;尤其是在大型应用中。…...

硬件学习笔记--36 TTL、RS232、RS485相关介绍

RS232、TTL、RS485是三种不同的电气标准和通信接口&#xff0c;它们各自具有独特的特点和应用场景。以下是这三者的主要区别&#xff1a; 一、定义与标准 TTL&#xff08;Transistor-Transistor Logic&#xff09; TTL是一种数字信号电平标准&#xff0c;由TTL器件产生&#x…...

FPGA实现任意角度视频旋转(完结)视频任意角度旋转实现

本文主要介绍如何基于FPGA实现视频的任意角度旋转&#xff0c;关于视频180度实时旋转、90/270度视频无裁剪旋转&#xff0c;请见本专栏前面的文章&#xff0c;旋转效果示意图如下&#xff1a; 为了实时对比旋转效果&#xff0c;采用分屏显示进行处理&#xff0c;左边代表旋转…...

HBase-2.5.10 伪分布式环境搭建【Mac】

文章目录 前言一、搭建单节点Zookeeper1. 解压zookeeper2. 配置环境变量3. 修改配置文件4. 启动zk 二、搭建伪分布式Hbase1. 解压hbase2. 配置环境变量3. 修改配置4. 启动HBase 前言 搭建hbase伪分布式环境 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例仅供参…...

我的2024年年度总结

序言 在前不久&#xff08;应该是上周&#xff09;的博客之星入围赛中铩羽而归了。虽然心中颇为不甘&#xff0c;觉得这一年兢兢业业&#xff0c;每天都在发文章&#xff0c;不应该是这样的结果&#xff08;连前300名都进不了&#xff09;。但人不能总抱怨&#xff0c;总要向前…...

erase() 【删数函数】的使用

**2025 - 01 - 25 - 第 48 篇 【函数的使用】 作者(Author) 文章目录 earse() - 删除函数一. vector中的 erase1 移除单个元素2 移除一段元素 二. map 中的erase1 通过键移除元素2 通过迭代器移除元素 earse() - 删除函数 一. vector中的 erase vector 是一个动态数组&#x…...

STM32项目分享:智能宠物喂食系统(升级版)

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 PCB图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片&#xff1a; 哔哩哔哩视频链接&#xff1a; STM32智能宠物喂食系统(升级版) &#xff08;资…...

逻辑复制parallel并发参数测试

逻辑复制parallel并发参数测试 一、测试结果、测试环境描述 1.1、测试结果 cpu表中有1000万条数据&#xff0c;大小为1652MB,当更新的数据量多于10万条的时候有明显变化&#xff0c;多余30万条的时候相差2倍。 更新的数据量较多时&#xff0c;逻辑复制使用并发参数相比于使用…...

python学opencv|读取图像(四十六)使用cv2.bitwise_or()函数实现图像按位或运算

【0】基础定义 按位与运算&#xff1a;全1取1&#xff0c;其余取0。按位或运算&#xff1a;全0取0&#xff0c;其余取1。 【1】引言 前序学习进程中&#xff0c;已经对图像按位与计算进行了详细探究&#xff0c;相关文章链接如下&#xff1a; python学opencv|读取图像&…...

2025美赛数学建模C题:奥运金牌榜,完整论文代码模型目前已经更新

2025美赛数学建模C题&#xff1a;奥运金牌榜&#xff0c;完整论文代码模型目前已经更新&#xff0c;获取见文末名片...

Kiwi 安卓浏览器本月停止维护,扩展功能迁移至 Edge Canary

IT之家 1 月 25 日消息&#xff0c;科技媒体 Android Authority 今天&#xff08;1 月 25 日&#xff09;发布博文&#xff0c;报道称 Kiwi 安卓浏览器将于本月停止维护&#xff0c;相关扩展支持功能已整合到微软 Edge Canary 浏览器中。 开发者 Arnaud42 表示 Kiwi 安卓浏览器…...

Couchbase UI: Server

在 Couchbase UI 中的 Server&#xff08;服务器&#xff09;标签页主要用于管理和监控集群中的各个节点。以下是 Server 标签页的主要内容和功能介绍&#xff1a; 1. 节点列表 显示集群中所有节点的列表&#xff0c;每个节点的详细信息包括&#xff1a; 节点地址&#xff1…...

(一)HTTP协议 :请求与响应

前言 爬虫需要基础知识&#xff0c;HTTP协议只是个开始&#xff0c;除此之外还有很多&#xff0c;我们慢慢来记录。 今天的HTTP协议&#xff0c;会有助于我们更好的了解网络。 一、什么是HTTP协议 &#xff08;1&#xff09;定义 HTTP&#xff08;超文本传输协议&#xff…...

微信阅读网站小程序的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…...

资源管理输入、工具与技术、输出

过程输入工具与技术输出规划资源管理1.项目章程2.项目管理计划质量管理计划、范围基准3.项目文件项目进度计划、需求文件、风险登记册、干系人登记册4.事业环境因素5.组织过程资产1.专家判断2.数据表现层级型、矩阵型、文本型3.组织理论4.会议1.资源管理计划2.团队章程3.项目文…...

【JavaWeb学习Day13】

Tlias智能学习系统 需求&#xff1a; 部门管理&#xff1a;查询、新增、修改、删除 员工管理&#xff1a;查询、新增、修改、删除和文件上传 报表统计 登录认证 日志管理 班级、学员管理&#xff08;实战内容&#xff09; 部门管理&#xff1a; 01准备工作 开发规范-…...

mapStruct 使用踩坑指南

一、缓存机制 经常因为变更字段(通常会这样)&#xff0c;导致启动失败。需要清理生成的文件。 /Users/uzong/IdeaProjects/uzong-crm/uzong-crm-manager/src/main/java/com/uzong/crm/manager/GroupManager.java:14:67 java: 找不到符号符号: 方法 getId()位置: 类型为com.u…...

Hive详细讲解-概述与环境搭建

文章目录 1.Hive概述1.2.Hive架构原理1.3Driver 2.Hive最小化模式安装部署3.生产环境hive安装部署4.将hive的元数据存储到Mysql5.元数据库概述6.Hive服务的部署6.1HiveServer26.2Metastore 7.HiveServer2使用7.1Metastore嵌入模式配置7.2Metastore独立模式配置* 8.hive常用的参…...

【算法】数论基础——约数个数定理、约数和定理 python

目录 前置知识约数约数个数定理约数和定理实战演练总结 前置知识 需要掌握&#xff1a;唯一分解定理&#xff08;算术基本定理&#xff09; 约数 约数&#xff0c;即因数&#xff0c;定义为&#xff1a; 如果一个整数a可以被另一个整数b整除&#xff08;即 a mod b 0),那么b就…...

【阅读笔记】基于整数+分数微分的清晰度评价算子

本文介绍的是一种新的清晰度评价算子&#xff0c;整数微分算子分数微分算子 一、概述 目前在数字图像清晰度评价函数中常用的评价函数包括三类&#xff1a;灰度梯度评价函数、频域函数和统计学函数&#xff0c;其中灰度梯度评价函数具有计算简单&#xff0c;评价效果好等优点…...

【技术】TensorRT 10.7 安装指南(Ubuntu22.04)

原文链接&#xff1a;https://mengwoods.github.io/post/tech/008-tensorrt-installation/ 本文安装的版本如下&#xff1a; Ubuntu 22.04 Nvidia Driver 538.78 CUDA 12.2 cuDNN 8.9.7 TensorRT 10.7 安装前的准备&#xff08;可选&#xff09; 在安装新版本之前&#xf…...

Linux权限有关

文章目录 一、添加普通用户二、Xshell下命令行的知识三、 Linux和Windows操作系统四、再探指令和Linux权限五、用户相关用户切换: 今天我们学习与Linux有关的权限等内容&#xff0c;以及一些零碎知识帮助我们理解Linux的系统和Xshell的原理。 本篇是在Xshell环境下执行的。 一…...

vue router路由复用及刷新问题研究

路由复用问题 当路由匹配路径未发生变化时&#xff0c;只是相关的参数发生了变化&#xff0c;路由跳转时&#xff0c;会发现虽然地址栏中的地址更新到了新的链接&#xff0c;但是页面渲染并未触发响应路由组件的created,mounted等钩子函数&#xff0c;也就意味着组件并没有被重…...