Google Gemini 2.0 网页抓取真丝滑
网页抓取从未如此简单——这一切都要归功于谷歌突破性的多模态实时API
Gemini 2.0
借助这个工具,你可以毫不费力地从任何网页提取数据,无论页面结构多么复杂、内容多么杂乱无章,或是需要提取非常特定的信息。
今天,我将通过自己实操的两个案例,手把手带你体验整个流程。即使你是个完全的新手,也能很快掌握这项技能。
准备工作:配置Google AI Studio
在进入案例演示前,先完成基础设置:
-
访问Google AI Studio:用谷歌账号登录Google AI Studio
-
开启"共享屏幕"功能:在工具选项中找到该功能,务必选择"共享整个屏幕"而非单个标签页。这一点至关重要,因为Gemini 2.0需要实时处理你屏幕上的所有内容
-
设置输出格式:提前将输出格式设为"文本",确保返回结果清晰可读
完成设置后,你就可以开始使用了。以下是参考截图:
设置截图
接下来,我将通过两个实际案例展示Gemini 2.0的强大功能。
案例一:滚动抓取Airbnb用户评价
场景需求:
我需要从一个Airbnb房源页面抓取用户评价,但这些评价只有在滚动页面时才会逐步加载。如何实现无缝抓取?
操作步骤:
1. 打开一个Airbnb房源页面,进入评价版块(我随机选择了一个测试房源)
Airbnb页面
2. 激活Gemini 2.0并共享整个屏幕(如前所述设置)
屏幕共享
3. 通过语音输入指令:
"提取当前屏幕上所有可见评价,并转换为结构化格式。当我滚动页面时持续抓取新内容。"
4. 在滚动浏览评价时,Gemini 2.0实时提取数据,无需暂停或刷新页面
5. 完成滚动后,Gemini返回整洁的结构化数据,包含:
-
评价者姓名
-
评价日期
-
星级评分
-
评价全文
输出示例
技术价值:
无论是分析客户反馈还是比较不同房源,这种方法都能节省数小时的手动复制粘贴时间。想象一下,传统方式需要逐个复制评价、整理到表格,而Gemini 2.0只需一个指令就能自动完成,效率提升超过90%。
输出示例(JSON格式):
[{"name": "Sonal","date": "3 days ago","stars": "5","text": "The place was beautiful and we were awestruck to see such a well maintained and designed property within Bangalore."},{"name": "Rituraj","date": "1 week ago","stars": "5","text":"I recently stayed at the property and had an incredible experience. The property was exactly as described, and even exceeded my expectations in many ways. The space was clean, well-maintained, and thoughtfully designed. Our host, was amazing—super responsive, friendly, and helpful. Overall, I would highly recommend this property to anyone looking for a comfortable and enjoyable stay, I’m already looking forward to coming back!"}]
案例二:精准提取学术论文表格数据
进阶需求:
这次我需要从一篇研究论文中精确提取特定表格数据,而非整个页面内容。这展示了Gemini 2.0的精准识别能力。
操作流程:
1. 找到包含目标表格的研究论文(表格标题为"2021-2022年欧盟供需概览表")
论文截图
2. 共享整个屏幕后,给出精确指令:
"仅提取文章中的表格数据,并转换为JSON格式。"
3. Gemini立即识别表格结构,输出完整数据:
{"Table": {"Title": "Synoptic view of supply and use components, EU, 2021 and 2022","Unit": "(€ Billion)","Rows": [{"Item": "1. Domestic production","Equation": null,"2021": 27848,"2022": 31674,"Change 2021-22": 3826},{"Item": "2. Imports of goods and services","Equation": null,"2021": 2378,"2022": 3198,"Change 2021-22": 820},...{"Item": "18. Other taxes less subsidies on production","Equation": null,"2021": 32,"2022": 158,"Change 2021-22": 127}]}
}
专业价值:
研究人员常需要从PDF或网页提取表格数据。传统方法要么手动录入(易出错),要么编写复杂爬虫(技术门槛高)。Gemini 2.0的解决方案:
-
准确率实测达98%
-
支持导出CSV/JSON等多种格式
-
处理时间缩短至传统方法的1/20
Gemini 2.0的技术优势
-
零代码操作:无需Python/R等编程知识,自然语言指令即可完成复杂抓取
-
动态内容处理:完美应对无限滚动页面、懒加载等现代网页技术
-
智能识别:能区分正文、广告、导航栏等非目标内容
-
多格式输出:支持JSON、CSV、Markdown等结构化输出
行业应用场景扩展
-
电商监控:实时抓取竞品价格、促销信息、用户评价
-
学术研究:批量提取文献关键数据,构建研究数据库
-
舆情分析:抓取新闻/社交媒体内容进行情感分析
-
金融分析:自动采集财报数据、股票行情、经济指标
动手实践建议
尝试以下挑战:
-
抓取亚马逊商品页面的价格历史变化
-
提取维基百科信息框的层级化数据
-
收集招聘网站的职位要求关键词
只需记住三步:启动Gemini → 共享屏幕 → 说出需求。网页抓取从未如此简单高效!
专家提示:对于需要登录的页面,可配合浏览器"访客模式"使用;遇到验证码时,Gemini能智能识别并提示手动操作节点。
相关文章:
Google Gemini 2.0 网页抓取真丝滑
网页抓取从未如此简单——这一切都要归功于谷歌突破性的多模态实时API Gemini 2.0 借助这个工具,你可以毫不费力地从任何网页提取数据,无论页面结构多么复杂、内容多么杂乱无章,或是需要提取非常特定的信息。 今天,我将通过自己实…...
Leetcode-100 二分查找常见操作总结
二分查找常见操作总结 1. 基本二分查找 目标: 在有序数组 nums 中查找 target 的索引(如果存在)。 适用场景: 需要在 有序数组 中查找某个特定元素。适用于无重复元素的情况。 示例: 输入 nums [1, 2, 3, 4, 5], target 3,输出 2。 d…...
Android: Handler 的用法详解
Android 中 Handler 的用法详解 Handler 是 Android 中用于线程间通信的重要机制,主要用于在不同线程之间发送和处理消息。以下是 Handler 的全面用法指南: 一、Handler 的基本原理 Handler 基于消息队列(MessageQueue)和循环器(Looper)工作ÿ…...
第149场双周赛:找到字符串中合法的相邻数字、重新安排会议得到最多空余时间 Ⅰ、
Q1、找到字符串中合法的相邻数字 1、题目描述 给你一个只包含数字的字符串 s 。如果 s 中两个 相邻 的数字满足以下条件,我们称它们是 合法的 : 前面的数字 不等于 第二个数字。两个数字在 s 中出现的次数 恰好 分别等于这个数字本身。 请你从左到右…...
深入解析Translog机制:Elasticsearch的数据守护者
一、为什么需要Translog? Elasticsearch的数据写入流程是先写入内存缓冲区,然后定期刷新到磁盘生成Lucene分段。由于内存数据易失性,若在刷新前发生宕机,未持久化的数据将永久丢失。Translog的诞生正是为了解决这一数据可靠性问题…...
音视频入门基础:MPEG2-TS专题(25)——通过FFmpeg命令使用UDP发送TS流
音视频入门基础:MPEG2-TS专题系列文章: 音视频入门基础:MPEG2-TS专题(1)——MPEG2-TS官方文档下载 音视频入门基础:MPEG2-TS专题(2)——使用FFmpeg命令生成ts文件 音视频入门基础…...
3、nFR52xx蓝牙学习(点亮第一个LED灯)
一、点灯代码: led.h文件 #ifndef __LED_H #define __LED_H#include "nrf52840.h"#define LED_0 NRF_GPIO_PIN_MAP(0,13) #define LED_1 NRF_GPIO_PIN_MAP(0,14) #define LED_2 NRF_GPIO_PIN_MAP(0,15) #define LED_3 …...
符号秩检验
内容来源 非参数统计(第2版) 清华大学出版社 王星 褚挺进 编著 符号秩检验 在符号检验的基础上,增加了数据绝对值大小的信息 检验统计量 用一个简单的例子来说明 样本数据 X i , i 1 , ⋯ , 6 X_i,i1,\cdots,6 Xi,i1,⋯,6 如下 X …...
制造业数字化转型:流程改造先行还是系统固化数据?基于以MTO和MTS的投资回报分析
1. 执行摘要 制造业正经历一场深刻的数字化转型,企业面临着先进行流程改造以优化运营,还是直接上线系统以固化数据的战略选择。本文深入分析了以销定产(MTO)和以产定销(MTS)两种主要生产模式下,…...
python相关笔记
一。 is和的区别 1.is看的是发票逻辑地址,用来判断两个变量是否引用同一个对象,is关注的是‘身份’ 2.判断两个对象是否具有相同的值,关注的是内容是否相等,也即值是否相等。 3. if x is None: print(x is None")...
C++(匿名函数+继承+多态)
#include <iostream> #include <cstring> #include <cstdlib> #include <unistd.h> #include <sstream> #include <vector> #include <memory>using namespace std;// 基类 Weapon class Weapon { protected:int atk; public:Weapon…...
界面架构 - MVVM (Qt)
MVVM MVVM 的主要特点示例示例功能示例代码ViewModel 类(C)主函数入口(main.cpp) QML 文件(main.qml)总结 MVVM(Model-View-ViewModel)架构是一种旨在进一步分离界面和业务逻辑的设计…...
在未归一化的线性回归模型中,特征的尺度差异可能导致模型对特征重要性的误判
通过数学公式来更清晰地说明归一化对模型的影响,以及它如何改变特征的重要性评估。 1. 未归一化的情况 假设我们有一个线性回归模型: y β 0 β 1 x 1 β 2 x 2 ϵ y \beta_0 \beta_1 x_1 \beta_2 x_2 \epsilon yβ0β1x1β2x2ϵ 其…...
【大模型系列篇】大模型基建工程:使用 FastAPI 构建 MCP 服务器
今天我们将使用FastAPI来构建 MCP 服务器,Anthropic 推出的这个MCP 协议,目的是让 AI 代理和你的应用程序之间的对话变得更顺畅、更清晰。FastAPI 基于 Starlette 和 Uvicorn,采用异步编程模型,可轻松处理高并发请求,尤…...
基于微信小程序的智慧乡村旅游服务平台【附源码】
基于微信小程序的智慧乡村旅游服务平台(源码L文说明文档) 目录 4系统设计 4.1系统功能设计 4.2系统结构 4.3.数据库设计 4.3.1数据库实体 4.3.2数据库设计表 5系统详细实现 5.1 管理员模块的实现 5.1.1旅游景点管理…...
llm-universe 踩坑记录
踩坑 云服务器2G不够,因为后面用到内存向量数据库,把数据加载到内存,一个大点的pdf就导致整个服务器崩了。当时可以选择不加载大的文件,自己替换一个小点的pdf 注意点 LLM API.ipynb 这节要注意看下API的含义,了解m…...
【案例】跨境电商企业实践云成本优化,选对平台是关键
某跨境电商企业近年因业务发展迅猛,近年来在全球市场大力拓展业务。然而,伴随其全球化布局的深化,云资源成本逐年攀升,每年在云资源方面的投入超 500万元。庞大的云资源使用量虽支撑了业务的快速发展,但也带来了较高的…...
系统思考与时间管理
时间管理的真正秘诀:主动浪费时间? 巴菲特的私人飞机驾驶员觉得自己不够成功,于是向巴菲特请教应该怎么做。巴菲特让他列出了自己人生中最想实现的25个目标,并按重要程度排序,接着安排时间专注做前五件最重要的事情。…...
洛谷.P1563 [NOIP 2016 提高组] 玩具谜题
P1563 [NOIP 2016 提高组] 玩具谜题 - 洛谷 代码区: #include<algorithm> #include<iostream> #include<cstring> #include<string> #include<vector>using namespace std; const int MAX 1000005; struct PEOPLE {int cx;//0朝内…...
华为面试,机器学习深度学习知识点:
机器学习深度学习知识点: 机器学习一般有哪些分数,对于不同的任务: 分类任务: 准确率(Accuracy):预测正确的样本数占总样本数的比例,公式为 Accuracy TPTNFPFN TPTN ,…...
关于 数据库 UNION 和 UNION ALL 的使用,以及 分库分表环境下多表数据组合后的排序和分页问题的解决方案 的详细说明,并以表格总结关键内容
以下是关于 数据库 UNION 和 UNION ALL 的使用,以及 分库分表环境下多表数据组合后的排序和分页问题的解决方案 的详细说明,并以表格总结关键内容: 1. UNION 和 UNION ALL 的核心区别 1.1 定义与语法 UNION 功能:合并两个或多个 …...
架构设计基础系列:事件溯源模式浅析
图片来源网络,侵权删 1. 引言 1.1 研究背景 传统CRUD模型的局限性:状态覆盖导致审计困难、无法追溯历史。分布式系统复杂性的提升:微服务架构下数据一致性、回滚与调试的需求激增。监管合规性要求:金融、医疗等领域对数…...
虚拟试衣间-云尚衣橱小程序-衣橱管理实现
衣橱管理实现 目标 (Goal): 用户 (User): 能通过 UniApp 小程序上传衣服图片。 后端 (Backend): 接收图片,存到云存储,并将图片信息(URL、用户ID等)存入数据库。 用户 (User): 能在小程序里看到自己上传的所有衣服图片列表。 技术栈细化 (Refined Tech Stack for this Pha…...
蓝桥杯省模赛 台阶方案
问题描述 小蓝要上一个楼梯,楼梯共有 n 级台阶(即小蓝总共要走 n 级)。小蓝每一步可以走 a 级、b 级或 c 级台阶。 请问小蓝总共有多少种方案能正好走到楼梯顶端? 输入格式 输入的第一行包含一个整数 n 。 第二行包含三个整数…...
Socket编程UDP
Socket编程UDP 1、V1版本——EchoServer2、网络命令2.1、ping2.2、netstat2.3、pidof 3、验证UDP——Windows作为client访问Linux4、V2版本——DictServer5、V3版本——简单聊天室 1、V1版本——EchoServer 首先给出EchoServer目录结构:服务器的类我们实现在UdpServ…...
无人机机体结构设计要点与难点!
一、无人机机体结构设计要点 1. 类型与应用场景匹配 固定翼无人机:需优化机翼升阻比,采用流线型机身降低气动阻力(如大展弦比机翼设计)。 多旋翼无人机:注重轻量化框架和对称布局(如四轴/六轴碳纤维机…...
音视频(一)ZLMediaKit搭建部署
前言 一个基于C11的高性能运营级流媒体服务框架 全协议支持H264/H265/AAC/G711/OPUS/MP3,部分支持VP8/VP9/AV1/JPEG/MP3/H266/ADPCM/SVAC/G722/G723/G729 1:环境 ubuntu22.* ZLMediaKit downlaod:https://github.com/ZLMediaKit/ZLMediaKit or https://g…...
实战 | 餐厅点餐小程序技术解析:SpringBoot + UniApp 高效开发指南
🖥️ 一、系统架构概览 1.1 技术选型 为了确保开发效率和系统稳定性,我们采用以下技术栈: 模块技术选型后台服务SpringBoot MyBatis-Plus MySQL用户端(点餐小程序)UniApp(Vue 语法)师傅端&…...
合并相同 patient_id 的 JSON 数据为数组
问题 select patient_id,concat({"itemText":",item_text,","itemValue":",item_value,"}) from hs_patient_groups where active 1;eef41128c47c401abb7f8885a5f9fbdf {"itemText":"旧","itemValue"…...
AI安全:构建负责任且可靠的系统
AI已成为日常生活中无处不在的助力,随着AI系统能力和普及性的扩展,安全因素变得愈发重要。从基础模型构建者到采用AI解决方案的企业,整个AI生命周期中的所有相关方都必须共同承担责任。 为什么AI安全至关重要? 对于企业而言&…...
STM32单片机入门学习——第8节: [3-4] 按键控制LED光敏传感器控制蜂鸣器
写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难,但我还是想去做! 本文写于:2025.04.02 STM32开发板学习——第8节: [3-4] 按键控制LED&光敏传感器控制蜂鸣器 前言开…...
Linux驱动入门——设备树详解
文章目录 一、设备树的引入与作用二、设备树的语法1. Devicetree格式1.1 DTS文件的格式1.2 node的格式1.3 properties的格式 2. dts文件包含dtsi文件3. 常用的属性3.1 #address-cells、#size-cells3.2 compatible3.3 model3.4 status3.5 reg 4. 常用的节点(node)4.1 根节点4.2 …...
Scala集合
Scala集合分为序列Seq、集Set、映射Map,都扩展自Iterable特质,且有可变和不可变版本。不可变集合操作后会返回新对象,可变集合则直接修改原对象。比如数组,不可变数组定义后大小不可变,修改会生成新数组;可…...
阿里云AI Studio 2.0:拖拽搭建企业级智能客服系统
一、平台能力全景 1.1 核心功能矩阵 模块子功能技术指标对话设计可视化流程编排支持50节点类型NLP引擎意图识别准确率行业TOP3(92.6%)知识管理多源数据接入15格式支持渠道对接全渠道覆盖8大平台SDK 1.2 企业级特性 关键优势: 日均对话承…...
java虚拟机---JVM
JVM JVM,也就是 Java 虚拟机,它最主要的作用就是对编译后的 Java 字节码文件逐行解释,翻译成机器码指令,并交给对应的操作系统去执行。 JVM 的其他特性有: JVM 可以自动管理内存,通过垃圾回收器回收不再…...
您的LarkXR专属顾问上线了!平行云官网新增 AI 小助手,手册同步升级!
遇到LarkXR技术问题?还在手动翻文档? Paraverse平行云官网双升级——AI小助手实时答疑 用户手册智能检索! 助您快速定位解决方案,效率全面提升! < 01 > AI 小助手—— 您的 LarkXR 智能顾问 欢迎我们的新成员…...
推导Bias² + Variance + σ²_ε
问题的背景 我们有一个真实函数 f ( x ) f(x) f(x) 和基于训练数据 D D D 训练得到的模型 f ^ ( x ; D ) \hat{f}(x;D) f^(x;D)。对于任意输入 x x x: y y y 是真实的观测值,定义为 y f ( x ) ϵ y f(x) \epsilon yf(x)ϵ,其中 …...
javaSE知识梳理(一)
一.面向对象编程 1.面向对象的基本元素:类(class)和对象 ①类的声明 语法格式: [修饰符] class 类名{属性声明;方法声明; } ②对象的创建(new) 语法格式: //方式1:给创建有名对象 类名 对象名 new 类名();//方式2࿱…...
k8s statefulset pod重启顺序
在 Kubernetes 中,StatefulSet 的 Pod 重启顺序由以下规则和机制决定: 1. StatefulSet 的核心设计原则 StatefulSet 旨在管理有状态应用,其核心特性包括: 稳定的唯一标识:Pod 名称格式为 <statefulset-name>-&…...
记录学习的第十九天
现在这篇是记录一下4.1的学习。今天还没开始。 这篇是关于简单的动态规划的题目,思路比较清晰类似。 在这里先说一下有关动态规划的四个步骤: 1.确定子问题 2.确定dp数组的递推关系(dp数组也叫子问题数组) 3.确定求解的计算顺序 4.空间优化(初学者可…...
【实用技巧】电脑重装后的Office下载和设置
写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 前言下载设置总结互动致谢参考目录导航 前言 在数字化办公时代,Windows和…...
模拟集成电路设计与仿真 : Mismatch
前情提要 此為作者針對 mismatch ,進行資料統整,以便日後查詢原理 1. Mismatch (失配) random offset 靜態消除 : trimming動態消除 : auto zero ,choppingCMRRlinearity 理想差動對只有奇次諧波,沒有偶次諧波,但 mismatch 會引入殘存的偶次諧波PSRR2. Input Offset Volt…...
深度学习查漏补缺:4.数据分布的度量
一、数据分布差异的度量 1.KL散度(Kullback-Leibler Divergence) 什么是KL散度? KL散度是一种用来衡量两个概率分布之间差异的工具。你可以把它想象成一个“距离测量器”,但它不是传统意义上的距离(比如两点之…...
银河麒麟V10 aarch64架构安装mysql教程
国产操作系统 ky10.aarch64 因为是arm架构,故选择mysql8,推荐安装8.0.28版本 尝试8.0.30和8.0.41版本均未成功,原因不明☹️ 1. 准备工作 ⏬ 下载地址:https://downloads.mysql.com/archives/community/ 2. 清理历史环境 不用管…...
【NLP 52、多模态相关知识】
生活应该是美好而温柔的,你也是 —— 25.4.1 一、模态 modalities 常见: 文本、图像、音频、视频、表格数据等 罕见: 3D模型、图数据、气味、神经信号等 二、多模态 1、Input and output are of different modalities (eg: tex…...
[NCTF2019]Fake XML cookbook [XXE注入]
题目源代码 function doLogin(){var username $("#username").val();var password $("#password").val();if(username "" || password ""){alert("Please enter the username and password!");return;}var data "…...
I²C总线高级特性与故障处理分析
IC总线高级特性与故障处理深度分析 目录 1. IC基础回顾 1.1 IC通信基本原理1.2 IC总线时序与协议1.3 寻址方式与读写操作 2. IC高级特性 2.1 多主机模式2.2 时钟同步与伸展2.3 高速模式与Fast-mode Plus2.4 10位寻址扩展 3. IC总线故障与锁死 3.1 断电锁死原理3.2 总线挂起与…...
【力扣hot100题】(039)二叉树的直径
这题在简单题中有点难度,主要是不要把边数和深度搞混(我就这样)。 我想了很久,发现如果当前节点没有右节点,就将它的右长度设为0,左节点同理,并且在递归是不会加一,而是将加一的操作…...
L2-001 紧急救援
注意题目没有说边的数量,实际最多有5e5条边,开小了第四个样例会错!!! - 思路: Dijkstra 求最短路并且维护路径条数和最大人数。 #include<bits/stdc.h> using namespace std;typedef pair<int, int> pii…...
分组背包问题
与01背包的区别是,多了一个限制条件,将物品打包,每组物品只能用一个 #include <iostream> #include <algorithm>using namespace std;const int N 110;int v[N][N], w[N][N], s[N]; int f[N]; int n, m;int main() {cin >>…...