Python - 爬虫-网页解析数据-库lxml(支持XPath)
lxml是 Python 的第三方解析库,完全使用 Python 语言编写,它对 Xpath 表达式提供了良好的支持,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高
XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索
XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择
XPath于1999年11月16日成为W3C标准,它被设计为供XSLT、XPointer以及其他XML解析软件使用
官方网站:https://www.w3.org/TR/xpath/
一、XPath语法
1、语法
表达式 | 说明 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从根节点选取 |
// | 从匹配选择的当前节点选取文档中的节点,而不用考虑它们的位置 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
(1)选取节点bookstore的所有子节点
bookstore
(2)选取根节点bookstore
/bookstore
需要注意的是,如果路径以“/”开始,那么该路径就代表着到达某个节点的绝对路径。
(3)从根节点bookstore开始,向下选取属于它的所有book子节点
bookstore/book
(4)从任意位置开始,选取名称为book的所有节点
//book
与上一个表达式相比,该表达式不用再说明符合要求的这些节点在文档树中的具体位置。
(5)在节点bookstore的后代中,选取所有名称为book的所有节点,而且不用管这些节点位于bookstore之下的什么位置
bookstore//book
(6)使用“@”选取名称为lang的所有属性节点
//@lang
2、谓语
谓语是对指路径表达式的附加条件,这些条件都写在方括号中,表示对节点进行进一步筛选,用于查找某个特定节点或者包含某个指定值的节点,具体格式如下。
元素[表达式]
接下来,通过一张表来列举一些常用的带有谓语的路径表达式,以及对这些表达式功能的说明,具体如表2所示。
表达式 | 说明 |
---|---|
/bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素。 |
/bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素。 |
/bookstore/book[last()-1] | 选取属于 bookstore 子元素的倒数第二个 book 元素。 |
/bookstore/book[position()<3] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
//title[@lang] | 选取所有的title元素,且这些元素拥有名称为lang的属性。 |
//title[@lang=’eng’] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
/bookstore/book[price>35.00] | 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 |
/bookstore/book[price>35.00]/title | 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 |
3、通配符
通配符 | 说明 |
---|---|
* | 匹配任何元素节点。 |
@* | 匹配任何属性节点。 |
node() | 匹配任何类型的节点。 |
(1)选取bookstore元素的所有子元素
/bookstore/*
(2)选取文档中的所有元素
//*
(3)选取所有带有属性的title 元素
//title[@*]
二、lxml使用
安装lxml库
pip3 install lxml
lxml 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档
1、导入模块
from lxml import etree
2、创建解析对象
调用 etree 模块的 HTML() 方法来创建 HTML 解析对象
parse_html = etree.HTML(html)
HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本
from lxml import etreehtml_str = '''<div><ul><li class="item1"><a href="link1.html">Python</a></li><li class="item2"><a href="link2.html">Java</a></li><li class="site1"><a href="c.biancheng.net">C语言中文网</a><li class="site2"><a href="www.baidu.com">百度</a></li><li class="site3"><a href="www.jd.com">京东</a></li></ul>
</div>'''html = etree.HTML(html_str)
# tostring()将标签元素转换为字符串输出,注意:result为字节类型
result = etree.tostring(html)
print(result.decode('utf-8'))
输出结果如下:
<html><body><div><ul><li class="item1"><a href="link1.html">Python</a></li><li class="item2"><a href="link2.html">Java</a></li><li class="site1"><a href="c.biancheng.net">C语言中文网</a></li><li class="site2"><a href="www.baidu.com">百度</a></li><li class="site3"><a href="www.jd.com">京东</a></li></ul>
</div>
</body></html>
上述 HTML 字符串存在缺少标签的情况,比如“语言中文网”缺少一个 </li> 闭合标签,当使用了 HTML() 方法后,会将其自动转换为符合规范的 HTML 文档格式。
3、调用xpath表达式
使用第二步创建的解析对象调用 xpath() 方法,完成数据的提取
r_list = parse_html.xpath('xpath表达式')
from bs4 import BeautifulSoup
from lxml import etree'''
lxml
安装:pip install lxml
xpath语法:
nodename:选取此节点的所有子节点
//:从任意子节点中选取
/:从根节点中选取
.:选取当前节点
..:选取当前节点的父节点
@:选取属性
'''html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p><p class="story">...</p>
"""soup_lxml = BeautifulSoup(html_doc,'lxml')
print('##' * 10 , soup_lxml.a) # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>selector = etree.HTML(html_doc)
# 取出页面内所有的链接
links = selector.xpath('//p[@class="story"]/a/@href')
for link in links:print(link)# http: // example.com / elsie# http: // example.com / lacie# http: // example.com / tillieprint('--------book节点--------')
book_html = """
<bookstore><book category="cooking"><title lang="en">Everyday Italian</title><author>Glada De Laurentiis</author><year>2005</year><price>30.00</price></book><book category="children"><title lang="en">Harry Potter</title><author>J K. Rowling</author><year>2005</year><price>29.99</price></book><book category="web"><title lang="en">XQuery Kick Start</title><author>James McGovern</author><author>Per Bothner</author><author>Kurt Cagle</author><author>James Linn</author><author>Vaidyanathan Nagarajan</author><year>2003</year><price>49.99</price></book><book category="web" cover="paperback"><title lang="en">Learning XML</title><author>Erik T. Ray</author><year>2003</year><price>39.95</price></book>
</bookstore>
"""# 创建解析对象
selector = etree.HTML(book_html)
# 提取文本数据,根据xpath后的表达式,提取文本最终使用text()
print(selector.xpath('//book')) # [<Element book at 0x1f39c475e40>, <Element book at 0x1f39c475e80>, <Element book at 0x1f39c475ec0>, <Element book at 0x1f39c475f00>]
print(selector.xpath('//bookstore//author')) # [<Element author at 0x1735dbc0340>, <Element author at 0x1735dbc0180>, <Element author at 0x1735dbc0100>, <Element author at 0x1735dbc0380>, <Element author at 0x1735dbc03c0>, <Element author at 0x1735dbc0440>, <Element author at 0x1735dbc0480>, <Element author at 0x1735dbc04c0>]
print(selector.xpath('//bookstore/book/author')) # [<Element author at 0x2d8d5b00480>, <Element author at 0x2d8d5b004c0>, <Element author at 0x2d8d5b00540>, <Element author at 0x2d8d5b00580>, <Element author at 0x2d8d5b005c0>, <Element author at 0x2d8d5b00440>, <Element author at 0x2d8d5b00380>, <Element author at 0x2d8d5b003c0>]
print(selector.xpath('//author/text()')) # ['Glada De Laurentiis', 'J K. Rowling', 'James McGovern', 'Per Bothner', 'Kurt Cagle', 'James Linn', 'Vaidyanathan Nagarajan', 'Erik T. Ray']
print(selector.xpath('//bookstore/book/title/text()')) # ['Everyday Italian', 'Harry Potter', 'XQuery Kick Start', 'Learning XML']print('----规则----')
# 选取书店下所有的书本的作者的名字
print('选取书店下所有的书本的作者的名字:',selector.xpath('//bookstore/book/author/text()'))
# 选取书店下所有的书本的语言
print('选取书店下所有的书本的语言:',selector.xpath('//bookstore/book/title/@lang'))
# 选取书店下第一本书的标题
print('选取书店下第一本书的标题:',selector.xpath('//bookstore/book[1]/title/text()'))
# 选取书店下最后一本书的标题
print('选取书店下最后一本书的标题:',selector.xpath('//bookstore/book[last()]/title/text()'))
# 选取书店下倒数第二本书的标题
print('选取书店下倒数第二本书的标题:',selector.xpath('//bookstore/book[last()-1]/title/text()'))
# 选取书店下前2本书的标题
print('选取书店下前2本书的标题:',selector.xpath('//bookstore/book[position()<3]/title/text()'))
# 选取所有的分类为web的书本
print('选取所有的分类为web的书本:',selector.xpath('//book[@category="web"]/title/text()'))
# 选取所有价格大于30.00元的书本
print('选取所有价格大于30.00元的书本:',selector.xpath('//book[price>35.0]/price/text()'))
# 选取所有class属性中包含book的书本的class属性
print('选取所有class属性中包含book的书本的class属性:',selector.xpath('//book[contains(@class, "book")]/@class'))
# 选取书店下所有的书本的作者的名字: ['Glada De Laurentiis', 'J K. Rowling', 'James McGovern', 'Per Bothner', 'Kurt Cagle', 'James Linn', 'Vaidyanathan Nagarajan', 'Erik T. Ray']
# 选取书店下所有的书本的语言: ['en', 'en', 'en', 'en']
# 选取书店下第一本书的标题: ['Everyday Italian']
# 选取书店下最后一本书的标题: ['Learning XML']
# 选取书店下倒数第二本书的标题: ['XQuery Kick Start']
# 选取书店下前2本书的标题: ['Everyday Italian', 'Harry Potter']
# 选取所有的分类为web的书本: ['XQuery Kick Start', 'Learning XML']
# 选取所有价格大于30.00元的书本: ['49.99', '39.95']
# 选取所有class属性中包含book的书本的class属性: []print('----bookstore----')
bookstore = selector.xpath('//bookstore')
print(bookstore) # [<Element bookstore at 0x1f273ce6a00>]
print(bookstore[0]) # <Element bookstore at 0x1f273ce6a00>
print(bookstore[0].xpath('./book/title')) # [<Element title at 0x1f273ce6e80>, <Element title at 0x1f273ce6e00>, <Element title at 0x1f273ce6ac0>, <Element title at 0x1f273ce6b40>]
print(bookstore[0].xpath('./book/author')) # [<Element author at 0x1f273ce6b40>, <Element author at 0x1f273ce6a40>, <Element author at 0x1f273ce6940>, <Element author at 0x1f273ce6900>, <Element author at 0x1f273ce6800>, <Element author at 0x1f273ce6b80>, <Element author at 0x1f273ce6980>, <Element author at 0x1f273ce6c00>]
print(bookstore[0].xpath('./book/title/text()')) # ['Everyday Italian', 'Harry Potter', 'XQuery Kick Start', 'Learning XML']
print(bookstore[0].xpath('./book/author/text()')) # ['Glada De Laurentiis', 'J K. Rowling', 'James McGovern', 'Per Bothner', 'Kurt Cagle', 'James Linn', 'Vaidyanathan Nagarajan', 'Erik T. Ray']
print(bookstore[0].xpath('//book/title/text()')) # ['Everyday Italian', 'Harry Potter', 'XQuery Kick Start', 'Learning XML']
print(bookstore[0].xpath('//book/author/text()')) # ['Glada De Laurentiis', 'J K. Rowling', 'James McGovern', 'Per Bothner', 'Kurt Cagle', 'James Linn', 'Vaidyanathan Nagarajan', 'Erik T. Ray']
(1)读取文本解析节点
from lxml import etreetext='''
<div><ul><li class="item-0"><a href="link1.html">第一个</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-0"><a href="link5.html">a属性</a></ul>
</div>'''html=etree.HTML(text) #初始化生成一个XPath解析对象
result=etree.tostring(html,encoding='utf-8') #解析对象输出代码
print(type(html))
print(type(result))
print(result.decode('utf-8'))#etree会修复HTML文本节点
<class 'lxml.etree._Element'>
<class 'bytes'>
<html><body><div><ul><li class="item-0"><a href="link1.html">第一个</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-0"><a href="link5.html">a属性</a></li></ul>
</div>
</body></html>
(2)读取HTML文件进行解析
from lxml import etreehtml=etree.parse('test.html',etree.HTMLParser()) #指定解析器HTMLParser会根据文件修复HTML文件中缺失的如声明信息
result=etree.tostring(html) #解析成字节
#result=etree.tostringlist(html) #解析成列表
print(type(html))
print(type(result))
print(result)#<class 'lxml.etree._ElementTree'><class 'bytes'>b'<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">\n<html><body><div> \n <ul> \n <li class="item-0"><a href="link1.html">first item</a></li> \n <li class="item-1"><a href="link2.html">second item</a></li> \n <li class="item-inactive"><a href="link3.html">third item</a></li> \n <li class="item-1"><a href="link4.html">fourth item</a></li> \n <li class="item-0"><a href="link5.html">fifth item</a> \n </li></ul> \n </div> \n</body></html>'
(3)获取所有节点
返回一个列表每个元素都是Element类型,所有节点都包含在其中
from lxml import etree
html=etree.parse('test',etree.HTMLParser())
result=html.xpath('//*') #//代表获取子孙节点,*代表获取所有
print(type(html))
print(type(result))
print(result)#
<class 'lxml.etree._ElementTree'>
<class 'list'>
[<Element html at 0x754b210048>, <Element body at 0x754b210108>, <Element div at 0x754b210148>, <Element ul at 0x754b210188>, <Element li at 0x754b2101c8>, <Element a at 0x754b210248>, <Element li at 0x754b210288>, <Element a at 0x754b2102c8>, <Element li at 0x754b210308>, <Element a at 0x754b210208>, <Element li at 0x754b210348>, <Element a at 0x754b210388>, <Element li at 0x754b2103c8>, <Element a at 0x754b210408>]
如要获取li节点,可以使用//后面加上节点名称,然后调用xpath()方法
html.xpath('//li') #获取所有子孙节点的li节点
(4)获取子节点
通过/或者//即可查找元素的子节点或者子孙节点,如果想选择li节点的所有直接a节点,可以这样使用
#通过追加/a选择所有li节点的所有直接a节点,因为//li用于选中所有li节点,/a用于选中li节点的所有直接子节点a
result=html.xpath('//li/a')
(5)获取父节点
我们知道通过连续的/或者//可以查找子节点或子孙节点,那么要查找父节点可以使用..来实现也可以使用parent::来获取父节点
from lxml import etree
from lxml.etree import HTMLParsertext='''
<div><ul><li class="item-0"><a href="link1.html">第一个</a></li><li class="item-1"><a href="link2.html">second item</a></li></ul>
</div>'''html=etree.HTML(text,etree.HTMLParser())
result=html.xpath('//a[@href="link2.html"]/../@class')
result1=html.xpath('//a[@href="link2.html"]/parent::*/@class')
print(result)
print(result1)#
['item-1']
['item-1']
(6)属性匹配
在选取的时候,我们还可以用@符号进行属性过滤。比如,这里如果要选取class为item-1的li节点,可以这样实现:
from lxml import etree
from lxml.etree import HTMLParsertext='''
<div><ul><li class="item-0"><a href="link1.html">第一个</a></li><li class="item-1"><a href="link2.html">second item</a></li></ul>
</div>'''html=etree.HTML(text,etree.HTMLParser())
result=html.xpath('//li[@class="item-1"]')
print(result)
(7)文本获取
我们用XPath中的text()方法获取节点中的文本
from lxml import etreetext='''
<div><ul><li class="item-0"><a href="link1.html">第一个</a></li><li class="item-1"><a href="link2.html">second item</a></li></ul>
</div>
'''html=etree.HTML(text,etree.HTMLParser())
result=html.xpath('//li[@class="item-1"]/a/text()') #获取a节点下的内容
result1=html.xpath('//li[@class="item-1"]//text()') #获取li下所有子孙节点的内容
print(result)
print(result1)
(8)属性获取
使用@符号即可获取节点的属性,如下:获取所有li节点下所有a节点的href属性
result=html.xpath('//li/a/@href') #获取a的href属性
result=html.xpath('//li//@href') #获取所有li子孙节点的href属性
(9)属性多值匹配
如果某个属性的值有多个时,我们可以使用contains()函数来获取
from lxml import etreetext1='''
<div><ul><li class="aaa item-0"><a href="link1.html">第一个</a></li><li class="bbb item-1"><a href="link2.html">second item</a></li></ul>
</div>
'''html=etree.HTML(text1,etree.HTMLParser())
result=html.xpath('//li[@class="aaa"]/a/text()')
result1=html.xpath('//li[contains(@class,"aaa")]/a/text()')
print(result)
print(result1)#通过第一种方法没有取到值,通过contains()就能精确匹配到节点了
[]
['第一个']
(10)多属性匹配
另外我们还可能遇到一种情况,那就是根据多个属性确定一个节点,这时就需要同时匹配多个属性,此时可用运用and运算符来连接使用:
from lxml import etreetext1='''
<div><ul><li class="aaa" name="item"><a href="link1.html">第一个</a></li><li class="aaa" name="fore"><a href="link2.html">second item</a></li></ul>
</div>
'''html=etree.HTML(text1,etree.HTMLParser())
result=html.xpath('//li[@class="aaa" and @name="fore"]/a/text()')
result1=html.xpath('//li[contains(@class,"aaa") and @name="fore"]/a/text()')
print(result)
print(result1)#
['second item']
['second item']
(11)XPath中的运算符
运算符 | 描述 | 实例 | 返回值 |
---|---|---|---|
| | 计算两个节点集 | //book | //cd | 返回所有拥有 book 和 cd 元素的节点集 |
+ | 加法 | 6 + 4 | 10 |
- | 减法 | 6 - 4 | 2 |
* | 乘法 | 6 * 4 | 24 |
div | 除法 | 8 div 4 | 2 |
= | 等于 | price=9.80 | 如果 price 是 9.80,则返回 true。 如果 price 是 9.90,则返回 false。 |
!= | 不等于 | price!=9.80 | 如果 price 是 9.90,则返回 true。 如果 price 是 9.80,则返回 false。 |
< | 小于 | price<9.80 | 如果 price 是 9.00,则返回 true。 如果 price 是 9.90,则返回 false。 |
<= | 小于或等于 | price<=9.80 | 如果 price 是 9.00,则返回 true。 如果 price 是 9.90,则返回 false。 |
> | 大于 | price>9.80 | 如果 price 是 9.90,则返回 true。 如果 price 是 9.80,则返回 false。 |
>= | 大于或等于 | price>=9.80 | 如果 price 是 9.90,则返回 true。 如果 price 是 9.70,则返回 false。 |
or | 或 | price=9.80 or price=9.70 | 如果 price 是 9.80,则返回 true。 如果 price 是 9.50,则返回 false。 |
and | 与 | price>9.00 and price<9.90 | 如果 price 是 9.80,则返回 true。 如果 price 是 8.50,则返回 false。 |
mod | 计算除法的余数 | 5 mod 2 | 1 |
此表参考来源:
http://www.w3school.com.cn/xpath/xpath_operators.asp
(12)按序选择
有时候,我们在选择的时候某些属性可能同时匹配多个节点,但我们只想要其中的某个节点,如第二个节点或者最后一个节点,这时可以利用中括号引入索引的方法获取特定次序的节点:
from lxml import etreetext1='''
<div><ul><li class="aaa" name="item"><a href="link1.html">第一个</a></li><li class="aaa" name="item"><a href="link1.html">第二个</a></li><li class="aaa" name="item"><a href="link1.html">第三个</a></li><li class="aaa" name="item"><a href="link1.html">第四个</a></li></ul>
</div>'''html=etree.HTML(text1,etree.HTMLParser())
result=html.xpath('//li[contains(@class,"aaa")]/a/text()') #获取所有li节点下a节点的内容
result1=html.xpath('//li[1][contains(@class,"aaa")]/a/text()') #获取第一个
result2=html.xpath('//li[last()][contains(@class,"aaa")]/a/text()') #获取最后一个
result3=html.xpath('//li[position()>2 and position()<4][contains(@class,"aaa")]/a/text()') #获取第一个
result4=html.xpath('//li[last()-2][contains(@class,"aaa")]/a/text()') #获取倒数第三个
print(result)
print(result1)
print(result2)
print(result3)
print(result4)#
['第一个', '第二个', '第三个', '第四个']
['第一个']
['第四个']
['第三个']
['第二个']
这里使用了last()、position()函数,在XPath中,提供了100多个函数,包括存取、数值、字符串、逻辑、节点、序列等处理功能,它们的具体作用可参考:
http://www.w3school.com.cn/xpath/xpath_functions.asp
(13)节点轴选择
XPath提供了很多节点选择方法,包括获取子元素、兄弟元素、父元素、祖先元素等,示例如下:
from lxml import etreetext1='''
<div><ul><li class="aaa" name="item"><a href="link1.html">第一个</a></li><li class="aaa" name="item"><a href="link1.html">第二个</a></li><li class="aaa" name="item"><a href="link1.html">第三个</a></li><li class="aaa" name="item"><a href="link1.html">第四个</a></li></ul>
</div>
'''
html=etree.HTML(text1,etree.HTMLParser())
result=html.xpath('//li[1]/ancestor::*') #获取所有祖先节点
result1=html.xpath('//li[1]/ancestor::div') #获取div祖先节点
result2=html.xpath('//li[1]/attribute::*') #获取所有属性值
result3=html.xpath('//li[1]/child::*') #获取所有直接子节点
result4=html.xpath('//li[1]/descendant::a') #获取所有子孙节点的a节点
result5=html.xpath('//li[1]/following::*') #获取当前子节之后的所有节点
result6=html.xpath('//li[1]/following-sibling::*') #获取当前节点的所有同级节点#
[<Element html at 0x3ca6b960c8>, <Element body at 0x3ca6b96088>, <Element div at 0x3ca6b96188>, <Element ul at 0x3ca6b961c8>]
[<Element div at 0x3ca6b96188>]
['aaa', 'item']
[<Element a at 0x3ca6b96248>]
[<Element a at 0x3ca6b96248>]
[<Element li at 0x3ca6b96308>, <Element a at 0x3ca6b96348>, <Element li at 0x3ca6b96388>, <Element a at 0x3ca6b963c8>, <Element li at 0x3ca6b96408>, <Element a at 0x3ca6b96488>]
[<Element li at 0x3ca6b96308>, <Element li at 0x3ca6b96388>, <Element li at 0x3ca6b96408>]
以上使用的是XPath轴的用法,更多轴的用法可参考
http://www.w3school.com.cn/xpath/xpath_axes.asp
(14)案例应用:
抓取TIOBE指数前20名排行开发语言
#!/usr/bin/env python#coding:utf-8import requests
from requests.exceptions import RequestException
from lxml import etree
from lxml.etree import ParseError
import jsondef one_to_page(html):headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}try:response=requests.get(html,headers=headers)body=response.text #获取网页内容except RequestException as e:print('request is error!',e)try:html=etree.HTML(body,etree.HTMLParser()) #解析HTML文本内容result=html.xpath('//table[contains(@class,"table-top20")]/tbody/tr//text()') #获取列表数据pos = 0for i in range(20):if i == 0:yield result[i:5]else:yield result[pos:pos+5] #返回排名生成器数据pos+=5except ParseError as e:print(e.position)def write_file(data): #将数据重新组合成字典写入文件并输出for i in data:sul={'2024年6月排行':i[0],'2023年6排行':i[1],'开发语言':i[2],'评级':i[3],'变化率':i[4]}with open('test.txt','a',encoding='utf-8') as f:f.write(json.dumps(sul,ensure_ascii=False) + '\n') #必须格式化数据f.close()print(sul)return Nonedef main():url='https://www.tiobe.com/tiobe-index/'data=one_to_page(url)revaule=write_file(data)if revaule == None:print('ok')if __name__ == '__main__':main()# {'2024年6月排行': '1', '2023年6排行': '1', '开发语言': 'Python', '评级': '23.88%', '变化率': '+8.72%'}
# {'2024年6月排行': '2', '2023年6排行': '3', '开发语言': 'C++', '评级': '11.37%', '变化率': '+0.84%'}
# {'2024年6月排行': '3', '2023年6排行': '4', '开发语言': 'Java', '评级': '10.66%', '变化率': '+1.79%'}
# {'2024年6月排行': '4', '2023年6排行': '2', '开发语言': 'C', '评级': '9.84%', '变化率': '-1.14%'}
# {'2024年6月排行': '5', '2023年6排行': '5', '开发语言': 'C#', '评级': '4.12%', '变化率': '-3.41%'}
# {'2024年6月排行': '6', '2023年6排行': '6', '开发语言': 'JavaScript', '评级': '3.78%', '变化率': '+0.61%'}
# {'2024年6月排行': '7', '2023年6排行': '7', '开发语言': 'SQL', '评级': '2.87%', '变化率': '+1.04%'}
# {'2024年6月排行': '8', '2023年6排行': '8', '开发语言': 'Go', '评级': '2.26%', '变化率': '+0.53%'}
# {'2024年6月排行': '9', '2023年6排行': '12', '开发语言': 'Delphi/Object Pascal', '评级': '2.18%', '变化率': '+0.78%'}
# {'2024年6月排行': '10', '2023年6排行': '9', '开发语言': 'Visual Basic', '评级': '2.04%', '变化率': '+0.52%'}
# {'2024年6月排行': '11', '2023年6排行': '11', '开发语言': 'Fortran', '评级': '1.75%', '变化率': '+0.35%'}
# {'2024年6月排行': '12', '2023年6排行': '15', '开发语言': 'Scratch', '评级': '1.54%', '变化率': '+0.36%'}
# {'2024年6月排行': '13', '2023年6排行': '18', '开发语言': 'Rust', '评级': '1.47%', '变化率': '+0.42%'}
# {'2024年6月排行': '14', '2023年6排行': '10', '开发语言': 'PHP', '评级': '1.14%', '变化率': '-0.37%'}
# {'2024年6月排行': '15', '2023年6排行': '21', '开发语言': 'R', '评级': '1.06%', '变化率': '+0.07%'}
# {'2024年6月排行': '16', '2023年6排行': '13', '开发语言': 'MATLAB', '评级': '0.98%', '变化率': '-0.28%'}
# {'2024年6月排行': '17', '2023年6排行': '14', '开发语言': 'Assembly language', '评级': '0.95%', '变化率': '-0.24%'}
# {'2024年6月排行': '18', '2023年6排行': '19', '开发语言': 'COBOL', '评级': '0.82%', '变化率': '-0.18%'}
# {'2024年6月排行': '19', '2023年6排行': '20', '开发语言': 'Ruby', '评级': '0.82%', '变化率': '-0.17%'}
# {'2024年6月排行': '20', '2023年6排行': '24', '开发语言': 'Prolog', '评级': '0.80%', '变化率': '+0.03%'}
# ok
参考文章
XPath语法 - python学习教程_python基础教程_ python培训_ python入门
相关文章:
Python - 爬虫-网页解析数据-库lxml(支持XPath)
lxml是 Python 的第三方解析库,完全使用 Python 语言编写,它对 Xpath 表达式提供了良好的支持,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 XPath,全称XML Path Language,即XML…...
单片机 + 图像处理芯片 + TFT彩屏 触摸滑动条控件
触摸滑动条控件使用说明 一、项目概述 本项目基于单片机和RA8889/RA6809图形处理芯片的TFT触摸屏滑动条控件。该控件支持水平和垂直滑动条,可自定义外观和行为,并支持回调函数进行值变化通知。 硬件平台:51/ARM均可(测试时使用STC8H8K64U单…...
LeetCode每日一题4.24
2799. 统计完全子数组的数目 题目 问题分析 完全子数组 的定义:子数组中不同元素的数目等于整个数组不同元素的数目。 子数组 是数组中的一个连续非空序列。 思路 统计整个数组的不同元素数目: 使用 set 来获取整个数组的不同元素数目。 遍历所有子数…...
LeetCode238_除自身以外数组的乘积
LeetCode238_除自身以外数组的乘积 标签:#数组 #前缀和Ⅰ. 题目Ⅱ. 示例0. 个人方法一:暴力循环嵌套0. 个人方法二:前缀和后缀分别求积 标签:#数组 #前缀和 Ⅰ. 题目 给你一个整数数组 nums,返回 数组 answer &#…...
基于 Spring Boot 的银行柜台管理系统设计与实现(源码+文档+部署讲解)
技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…...
LeetCode 2799.统计完全子数组的数目:滑动窗口(哈希表)
【LetMeFly】2799.统计完全子数组的数目:滑动窗口(哈希表) 力扣题目链接:https://leetcode.cn/problems/count-complete-subarrays-in-an-array/ 给你一个由 正 整数组成的数组 nums 。 如果数组中的某个子数组满足下述条件&am…...
卡尔曼滤波解释及示例
卡尔曼滤波的本质是用数学方法平衡预测与观测的可信度 ,通过不断迭代逼近真实状态。其高效性和鲁棒性,通常在导航定位中,需要融合GPS、加速度计、陀螺仪、激光雷达或摄像头数据,来提高位置精度。简单讲,卡尔曼滤波就是…...
在vue项目中实现svn日志打印
在vue项目中实现svn日志打印 实现svnlog创建svn-log脚本 convert-svn-log.js配置命令 package 实现svnlog 项目工程 类似于git的conventional-changelog 创建svn-log脚本 convert-svn-log.js 在项目根目录创建convert-svn-log.js const fs require(fs-extra); const xml2j…...
使用vue2开发一个医疗预约挂号平台-前端静态网站项目练习
对于后端开发的我,最近一直在学习前端开发,除了要学习一些前端的基础知识外,肯定少不了一些前端项目练习,就通过前端的编程知识 就简单做一个医疗预约挂号前端静态页面。这个网站主要是使用了vue2 的相关技术实现的。 主要实现了这…...
Redis的过期删除策略和内存淘汰策略
🤔 过期删除和内存淘汰乍一看很像,都是做删除操作的,这么分有什么意思? 首先,设置过期时间我们很熟悉,过期时间到了,我么的键就会被删除掉,这就是我们常认识的过期删除,…...
Langchain检索YouTube字幕
创建一个简单搜索引擎,将用户原始问题传递该搜索系统 本文重点:获取保存文档——保存向量数据库——加载向量数据库 专注于youtube的字幕,利用youtube的公开接口,获取元数据 pip install youtube-transscript-api pytube 初始化 …...
服务器上安装node
1.安装 下载安装包 https://nodejs.org/en/download 解压安装包 将安装包上传到/opt/software目录下 cd /opt/software tar -xzvf node-v16.14.2-linux-x64.tar.gz 将解压的文件夹移动到安装目录(/opt/nodejs)下 mv /opt/software/node-v16.14.2-linux-x64 /opt/nodejs …...
React:什么是Hook?通俗易懂的讲讲
什么是Hook 1.Hook 是什么?2.React 内置的 Hook3. 自定义 Hook4. 总结 1.Hook 是什么? 可以理解为:函数组件的工具/功能插件 Hook是 React 16.8 以后提供的一种新特性, 让你在函数组件里“钩入”React 的功能(比如状态…...
树莓派安装GStreamer ,opencv支持, 并在虚拟环境中使用的安装方法
首先是我在树莓派中 使用OpenCV 读取网络视频流, 如海康威视 通过rtsp协议地址读取 会发生延迟和丢包的情况 后来使用ffmpeg和OpenCV 读取视频流 丢报的问题减少了 但是长时间运行 还是会造成延迟和卡顿 最后直接卡死画面 后来试了一下GStreamer 管道流 是树莓派支持的 但是原生…...
从节点重排看React 与 Vue3 的 Diff 算法
一个有趣的问题 之前我写了一篇狗教我 React——原理篇之 Diff 算法 - 掘金 (juejin.cn)简单介绍了 diff 算法,收到了一个有意思的疑问: 大佬讲得非常易懂,我有个疑惑就是都说 diff 处理节点前移比较差,比如 a→b→c→d 更新为 d→a→b→c,如果第一遍循环到第一个就截止了…...
【FAQ】PCoIP 会话后物理工作站本地显示器黑屏
# 问题 工作人员从家里建立了到办公室工作站的 PCoIP 连接,该工作站安装了 HP Anyware Graphics Agent,并且还连接了本地显示器。然后,远程用户决定去办公室进行本地工作,工作站显示器显示黑屏(有时没有信号ÿ…...
springboot基于hadoop的酷狗音乐爬虫大数据分析可视化系统(源码+lw+部署文档+讲解),源码可白嫖!
摘要 本酷狗音乐爬虫大数据分析可视化系统采用B/S架构,数据库是MySQL,网站的搭建与开发采用了先进的Java语言、Hadoop、爬虫技术进行编写,使用了Spring Boot框架。该系统从两个对象:由管理员和用户来对系统进行设计构建。前台主要…...
基于大模型的食管平滑肌瘤全周期预测与诊疗方案研究
目录 一、引言 1.1 研究背景与意义 1.2 研究目的 1.3 国内外研究现状 二、大模型技术原理与应用概述 2.1 大模型介绍 2.2 在医疗领域的应用现状 2.3 用于食管平滑肌瘤预测的可行性分析 三、食管平滑肌瘤术前预测 3.1 预测指标选取 3.2 数据收集与预处理 3.2.1 数据…...
26考研 | 王道 | 数据结构 | 第七章 查找
第七章 查找 文章目录 第七章 查找7.1 查找概念7.2 顺序查找7.3 折半查找7.4 分块查找7.5 二叉排序树7.6 平衡二叉树平衡二叉树的插入平衡二叉树的删除 7.7 红黑树7.7.1 为什么要发明红黑树?7.7.2 红黑树的定义和性质7.7.3 红黑树的插入和删除插入删除 7.8 B树和B树…...
Docker 部署 Redis:快速搭建高效缓存服务
Docker 部署 Redis:快速搭建高效缓存服务 引言 Redis 是一个高性能的键值数据库,广泛应用于缓存、消息队列、实时分析等领域。而 Docker 作为容器化技术的代表,能够帮助我们快速部署和管理应用程序。结合两者,我们可以轻松实现 …...
【缓存与数据库结合最终方案】伪从技术
实现伪从技术:基于Binlog的Following表变更监听与缓存更新 技术方案概述 要实现一个专门消费者服务作为Following表的伪从,订阅binlog并在数据变更时更新缓存,可以采用以下技术方案: 主要组件 MySQL Binlog监听:使…...
如何规避矩阵运营中的限流风险及解决方案
在自媒体矩阵化运营中,系统性规避平台限流机制需建立在精准理解算法逻辑的基础上。根据行业实践数据统计,当前矩阵账号触发限流的核心诱因主要集中在两大维度: 首先需要明确的是设备与网络层面的合规性配置。当单台移动设备频繁切换多账号登…...
TensorFlow Keras“安全模式”真的安全吗?绕过 safe_mode 缓解措施,实现任意代码执行
机器学习框架通常依赖序列化和反序列化机制来存储和加载模型,然而模型中不恰当的代码隔离和可执行组件可能会导致严重的安全风险。 TensorFlow 中的 Keras v3 ML 模型结构 对于基于 TensorFlow 的 Keras 模型,存在一个严重的反序列化漏洞,编号为CVE-2024-3660。攻击者可利…...
PostgreSQL-日志管理介绍
概述 1、日志管理器: 日志模块包括事务提交日志CLOG和数据日志XLOG。其中CLOG是系统为整个事务管理流程所建立的日志,主要用于记录事务的状态,同时通过SUBTRANS日志记录事务的嵌套关系。XLOG日志是数据库日志的主体,记录数据库中…...
【Java 数据结构】泛型
目录 一. 什么是泛型 二. 引出泛型 三. 泛型语法 四. 泛型的使用 五. 泛型是如何编译的 5.1 擦除机制 六. 泛型的继承 6.1 泛型类继承非泛型类 6.2 泛型类继承泛型类 6.2.1 父类的同名传递 6.2 2 父类的异名传递 6.2.3 父类固定类型传递 6.2.4 子类添加参数 七. 泛…...
鲲鹏麒麟搭建Docker仓库
Docker Registry简介 Docker Registry是一个开源的镜像仓库工具,用于存储和分发Docker镜像。它是Docker生态系统中的核心组件之一,提供了镜像的推送(push)、拉取(pull)和管理功能。 主要特性: 1、开源免费:Apache 2.0许可证 2、轻…...
Java快速上手之实验4(接口回调)
1.编写接口程序RunTest.java,通过接口回调实现多态性。解释【代码4】和【代码6】的执行结果为何不同? interface Runable{ void run(); } class Cat implements Runable{ public void run(){ System.out.println("猫急上树.."…...
【前端】【业务场景】【面试】在前端开发中,如何实现实时数据更新,比如实时显示服务器推送的消息,并且保证在不同网络环境下的稳定性和性能?
问题:在前端开发中,如何实现实时数据更新,比如实时显示服务器推送的消息,并且保证在不同网络环境下的稳定性和性能? 一、实现实时数据更新的方法 WebSocket: 原理:WebSocket 是一种在单个 TCP …...
redis相关问题整理
Redis 支持多种数据类型: 字符串 示例:存储用户信息 // 假设我们使用 redis-plus-plus 客户端库 auto redis Redis("tcp://127.0.0.1:6379"); redis.set("user:1000", "{name: John Doe, email: john.doeexample.com}"…...
某城乡老旧房屋试点自动化监测服务项目
1. 项目简介 我国是房屋建设增长量最高的国家或地区,但上个世纪末建造的房屋多为砖混结构,使用寿命短且缺乏维护。这些房屋在使用过程中受到地质活动、自然环境和人为改造的影响,其结构强度逐年下降,部分房屋甚至出现墙体裂缝、倾…...
企业为何要求禁用缺省口令?安全风险及应对措施分析
在当今数字化时代,企业网络安全面临着前所未有的挑战。缺省口令的使用是网络安全中的一个重要隐患,许多企业在制定网络安全红线时,明确要求禁用缺省口令。本文将探讨这一要求的原因及其对企业安全的重要性。 引言:一个真实的入侵场…...
在 MySQL 中,索引前缀长度为什么选择为 191
在 MySQL 中,索引前缀长度选择为 191 的常见原因主要与 字符集编码 和 索引长度限制 相关,具体解释如下: 1. 字符集编码的影响 utf8mb4 字符集: MySQL 的 utf8mb4 字符集每个字符最多占用 4 个字节(相比 utf8 的 3 字…...
【Python语言基础】24、并发编程
文章目录 1. 多线程(threading模块)1.1 多线程的实现(threading 模块)1.2 多线程的优缺点1.3 线程同步与锁 2. 多进程(multiprocessing模块)2.1 多进程实现(multiprocessing模块)2.2 多进程的优缺点2.3 进程…...
MySQL-自定义函数
自定义函数 函数的作用 mysql数据库中已经提供了内置的函数,比如:sum,avg,concat等等,方便我们日常的使用,当需要时mysql支持定义自定义的函数,方便与我们对于需用复用的功能进行封装。 基本…...
实时操作系统在服务型机器人中的关键作用
一、服务型机器人的发展现状与需求 近年来,服务型机器人市场呈现出蓬勃发展的态势。据国际机器人联合会(IFR)2024 年度报告显示,全球人形机器人市场规模预计在 2025 年达到 38.7 亿美元,年复合增长率达 19.2%。服务型机…...
智能电网第5期 | 老旧电力设备智能化改造:协议转换与边缘计算
随着电力行业数字化转型加速,大量在役老旧设备面临智能化升级需求。在配电自动化改造过程中,企业面临三大核心挑战: 协议兼容难题:传统设备采用Modbus等老旧协议,无法接入智能电网系统 数据处理瓶颈:设备本…...
【UML建模】starUML工具
一.概述 StarUML是一款UML工具,允许用户创建和管理UML(统一建模语言)模型,广泛应用于软件工程领域。它的主要功能包括创建各种UML图:如用例图、类图、序列图等,支持代码生成与反向工程,以及提供…...
【技术笔记】Cadence实现Orcad与Allegro软件交互式布局设置
【技术笔记】Cadence实现Orcad与Allegro软件交互式布局设置 更多内容见专栏:【硬件设计遇到了不少问题】、【Cadence从原理图到PCB设计】 在做硬件pcb设计的时候,原理图选中一个元器件,希望可以再PCB中可以直接选中。 为了达到原理图和PCB两两…...
第十七届山东省职业院校技能大赛 中职组网络建设与运维赛项
第十七届山东省职业院校技能大赛 中职组网络建设与运维赛项 赛题 B 卷 第十七届山东省职业院校技能大赛中职组网络建设与运维赛项 1 赛题说明 一、竞赛项目简介 “网络建设与运维”竞赛共分为以下三个模块: 网络理论测试; 网络建设与调试…...
深入详解人工智能数学基础——概率论中的KL散度在变分自编码器中的应用
🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,10年以上C/C++, C#, Java等多种编程语言开发经验,拥有高级工程师证书;擅长C/C++、C#等开发语言,熟悉Java常用开发技术,能熟练应用常用数据库SQL server,Oracle,mysql,postgresql等进行开发应用…...
Docker配置DNS方法详解及快速下载image方法
根据错误信息,Docker 在拉取镜像时遇到网络连接超时(Client.Timeout exceeded),通常与 代理配置错误、DNS 解析失败、镜像源访问受限 或 网络防火墙限制 有关。以下是详细解决方案: 1. 检查并修复代理配置 如果你使用了 HTTP 代理: 确认代理地址是否有效(替换 speed.ip…...
Rundeck 介绍及安装:自动化调度与执行工具
Rundeck介绍 概述:Rundeck 是什么? Rundeck 是一款开源的自动化调度和任务执行工具,专为运维场景设计,帮助工程师通过统一的平台管理和执行跨系统、跨节点的任务。它由 PagerDuty 维护(2016 年收购)&#…...
济南国网数字化培训班学习笔记-第二组-6-输电线路现场教学
输电线路现场教学 杆塔组装 角钢塔 角钢-连扳-螺栓 螺栓(M): 脚钉-螺栓(螺栓头-无扣长-螺纹-螺帽)-垫片-螺帽/防盗帽/防松帽M20*45 表示直径20mm,长度45mm螺栓级别由一个类似浮点数表示,如…...
数据结构——二叉树,堆
目录 1.树 1.1树的概念 1.2树的结构 2.二叉树 2.1二叉树的概念 2.2特殊的二叉树 2.3二叉树的性质 2.4二叉树的存储结构 2.4.1顺序结构 2.4.2链式结构 3.堆 3.1堆的概念 3.2堆的分类 3.3堆的实现 3.3.1初始化 3.3.2堆的构建 3.3.3堆的销毁 3.3.4堆的插入 3.3.5…...
PostgreSQL 分区表——范围分区SQL实践
PostgreSQL 分区表——范围分区SQL实践 1、环境准备1-1、新增原始表1-2、执行脚本新增2400w行1-3、创建pg分区表-分区键为创建时间1-4、创建24年所有分区1-5、设置默认分区(兜底用)1-6、迁移数据1-7、创建分区表索引 2、SQL增删改查测试2-1、查询速度对比…...
第八节:进阶特性高频题-Pinia与Vuex对比
优势:无嵌套模块、Composition API友好、TypeScript原生支持 核心概念:state、getters、actions(移除mutation) 深度对比 Pinia 与 Vuex:新一代状态管理方案的核心差异 一、核心架构设计对比 维度VuexPinia设计目标集…...
路由交换网络专题 | 第七章 | BGP练习 | 次优路径 | Route-Policy | BGP认证
基本部分配置讲解: 配置BGP相关部分: // BGP区域配置: 用作环回口创建BGP对等体// “ipv4-family unicast”是指进入BGP的IPv4单播地址族视图。 // 配置完后仅仅只在IPV4地址簇下建立对等体。* [AR3]bgp 100 [AR3-bgp]peer 1.1.1.1 as-number 100 [AR…...
序论文42 | patch+MLP用于长序列预测
论文标题:Unlocking the Power of Patch: Patch-Based MLP for Long-Term Time Series Forecasting 论文链接:https://arxiv.org/abs/2405.13575v3 代码链接:https://github.com/TangPeiwang/PatchMLP (后台回复“交流”加入讨…...
【mongodb】系统保留的数据库名
目录 1. admin2. config3. local4. test(非严格保留,但常作为默认测试数据库)5. 注意事项6. 其他相关说明 1. admin 1.用途:用于存储数据库的权限和用户管理相关数据。2.特点:该数据库是 MongoDB 的超级用户数据库&am…...
js 的call 和apply方法用处
主要用于ECMAScript与宿主环境(文档对象(DOM)、浏览器对象(BOM))的交互中; 例子:function changeStyle(attr, value){ this.style[attr] value; } …...