Python爬虫学习第三弹 —— Xpath 页面解析 实现无广百·度
早上好啊,大佬们。上回使用 Beautiful Soup 进行页面解析的内容是不是已经理解得十分透彻了~
这回我们再来尝试使用另外一种页面解析,来重构上一期里写的那些代码。
讲完Xpath之后,小白兔会带大家解决上期里百·度搜索的代码编写,保证会有收获的哦,大家好好看好好学。
Xpath
XPath(XML Path Language)是一种用于在 XML(可扩展标记语言)文档中定位节点的语言。它也可以用于 HTML(超文本标记语言)文档,因为 HTML 可以看作是 XML 的一个子集。XPath 通过路径表达式来选取 XML 文档中的节点或者节点集。
Xpath不用额外安装包。
语法规则
首先,肯定要讲的是语法规则。
它的语法也很简单,都是很容易的。
1. 【//】 根目录
2. 【/】 子目录
3. 【@】获取属性
4. 【text()】获取文本
5. contains(@class,‘result’)
Bs4代码用Xpath重构
Xpath表达式
操作与上期基本一致,我们只着眼于定位内容的部分,也就是书写 Xpath 表达式
我们包裹所有我们所需内容的是这里,也就是说它就是我们所要指向的大类。
//div[@class=“Community”]
然后再往里走,指向我们所需内容。
//div[@class=“Community”]/div[contains(@class,“active”)]
最后指向储存链接
//div[@class=“Community”]/div[contains(@class,“active”)]/div/div/div[contains(@class,“content”)]/a
由于Xpath是一级一级向下的,所以不会遇到Bs4当时的情况,它的指向性会更好一些。
然后,对于我们的文本内容,也是一样的,大家可以自己试试,我在这里直接放结果了。
//div[@class=“Community”]/div[contains(@class,“active”)]/div/div/div/a/p/span[contains(@class,“blog-text”)]
这样我们就解决了Xpath表达式。
Python代码修改
我们可以先打开上次写的代码,对照着一样的思路,只需要修改其中几句就可以了。
首先,我们使用的是Xpath所以导入的包要改;
from lxml import etree
然后,我们页面解析时候的语句也要改;
soup=etree.HTML(html.text)
最后,把搜索语句修改了就完成了。
urls = soup.xpath('//div[@class="Community"]/div[contains(@class,"active")]/div/div/div[contains(@class,"content")]/a')
titles = soup.xpath('//div[@class="Community"]/div[contains(@class,"active")]/div/div/div/a/p/span[contains(@class,"blog-text")]')
由于当时写的Bs4的代码有一些问题,所以最后输出要进行一些修改。
这里就是完整代码了——
import requests
from lxml import etreeurl = 'https://www.csdn.net/?spm=1011.2266.3001.4476'
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',
}html = requests.get(url,headers=headers)
soup=etree.HTML(html.text)urls = soup.xpath('//div[@class="Community"]/div[contains(@class,"active")]/div/div/div[contains(@class,"content")]/a')
titles = soup.xpath('//div[@class="Community"]/div[contains(@class,"active")]/div/div/div/a/p/span[contains(@class,"blog-text")]')for i in range(len(titles)):print(urls[i].get('href'))print(titles[i].text)
百·度搜索实现
上期最后,小白兔不是给了大家一个题目嘛,相信按照大家的聪明才智肯定都能写出来,这里小白兔还是提供一下我的思路。
百度搜索模拟
首先,我们手动先进行一次百度的搜索,看看怎么去获取我们所需要的内容。
例如我们搜索一下 Python 和 爬虫。
然后打开它们的检查,抓一下包,找到它的网址内容。
对于不同的网址搜索,改变的就是它的一些载荷。
所以我们可以比较一下他们的区别,然后就能够找到搜索不同内容需要修改的内容。
我们很容易就能发现其中表示搜索内容的载荷 —— wd
但是其中还是有很多参数是不同的。
所以这里我又进行了一次搜索,得到的结果如下:
可以发现那些不同的参数在搜索同一个内容时也是不一样的,说明它们不影响搜索内容。
我们看一下新的搜索结果,发现它返回的内容是不同的,说明那些参数是随机生成的,是影响这里的搜索结果的,所以我们可以不用管它们。
这些参数具体指什么,我还没学到,有大佬知道可以告诉一下。
OK,下面我们可以试一下,只修改 wd 参数能不能进入到不同的搜索结果。
https://www.baidu.com/s?wd=Python
https://www.baidu.com/s?wd=Java
显然我们的猜测是对的。
Python爬虫访问页面
那么,我们就先用爬虫来访问一下页面。
https://www.baidu.com/s?wd=Python&rsv_spt=1&rsv_iqid=0xb6f30fb0001dc9b1&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rsv_sug3=23&rsv_enter=1&rsv_sug1=9&rsv_sug7=100&rsv_sug2=0&rsv_btype=t&inputT=5324&rsv_sug4=5626&rsv_sug=1
我们就先按照我们直接搜索出的结果来进行访问。
import requestsurl = 'https://www.baidu.com/s?wd=Python&rsv_spt=1&rsv_iqid=0xb6f30fb0001dc9b1&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rsv_sug3=23&rsv_enter=1&rsv_sug1=9&rsv_sug7=100&rsv_sug2=0&rsv_btype=t&inputT=5324&rsv_sug4=5626&rsv_sug=1'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'
}
# 这里我们只需要给一个user-agent就能够返回了,所以我们就不用继续给Cookie 和 Referer等参数。html = requests.get(url, headers=headers)
print(html.text)
但是,按照我们刚才推论出来的结果,我们用这个网址进行搜索,对于同一个 wd值 的返回的结果是固定的,这当然不是我们想要的。
所以我们可以把其它的参数都给删掉。
"""
import requestsurl = 'https://www.baidu.com/s?wd=Python'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36','cookie':'BIDUPSID=B1F42D0D8BD6CE75C9B0290A9BAF2542; PSTM=1734239698; BAIDUID=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BDUSS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BDUSS_BFESS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BD_UPN=12314753; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=5; BAIDUID_BFESS=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BA_HECTOR=2024ak058g8h2l0g0gah8180afd4as1jph43r1v; ZFY=pRGjK1fPQMj:Aq4XO1Q:ASRpcxNTPuaK66RZE1Jh5snKs:C; B64_BOT=1; H_PS_PSSID=61027_61542_61737_61782_61872_61878_61997_62001; BDRCVFR[feWj1Vr5u3D]=-_EV5wtlMr0mh-8uz4WUvY; baikeVisitId=dd0da186-dfcc-4b80-a830-a2e6ef3800e9; H_PS_645EC=bf09nMdMAx3qgm57o9DK9esArY%2FGSNJULT%2FUkOm6IqpNNWAGBqrHMEotjX3hI1z%2B2tOq; COOKIE_SESSION=29_0_4_9_0_3_1_0_4_3_0_0_0_0_0_0_0_0_1738052751%7C9%23257689_3_1734922612%7C2'}
# 这里我们需要加上Cookie才行html = requests.get(url, headers=headers)
print(html.text)
但是这样我们要加上Cookie,可能其它的参数和Cookie有所重复。
页面解析
下面我们来看看怎么去解析页面获取我们所需要的内容。
其中红框的内容是我们所需要的搜索结果。
方法就是和之前都一样的,这里就不多说了,直接看结果。
//div[@id=‘content_left’]/div[contains(@class,“result”)]/div/div/div/h3/a
上面是Xpath,下面是Bs4
div#content_left div.result.c-container.xpath-log.new-pmd h3 a
#Xpath版
import requests
from lxml import etreeurl = 'https://www.baidu.com/s?wd=Python'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36','cookie':'BIDUPSID=B1F42D0D8BD6CE75C9B0290A9BAF2542; PSTM=1734239698; BAIDUID=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BDUSS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BDUSS_BFESS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BD_UPN=12314753; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=5; BAIDUID_BFESS=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BA_HECTOR=2024ak058g8h2l0g0gah8180afd4as1jph43r1v; ZFY=pRGjK1fPQMj:Aq4XO1Q:ASRpcxNTPuaK66RZE1Jh5snKs:C; B64_BOT=1; H_PS_PSSID=61027_61542_61737_61782_61872_61878_61997_62001; BDRCVFR[feWj1Vr5u3D]=-_EV5wtlMr0mh-8uz4WUvY; baikeVisitId=dd0da186-dfcc-4b80-a830-a2e6ef3800e9; H_PS_645EC=bf09nMdMAx3qgm57o9DK9esArY%2FGSNJULT%2FUkOm6IqpNNWAGBqrHMEotjX3hI1z%2B2tOq; COOKIE_SESSION=29_0_4_9_0_3_1_0_4_3_0_0_0_0_0_0_0_0_1738052751%7C9%23257689_3_1734922612%7C2'
}html = requests.get(url, headers=headers)soup = etree.HTML(html.text)
divs = soup.xpath('//div[@id="content_left"]/div[contains(@class,"result")]/div/div/div/h3/a')
for div in divs:print(div.text)print(div.get('href'))
#Bs4版
import requests
from bs4 import BeautifulSoupurl = 'https://www.baidu.com/s?wd=Python'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36','cookie':'BIDUPSID=B1F42D0D8BD6CE75C9B0290A9BAF2542; PSTM=1734239698; BAIDUID=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BDUSS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BDUSS_BFESS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BD_UPN=12314753; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=5; BAIDUID_BFESS=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BA_HECTOR=2024ak058g8h2l0g0gah8180afd4as1jph43r1v; ZFY=pRGjK1fPQMj:Aq4XO1Q:ASRpcxNTPuaK66RZE1Jh5snKs:C; B64_BOT=1; H_PS_PSSID=61027_61542_61737_61782_61872_61878_61997_62001; BDRCVFR[feWj1Vr5u3D]=-_EV5wtlMr0mh-8uz4WUvY; baikeVisitId=dd0da186-dfcc-4b80-a830-a2e6ef3800e9; H_PS_645EC=bf09nMdMAx3qgm57o9DK9esArY%2FGSNJULT%2FUkOm6IqpNNWAGBqrHMEotjX3hI1z%2B2tOq; COOKIE_SESSION=29_0_4_9_0_3_1_0_4_3_0_0_0_0_0_0_0_0_1738052751%7C9%23257689_3_1734922612%7C2'
}html = requests.get(url, headers=headers)soup = BeautifulSoup(html.text, 'lxml')
divs = soup.select('div#content_left div.result.c-container.xpath-log.new-pmd h3 a')
for div in divs:print(div.text.strip())print(div['href'])
两个的效果对比,还是Bs4更好一点,所以下面我们就继续用bs
4来写。
自定义搜索和翻页
我们下面来实现自定义的搜索,也就是我们来修改wd的值。
我们只需要加一个input,然后将输入的值替换wd。
import requests
from bs4 import BeautifulSoupsearch = input('请输入搜索内容:')
url = f'https://www.baidu.com/s?wd={search}'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36','cookie':'BIDUPSID=B1F42D0D8BD6CE75C9B0290A9BAF2542; PSTM=1734239698; BAIDUID=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BDUSS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BDUSS_BFESS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BD_UPN=12314753; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=5; BAIDUID_BFESS=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BA_HECTOR=2024ak058g8h2l0g0gah8180afd4as1jph43r1v; ZFY=pRGjK1fPQMj:Aq4XO1Q:ASRpcxNTPuaK66RZE1Jh5snKs:C; B64_BOT=1; H_PS_PSSID=61027_61542_61737_61782_61872_61878_61997_62001; BDRCVFR[feWj1Vr5u3D]=-_EV5wtlMr0mh-8uz4WUvY; baikeVisitId=dd0da186-dfcc-4b80-a830-a2e6ef3800e9; H_PS_645EC=bf09nMdMAx3qgm57o9DK9esArY%2FGSNJULT%2FUkOm6IqpNNWAGBqrHMEotjX3hI1z%2B2tOq; COOKIE_SESSION=29_0_4_9_0_3_1_0_4_3_0_0_0_0_0_0_0_0_1738052751%7C9%23257689_3_1734922612%7C2'
}html = requests.get(url, headers=headers)soup = BeautifulSoup(html.text, 'lxml')
divs = soup.select('div#content_left div.result.c-container.xpath-log.new-pmd h3 a')
for div in divs:print('标题文本:', div.text.strip())print('跳转链接:', div['href'])print('-------------------------------------------------------------------------------------------')
在百度搜索的最后有一个翻页的功能,这个我们也能够实现。
这是它搜索的 2、3 页,我们观察它的载荷,显而易见pn是我们所需要的翻页。
它是按照 10 为间隔,0是第一页,10是第二页,以此类推。
下面我们可以显示前十页的内容。
import requests
from lxml import etree
from bs4 import BeautifulSoupsearch = input('请输入搜索内容:')
for i in range(0, 100, 10):url = f'https://www.baidu.com/s?wd={search}&pn={i}'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36','cookie':'BIDUPSID=B1F42D0D8BD6CE75C9B0290A9BAF2542; PSTM=1734239698; BAIDUID=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BDUSS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BDUSS_BFESS=Dh2dVNkLTQ0ZnZob2lWWGEzNXdZLTBubzZMZlhsMWhYUTNMb2FiSEJVM213SzVuSVFBQUFBJCQAAAAAAQAAAAEAAAAuxc1outqyu8CtvLjQobDXzcMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOYzh2fmM4dnc; BD_UPN=12314753; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=5; BAIDUID_BFESS=B1F42D0D8BD6CE75087359BD19AEC05E:FG=1; BA_HECTOR=2024ak058g8h2l0g0gah8180afd4as1jph43r1v; ZFY=pRGjK1fPQMj:Aq4XO1Q:ASRpcxNTPuaK66RZE1Jh5snKs:C; B64_BOT=1; H_PS_PSSID=61027_61542_61737_61782_61872_61878_61997_62001; BDRCVFR[feWj1Vr5u3D]=-_EV5wtlMr0mh-8uz4WUvY; baikeVisitId=dd0da186-dfcc-4b80-a830-a2e6ef3800e9; H_PS_645EC=bf09nMdMAx3qgm57o9DK9esArY%2FGSNJULT%2FUkOm6IqpNNWAGBqrHMEotjX3hI1z%2B2tOq; COOKIE_SESSION=29_0_4_9_0_3_1_0_4_3_0_0_0_0_0_0_0_0_1738052751%7C9%23257689_3_1734922612%7C2'}html = requests.get(url, headers=headers)soup = BeautifulSoup(html.text, 'lxml')divs = soup.select('div#content_left div.result.c-container.xpath-log.new-pmd h3 a')for div in divs:print('标题文本:', div.text.strip())print('跳转链接:', div['href'])print('-------------------------------------------------------------------------------------------')
如上,我们的无广百·度就实现了。
尾声
大佬们,Xpath的内容就到这里了,和Bs4的处理基本也是一样的,今天写的所有代码我会在下面通过网盘的方式提供给大家,可以用来复习一下。
链接:小白兔的礼物——Xpath学习
提取码:BpWS
大家可以自行去多爬一些网页,多多熟练一下。
下一回我们来学 正则表达式,正则是最全能的一个,当前面两个不能用的时候,我们就需要用上我们的正则。
相关文章:
Python爬虫学习第三弹 —— Xpath 页面解析 实现无广百·度
早上好啊,大佬们。上回使用 Beautiful Soup 进行页面解析的内容是不是已经理解得十分透彻了~ 这回我们再来尝试使用另外一种页面解析,来重构上一期里写的那些代码。 讲完Xpath之后,小白兔会带大家解决上期里百度搜索的代码编写,保…...
JS 正则表达式 -- 分组【详解】含普通分组、命名分组、反向引用
普通分组 使用圆括号 () 来创建分组捕获匹配的内容,通过正则表达式匹配结果的数组来访问这些捕获的内容。 const str "Hello, World!"; const regex /(Hello), (World)!$/; const match str.match(regex);if (match) {console.log("完整匹配结果…...
Leetcode刷题-不定长滑动窗口
分享丨【题单】滑动窗口与双指针(定长/不定长/单序列/双序列/三指针/分组循环) - 力扣(LeetCode) 3090 class Solution:def maximumLengthSubstring(self, s: str) -> int:c Counter()res 0rk -1for i in range(len(s)):i…...
【Rust自学】15.6. RefCell与内部可变性:“摆脱”安全性限制
题外话,这篇文章一共4050字,是截止到目前为止最长的文章,如果你能坚持读完并理解,那真的很强! 喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文),对接下来的教程有兴趣的可以…...
护眼好帮手:Windows显示器调节工具
在长时间使用电脑的过程中,显示器的亮度和色温对眼睛的舒适度有着重要影响。传统的显示器调节方式不仅操作繁琐,而且在低亮度下容易导致色彩失真。因此,今天我想为大家介绍一款适用于Windows系统的护眼工具,它可以帮助你轻松调节显…...
使用 OpenResty 构建高效的动态图片水印代理服务20250127
使用 OpenResty 构建高效的动态图片水印代理服务 在当今数字化的时代,图片在各种业务场景中广泛应用。为了保护版权、统一品牌形象,动态图片水印功能显得尤为重要。然而,直接在后端服务中集成水印功能,往往会带来代码复杂度增加、…...
36、【OS】【Nuttx】OSTest分析(2):环境变量测试
背景 2025.1.29 蛇年快乐! 接之前wiki 35、【OS】【Nuttx】OSTest分析(1):stdio测试(五) 已经分析完了第一个测试项,输入输出端口测试,接下来分析下环境变量测试,也比较…...
C++并发编程指南04
文章目录 共享数据的问题3.1.1 条件竞争双链表的例子条件竞争示例恶性条件竞争的特点 3.1.2 避免恶性条件竞争1. 使用互斥量保护共享数据结构2. 无锁编程3. 软件事务内存(STM) 总结互斥量与共享数据保护3.2.1 互斥量使用互斥量保护共享数据示例代码&…...
Java实现LRU缓存策略实战
实现LRU模型选择LRU缓存回收算法集成Google Guava(LRU缓存策略)插件Google Guava(LRU策略)缓存示例总结LRU(Least Recently Used,最近最少使用)缓存是一种常见的缓存淘汰策略。它的基本思想是优先保留最近被访问过的数据,淘汰最久未被访问的数据。这种策略的目的是为了…...
三个不推荐使用的线程池
线程池的种类 其实看似这么多的线程池,都离不开ThreadPoolExecutor去创建,只不过他们是简化一些参数 newFixedThreadPool 里面全是核心线程 有资源耗尽的风险,任务队列最大长度为Integer.MAX_VALUE,可能会堆积大量的请求ÿ…...
Golang 并发机制-1:Golang并发特性概述
并发是现代软件开发中的一个基本概念,它使程序能够同时执行多个任务,从而提高效率和响应能力。在本文中,我们将探讨并发性在现代软件开发中的重要性,并深入研究Go处理并发任务的独特方法。 并发的重要性 增强性能 并发在提高软…...
Flink中的时间和窗口
在批处理统计中,我们可以等待一批数据都到齐后,统一处理。但是在实时处理统计中,我们是来一条就得处理一条,那么我们怎么统计最近一段时间内的数据呢?引入“窗口”。 所谓的“窗口”,一般就是划定的一段时…...
Alfresco Content Services dockerCompose自动化部署详尽操作
Alfresco Content Services docker社区部署文档 Alfresco Content Services简介 官方说明书 https://support.hyland.com/r/Alfresco/Alfresco-Content-Services-Community-Edition/23.4/Alfresco-Content-Services-Community-Edition/Using/Content/Folder-rules/Defining-…...
吴恩达深度学习——深层神经网络
来自https://www.bilibili.com/video/BV1FT4y1E74V,仅为本人学习所用。 符号约定 对于该深层网络,有四层,包含三个隐藏层和一个输出层。 隐藏层中,第一层有五个单元、第二层有五个单元,第三层有三个单元。标记 l l l…...
【算法设计与分析】实验1:字符串匹配问题的算法设计与求解
目录 一、实验目的 二、实验环境 三、实验内容 四、核心代码 五、记录与处理 六、思考与总结 七、完整报告和成果文件提取链接 一、实验目的 给定一个文本,在该文本中查找并定位任意给定字符串。 1、深刻理解并掌握蛮力法的设计思想; 2、提高应用…...
C语言二级题解:查找字母以及其他字符个数、数字字符串转双精度值、二维数组上下三角区域数据对调
目录 一、程序填空题 --- 查找字母以及其他字符个数 题目 分析 二、程序修改 --- 数字字符串转双精度值 题目 分析 小数位字符串转数字 三、程序设计 --- 二维数组上下三角区域数据对调 题目 分析 前言 本文来讲解: 查找字母以及其他字符个数、数字字符串…...
Git进阶之旅:Git 配置信息 Config
Git 配置级别: 仓库级别:local [ 优先级最高 ]用户级别:global [ 优先级次之 ]系统级别:system [ 优先级最低 ] 配置文件位置: git 仓库级别对应的配置文件是当前仓库下的 .git/configgit 用户级别对应的配置文件时用…...
Qwen2-VL:在任何分辨率下增强视觉语言模型对世界的感知 (大型视觉模型 核心技术 分享)
摘要 我们推出了Qwen2-VL系列,这是对之前Qwen-VL模型的高级升级,重新定义了视觉处理中的常规预设分辨率方法。Qwen2-VL引入了Naive Dynamic Resolution机制,使模型能够动态地将不同分辨率的图像转换为不同的视觉令牌数量。这种方法允许模型生成更高效和准确的视觉表示,紧密…...
【C语言】在Windows上为可执行文件.exe添加自定义图标
本文详细介绍了在 Windows 环境下,如何为使用 GCC 编译器编译的 C程序 添加自定义图标,从而生成带有图标的 .exe 可执行文件。通过本文的指导,读者可以了解到所需的条件以及具体的操作步骤,使生成的程序更具专业性和个性化。 目录 1. 准备条件2. 具体步骤步骤 1: 准备资源文…...
记录 | Docker的windows版安装
目录 前言一、1.1 打开“启用或关闭Windows功能”1.2 安装“WSL”方式1:命令行下载方式2:离线包下载 二、Docker Desktop更新时间 前言 参考文章:Windows Subsystem for Linux——解决WSL更新速度慢的方案 参考视频:一个视频解决D…...
FortiOS 存在身份验证绕过导致命令执行漏洞(CVE-2024-55591)
免责声明: 本文旨在提供有关特定漏洞的深入信息,帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步,未经授权访问系统、网络或应用程序,可能会导致法律责任或严重后果。因此,作者不对读者基于本文内容所采取的任何行为承担责任。读者在…...
系统思考—心智模式
“我们的大脑对连贯性的渴望远胜于对准确性的追求。”—诺贝尔经济学得主丹尼尔卡尼曼 在面对复杂的决策时,我们往往更倾向于寻找那些能够迅速串联起来的信息,而非深入挖掘每一个细节的真实性。这种倾向在日常生活中或许能帮助我们迅速作出决策…...
【信息系统项目管理师-选择真题】2008上半年综合知识答案和详解
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1题】【第2题】【第3题】【第4题】【第5题】【第6题】【第7~8题】【第9题】【第10题】【第11题】【第12题】【第13题】【第14题】【第15题】【第16~20题】【第21题】【第22题】【第23题】【第24题】【第25题…...
深入理解三高架构:高可用性、高性能、高扩展性的最佳实践
引言 在现代互联网环境下,随着用户规模和业务需求的快速增长,系统架构的设计变得尤为重要。为了确保系统能够在高负载和复杂场景下稳定运行,"三高架构"(高可用性、高性能、高扩展性)成为技术架构设计中的核…...
从 SAP 功能顾问到解决方案架构师:破茧成蝶之路
目录 行业瞭望:架构师崭露头角 现状剖析:功能顾问的局限与机遇 能力跃迁:转型的核心要素 (一)专业深度的掘进 (二)集成能力的拓展 (三)知识广度的延伸 ࿰…...
《从因果关系的角度学习失真不变表示以用于图像恢复》学习笔记
paper:2303.06859 GitHub:lixinustc/Causal-IR-DIL: Distortion invariant feature learning for image restoration from a causality perspective 2023 CVPR 目录 摘要 1、介绍 1.1 图像修复任务 1.2 失真不变表示学习 1.3 因果效应估计的挑战…...
STM32 PWM驱动直流电机
接线图: 代码配置: 根据驱动舵机的代码来写,与舵机不同的是,这次的引脚接到了PA2上,所以需要改一下引脚以及改为OC3通道。 另外还需在配置两个GPIO引脚,来控制电机的旋转方向,这里连接到了PA4与…...
【Hadoop】Hadoop 概述
Hadoop 概述 Hadoop 是什么Hadoop 发展历史Hadoop 三大发行版本Hadoop 优势(4 高)Hadoop 组成(面试重点)HDFS 架构概述YARN 架构概述MapReduce 架构概述HDFS、YARN、MapReduce 三者关系 大数据技术生态体系 Hadoop 是什么 Hadoop…...
【仪器分析】FACTs-幅度
** 当然,这回是一篇没有插图的文章,但是有足够多的描述可以用来想象。 我拿这个系列当作前传试试水 引言。正弦信号可能会发生怎样的变化? ** 近日学FACTs,险些成为传函丁真, 如果从仪器角度考察正弦信号的测量&…...
deepseek R1的确不错,特别是深度思考模式
deepseek R1的确不错,特别是深度思考模式,每次都能自我反省改进。比如我让 它写文案: 【赛博朋克版程序员新春密码——2025我们来破局】 亲爱的代码骑士们: 当CtrlS的肌肉记忆遇上抢票插件,当Spring Boot的…...
Unity敌人逻辑笔记
写ai逻辑基本上都需要状态机。因为懒得手搓状态机,所以选择直接用动画状态机当逻辑状态机用。 架构设计 因为敌人的根节点已经有一个animator控制动画,只能增加一个子节点AI,给它加一个animator指向逻辑“动画”状态机。还有一个脚本&#…...
C++,STL 简介:历史、组成、优势
文章目录 引言一、STL 的历史STL 的核心组成三、STL 的核心优势四、结语进一步学习资源: 引言 C 是一门强大且灵活的编程语言,但其真正的魅力之一在于其标准库——尤其是标准模板库(Standard Template Library, STL)。STL 提供了…...
【事务管理】
目录 一. 介绍与操作二. Spring事务管理三. 事务四大特性 \quad 一. 介绍与操作 \quad \quad 二. Spring事务管理 \quad 推荐加在经常进行增删改的方法上 \quad 三. 事务四大特性 \quad ctrlaltt...
ERP革新:打破数据壁垒,重塑市场竞争
标题:ERP革新:打破数据壁垒,重塑市场竞争 文章信息摘要: Operator和Computer Use等工具通过模拟用户交互和自动化数据提取,绕过了传统ERP系统的API限制,打破了其数据护城河。这种技术革新降低了企业切换软…...
小阿卡纳牌
小阿卡纳牌 风:热湿 火:热干 水:冷湿 土:冷干 火风:温度相同,但是湿度不同,二人可能会在短期内十分热情,但是等待热情消退之后,会趋于平淡。 湿度相同、温度不同&#x…...
android的gradle
资料: GitHub - ChenSWD/CopyGradleInAction: 备份《Gradle IN Action》书中的源码,添加了部分注释 //github上一个开源项目,外加pdf书 Gradle User Manual gradle官网 讲的挺好的博客 Gradle之重新认识Gradle(项目结构、命令行、tas…...
时间轮:XXL-JOB 高效、精准定时任务调度实现思路分析
大家好,我是此林。 定时任务是我们项目中经常会遇到的一个场景。那么如果让我们手动来实现一个定时任务框架,我们会怎么做呢? 1. 基础实现:简单的线程池时间轮询 最直接的方式是创建一个定时任务线程池,用户每提交一…...
【愚公系列】《循序渐进Vue.js 3.x前端开发实践》029-组件的数据注入
标题详情作者简介愚公搬代码头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主&…...
「 机器人 」扑翼飞行器控制的当前挑战与后续潜在研究方向
前言 在扑翼飞行器设计与控制方面,虽然已经取得了显著的进步,但在飞行时间、环境适应性、能量利用效率及模型精度等方面依旧存在亟待解决的挑战。以下内容概括了这些挑战和可能的改进路径。 1. 当前挑战 1.1 飞行时间短 (1)主要原因 能源存储有限(电池容量小)、驱动系…...
ICSE‘25 LLM Assistance for Memory Safety
不知道从什么时候开始,各大技术社区,技术群聊流行着 “用Rust重写!” ,放一张图(笑死… 这不, 随着大模型技术的流行,大家都在探索如何让大模型自动完成仓库级别(全程序)的代码重构,代码变换(Refactor&…...
使用 Docker 运行 Oracle Database 23ai Free 容器镜像并配置密码与数据持久化
使用 Docker 运行 Oracle Database 23ai Free 容器镜像并配置密码与数据持久化 前言环境准备运行 Oracle Database 23ai Free 容器基本命令参数说明示例 注意事项高级配置参数说明 总结 前言 Oracle Database 23ai Free 是 Oracle 提供的免费版数据库,基于 Oracle …...
在Linux系统上安装.NET
测试系统:openKylin(开放麒麟) 1.确定系统和架构信息: 打开终端(Ctrl Alt T),输入cat /etc/os-release查看系统版本相关信息。 输入uname -m查看系统架构。确保你的系统和架构符合.NET 的要求,如果架构…...
C++ unordered_map和unordered_set的使用,哈希表的实现
文章目录 unordered_map,unorder_set和map ,set的差异哈希表的实现概念直接定址法哈希冲突哈希冲突举个例子 负载因子将关键字转为整数哈希函数除法散列法/除留余数法 哈希冲突的解决方法开放定址法线性探测二次探测 开放定址法代码实现 哈希表的代码 un…...
星火大模型接入及文本生成HTTP流式、非流式接口(JAVA)
文章目录 一、接入星火大模型二、基于JAVA实现HTTP非流式接口1.配置2.接口实现(1)分析接口请求(2)代码实现 3.功能测试(1)测试对话功能(2)测试记住上下文功能 三、基于JAVA实现HTTP流…...
数据结构——二叉树——堆(1)
今天,我们来写一篇关于数据结构的二叉树的知识。 在学习真正的二叉树之前,我们必不可少的先了解一下二叉树的相关概念。 一:树的概念 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层…...
【HarmonyOS之旅】基于ArkTS开发(三) -> 兼容JS的类Web开发(二)
目录 1 -> HML语法 1.1 -> 页面结构 1.2 -> 数据绑定 1.3 -> 普通事件绑定 1.4 -> 冒泡事件绑定5 1.5 -> 捕获事件绑定5 1.6 -> 列表渲染 1.7 -> 条件渲染 1.8 -> 逻辑控制块 1.9 -> 模板引用 2 -> CSS语法 2.1 -> 尺寸单位 …...
SOME/IP--协议英文原文讲解4
前言 SOME/IP协议越来越多的用于汽车电子行业中,关于协议详细完全的中文资料却没有,所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块: 1. SOME/IP协议讲解 2. SOME/IP-SD协议讲解 3. python/C举例调试讲解 4.1.3 End…...
【AI】【本地部署】OpenWebUI的升级并移植旧有用户信息
【背景】 OpenWebUI的版本升级频率很高,并会修改旧版本的Bug,不过对于已经在使用的系统,升级后现有用户信息都会丢失,于是研究如何在升级后将现有的用户信息移植到升级后版本。 【准备工作】 OpenWebUI的升级步骤在Docker中有现…...
论文笔记(六十三)Understanding Diffusion Models: A Unified Perspective(五)
Understanding Diffusion Models: A Unified Perspective(五) 文章概括基于得分的生成模型(Score-based Generative Models) 文章概括 引用: article{luo2022understanding,title{Understanding diffusion models: A…...
Tableau:为数据科学专家量身定制
Tableau是一款功能强大且广泛应用的数据可视化和商业智能(BI)工具,由斯坦福大学的三位研究者于2003年创立。它旨在通过直观的界面和强大的功能,帮助用户轻松地探索、分析和呈现数据,从而做出更明智的决策。 核心功能与…...