热点资讯
物联网软件开发资讯 Python收集编程实战之爬虫技能初学与执行Python收集编程实战之爬虫技能初学与执行
发布日期:2024-08-21 15:59 点击次数:197
一、简介本篇著述将通过先容Python爬虫技能,匡助读者领会收集数据抓取的基欢跃趣和要领。二、爬虫技能基础观念爬虫:自动获得收集数据的要津。Web页面结构:HTML、CSS、JavaScript等。HTTP恳求:客户端向作事器恳求数据的方式。HTTP反馈:作事器复返给客户端的数据。三、恳求与反馈使用Python的requests库发送HTTP恳求。1234import requestsurl = "https://www.example.com"response = requests.get(url)获得反馈内容1html_content = response.text四、HTML剖析与数据索取使用BeautifulSoup库剖析HTML内容。123from bs4 import BeautifulSoupsoup = BeautifulSoup(html_content, "html.parser")使用CSS选拔器或其他要领索取数据。1title = soup.title.string五、实战:爬取简书网站首页著述信息发送恳求,获得简书网站首页HTML内容。123456import requestsfrom bs4 import BeautifulSoupurl = "https://www.jianshu.com"response = requests.get(url)html_content = response.text六、存储数据将数据存储为JSON方法。1234import jsonwith open("jianshu_articles.json", "w", encoding="utf-8") as f:json.dump(article_info_list, f, ensure_ascii=False, indent=4)七、测试与优化1.碰到反爬虫战术时,不错使用User-Agent伪装成浏览器。12headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)2.使用time.sleep()函数限度恳求频率。123import timetime.sleep(10)3.装假惩办与超越拿获。12345try:response = requests.get(url, headers=headers, timeout=5)response.raise_for_status()except requests.exceptions.RequestException as e:print(f"Error: {e}")网站爬虫齐全代码:123456789101112131415161718192021222324252627282930313233343536373839404142import requestsfrom bs4 import BeautifulSoupimport jsonimport timedef fetch_jianshu_articles():url = "https://www.jianshu.com"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}try:response = requests.get(url, headers=headers, timeout=5)response.raise_for_status()except requests.exceptions.RequestException as e:print(f"Error: {e}")returnhtml_content = response.textsoup = BeautifulSoup(html_content, "html.parser")articles = soup.find_all("div", class_="content")article_info_list = []for article in articles:title = article.h2.text.strip()author = article.find("span", class_="name").text.strip()link = url + article.h2.a["href"]article_info = {"title": title, "author": author, "link": link}article_info_list.append(article_info)return article_info_listdef save_to_json(article_info_list, filename):with open(filename, "w", encoding="utf-8") as f:json.dump(article_info_list, f, ensure_ascii=False, indent=4)if __name__ == "__main__":article_info_list = fetch_jianshu_articles()if article_info_list:save_to_json(article_info_list, "jianshu_articles.json")print("Jianshu articles saved to 'jianshu_articles.json'.")else:print("Failed to fetch Jianshu articles.")八、纪念及拓展本文通过先容Python爬虫技能,匡助读者领会收集数据抓取的基欢跃趣和要领。掌捏爬虫技能是成为别称全栈工程师的伏击手段之一,同期也为数据分析、大数据惩办等领域奠定基础。在本色愚弄中,还不错尝试抓取更复杂的网站、使用代理IP、构建永别式爬虫等要领,提升爬虫的效能和踏实性。九、补充在著述三中,咱们如故先容了奈何使用Python进行收集爬虫的基本操作。为了更好地领会这个实战神志,咱们需要了解一些基础观念和旨趣,这将有助于掌捏Python的收集编程和爬虫技能。以下是一些基本的收集爬虫观念:HTTP条约:超文本传输条约(HTTP)是一种用于传输超媒体文档(如 HTML)的愚弄层条约。HTTP条约被用于从Web作事器传输或发布到Web浏览器或其他客户端的数据。HTML、CSS 和 JavaScript:HTML 是用来姿色网页的一种话语。CSS 是用来推崇 HTML 结构的样式。JavaScript 是网页编程的一种剧本话语,主要用于达成网页上的动态后果和与用户的交互。DOM:文档对象模子(DOM)是一种跨平台的编程接口,用于惩办 HTML 和 XML 文档。DOM将文档视为树形结构,物联网软件开发资讯其中每个节点代表一个部分(如元素、属性或文本)。URL:和谐资源定位符(URL)是用于指定互联网资源位置的一种字符串。恳求头(Request Headers):在HTTP恳求中,恳求头包含了对于客户端的环境、浏览器等信息。常见的恳求头字段有:User-Agent、Accept、Referer 等。反馈头(Response Headers):在HTTP反馈中,反馈头包含了对于作事器的信息、反馈景象码等信息。常见的反馈头字段有:Content-Type、Content-Length、Server 等。 本站仅提供存储作事,所有内容均由用户发布,如发现存害或侵权内容,请点击举报。
个位:质数近期表现活跃,当前连续走冷了4期,本期预计质数连续开出;另外,在最近20期奖号中,该位0路和2路号码表现非常活跃,占开奖总数的75.0%物联网软件开发资讯,本期继续关注0路或2路号码开出,关注号码5。
本期为排列三第2024182期开奖物联网软件开发资讯,历史上排列三第182期已开出了19期奖号了: