python爬取百度贴吧(难度1星)
2022年12月24日约 335 字大约 1 分钟
python爬取百度贴吧(难度1星)
1. 简介
指定贴吧名和需要的条数,将贴吧内容下载到本地
2. 涉及知识点
- requests 发起网络请求
- python文件操作
- open() 函数用于打开一个文件,创建一个 file 对象,相关的方法才可以调用它进行读写。
- f.write("hello\n"):写入数据
3. 完整代码
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import requests
class TiebaSpider():
def __init__(self, kw, max_pn):
self.max_pn = max_pn
self.kw = kw
self.base_url = "https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={}"
self.headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
}
pass
def get_url_list(self):
'''
获取 url 列表
:return:
'''
# 写法一
'''
url_list = []
for pn in range(0,self.max_pn,50):
url = self.base_url.format(self.kw,pn)
url_list.append(url)
return url_list
'''
# 写法二
return [self.base_url.format(self.kw, pn) for pn in range(0, self.max_pn, 50)]
def get_content(self, url):
'''
发送请求获取响应内容
:param url:
:return:
'''
response = requests.get(
url=url,
headers=self.headers
)
return response.content
def get_items(self, content, index):
'''
从响应内容中提取数据
:param content:
:return:
'''
with open('tieba-{}.html'.format(index), 'wb') as f:
f.write(content)
return None
def save_items(self, items):
'''
保存数据
:param items:
:return:
'''
pass
def run(self):
# 1. 获取 url 列表
url_list = self.get_url_list()
for url in url_list:
# 2. 发送请求获取响应
content = self.get_content(url)
# 3. 从响应中提取数据
items = self.get_items(content, url_list.index(url) + 1)
# 4. 保存数据
self.save_items(items)
pass
if __name__ == '__main__':
spider = TiebaSpider("英雄联盟", 150)
spider.run()
参考文章
Powered by Waline v2.9.1