标签: Python

常用命令

Scrapy是一个高性能速度快的网络爬虫框架，使用相对简单，容易上手。

Scrapy的常用命令包括下面几个。

添码座原创大约 6 分钟

先准备好需要的组件包。

> pip install requests
> pip install prettytable
> pip install DrissionPage

添码座原创大约 2 分钟

爬取某鹅数据

依然使用DrissionPage来抓取。

'''
    基于DrissionPage实现某鹅视频评论数据的爬取
'''
from DrissionPage import ChromiumPage
import json
import base64

# 打开浏览器
page = ChromiumPage()
# 监听响应网址
page.listen.start("trpc.universal_backend_service.page_server_rpc.PageServer/GetPageData?video_appid=1000005&vversion_name=1.0.0&")
page.get('https://v.qq.com/x/cover/75m13e64doz91ul/a0017zmel91.html')

i = 0
# 自动翻页
while True:
    # 等待请求加载完毕，并拿到数据
    print(f"=========== 开始滚动第{i + 1}次 ===========")
    page.scroll.to_bottom()
    i += 1
    page.wait(2)
    if not page.scroll.to_bottom():
        break
    resp = page.listen.wait().response
    jsonp = resp.body
    data = jsonp['data']['module_list_datas']
    for item in data:
        complex_json = item['module_datas'][0]['item_data_lists']['item_datas'][0]
        jsonp = json.loads(complex_json['complex_json'])
        # decoded_string = base64.b64decode(jsonp)
        # 拿到某个用户评论相关的所有数据
        # 得到用户名和用户评论信息
        username = base64.b64decode(jsonp['user']['base']['name']).decode('utf-8')
        comment = base64.b64decode(jsonp['content']['content']).decode('utf-8')
        print(f'{username} --------- {comment}')

添码座原创大约 1 分钟

爬取某宝数据

除了Fiddler，Chrome浏览器自带的开发者工具也非常好用，一般情况下用它来抓包已经足够了。

Chrome浏览器的开发者工具

这里使用一个新工具DrissionPage来抓取某宝的数据。

添码座原创大约 1 分钟

抓包分析技术

Fiddler是一款免费的互联网通信调试工具，它位于客户端和服务器端之间，既可以用来充当服务器代理，也可以作为抓包工具捕捉每一条通信数据。

可以给Fiddler搭配一款专用的抓包浏览器，避免频繁设置的麻烦，例如，Firefox。

添码座原创大约 3 分钟

爬取微信文章

构建用户代理和IP池

'''
    同时使用用户代理池和IP代理池
'''

from urllib import request
import time

# 调用动态IP接口
# ip_pools：动态IP池
# target_url：要爬取的目标网页地址
# api_url：动态IP接口地址
def agent_ip(ip_pools, target_url, api_url):
    import random
    uapools = [
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
    ]
    def api(api_url):
        print("调用了接口")
        request.urlcleanup()
        result = request.urlopen(api_url).read().decode("utf-8", "ignore")
        return result

    def ip(ip_pools, uapools):
        thisua = random.choice(uapools)
        print(thisua)
        headers = ("User-Agent", thisua)
        thisip = ip_pools
        print("当前用的IP是：" + thisip)
        proxy = request.ProxyHandler({"http": thisip})
        opener = request.build_opener(proxy, request.HTTPHandler)
        opener.addheaders = [headers]
        request.install_opener(opener)

    if (ip_pools == 0):
        while True:
            ippools = api(api_url)
            print("提取IP完成")
            ip(ippools, uapools)
            print("正在验证IP有效性")
            data1 = request.urlopen("http://www.baidu.com").read().decode("utf-8", "ignore")
            if (len(data1) > 5000):
                print("当前IP有效")
                break
            else:
                print("当前IP无效，正在延时")
                time.sleep(60)
    else:
        ip(ip_pools, uapools)
    data = request.urlopen(target_url).read().decode("utf-8", "ignore")
    return ip_pools, data

添码座原创大约 2 分钟

池构建技术

用户代理池

from urllib import request
import re
import random

# 用户代理池
pools = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
]

# 每次都随机选择一个User-Agent
def agent():
    # 随机选择一个User-Agent
    ua = random.choice(pools)
    ua = ("User-Agent", ua)
    opener = request.build_opener()
    opener.addheaders = [ua]
    request.install_opener(opener)
    # print("当前使用的User-Agent：" + str(ua))

for i in range(0, 10):
    try:
        agent()
        url = "http://baike.baidu.com/item/" + str(i + 1)
        data = request.urlopen(url).read().decode("utf-8", "ignore")
        pat = '<h1 class="lemmaTitle_pFwpd J-lemma-title">(.*?)</h1>'
        rst = re.compile(pat, re.S).findall(data)
        for j in range(0, len(rst)):
            print(rst[j])
            print("------------------------")
    except Exception as e:
        print(e)

添码座原创大约 6 分钟

爬取应用说明

网络爬虫是一种互联网数据的自动化采集程序，主要作用是代替人工对网络中的数据进行自动采集与整理，以快速地、批量地获取目标数据。

从技术手段来说，网络爬虫有多种实现方案，如PHP、Python（Urllib、Scrapy、Selenium）等。

添码座原创大约 2 分钟

特性对比

没有优劣，只有适合

Java：由于出道早、跨平台、纯面向对象、具有JVM、生态成熟等特性，已成为编程语言领域的标杆之一，主要用于三高（高并发、高可用和高性能）企业级应用的开发。
Python：由于简单、灵活，且第三方算法库众多，已成为网络爬虫、数据科学、人工智能领域的主要编程语言（没有之一）。
Go：天生就没有所谓线程，而只有协程的概念，它主要用来解决网络服务和云计算环境下复杂的系统通讯问题，非常适合于开发云计算、区块链等应用中的原生网络组件。
Scala：运行于JVM之上，在大数据应用领域中处于顶流的Spark（全部源码）和Flink（部分源码）就是用它开发的，所以用它来进行大数据统计分析是再合适不过的。
Kotlin：运行于JVM之上，被Google钦定为Android开发的首选语言。
ArkTS：它是HarmonyOS首推的应用开发语言，是Ark（华为方舟编译器）和TypeScript的结合体。
Drools、Groovy和Aviator：作为规则引擎，其量级从重到轻。Drools是用Java开发出来的规则系统，而后两者则是基于JVM的脚本语言。
Lua：运行于Nginx之上的轻量且可扩展的脚本语言，用于扩展或定制Web应用的功能。

添码座原创大约 2 分钟

UI界面

PyQt

首先，通过Pip安装PyQt组件。

> pip install pyqt6
> pip install pyqt6-tools

添码座大约 8 分钟