首页 | 添码座

安装部署

仓颉编程语言（Cangjie）是华为编译器与编程语言实验室仓颉语言团队推出的一款面向全场景应用开发的编程语言，基本上就是为了辅助HarmonyOS而出现的。

添码座原创大约 1 分钟

悟性自足

王阳明的哲学思想和中国古代的《易经》是一脉相承的，都是 向内求，向下看。

而程朱理学和中国传统士大夫几千年来则都是 向外求，向上看。

添码座原创大约 1 分钟

Scrapy框架

常用命令

Scrapy是一个高性能速度快的网络爬虫框架，使用相对简单，容易上手。

Scrapy的常用命令包括下面几个。

添码座原创大约 6 分钟

用爬虫抢票

先准备好需要的组件包。

> pip install requests
> pip install prettytable
> pip install DrissionPage

添码座原创大约 2 分钟

爬取某鹅数据

依然使用DrissionPage来抓取。

'''
    基于DrissionPage实现某鹅视频评论数据的爬取
'''
from DrissionPage import ChromiumPage
import json
import base64

# 打开浏览器
page = ChromiumPage()
# 监听响应网址
page.listen.start("trpc.universal_backend_service.page_server_rpc.PageServer/GetPageData?video_appid=1000005&vversion_name=1.0.0&")
page.get('https://v.qq.com/x/cover/75m13e64doz91ul/a0017zmel91.html')

i = 0
# 自动翻页
while True:
    # 等待请求加载完毕，并拿到数据
    print(f"=========== 开始滚动第{i + 1}次 ===========")
    page.scroll.to_bottom()
    i += 1
    page.wait(2)
    if not page.scroll.to_bottom():
        break
    resp = page.listen.wait().response
    jsonp = resp.body
    data = jsonp['data']['module_list_datas']
    for item in data:
        complex_json = item['module_datas'][0]['item_data_lists']['item_datas'][0]
        jsonp = json.loads(complex_json['complex_json'])
        # decoded_string = base64.b64decode(jsonp)
        # 拿到某个用户评论相关的所有数据
        # 得到用户名和用户评论信息
        username = base64.b64decode(jsonp['user']['base']['name']).decode('utf-8')
        comment = base64.b64decode(jsonp['content']['content']).decode('utf-8')
        print(f'{username} --------- {comment}')

添码座原创大约 1 分钟

爬取某宝数据

除了Fiddler，Chrome浏览器自带的开发者工具也非常好用，一般情况下用它来抓包已经足够了。

Chrome浏览器的开发者工具

这里使用一个新工具DrissionPage来抓取某宝的数据。

添码座原创大约 1 分钟

抓包分析技术

Fiddler是一款免费的互联网通信调试工具，它位于客户端和服务器端之间，既可以用来充当服务器代理，也可以作为抓包工具捕捉每一条通信数据。

可以给Fiddler搭配一款专用的抓包浏览器，避免频繁设置的麻烦，例如，Firefox。

添码座原创大约 3 分钟

爬取微信文章

构建用户代理和IP池

'''
    同时使用用户代理池和IP代理池
'''

from urllib import request
import time

# 调用动态IP接口
# ip_pools：动态IP池
# target_url：要爬取的目标网页地址
# api_url：动态IP接口地址
def agent_ip(ip_pools, target_url, api_url):
    import random
    uapools = [
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
    ]
    def api(api_url):
        print("调用了接口")
        request.urlcleanup()
        result = request.urlopen(api_url).read().decode("utf-8", "ignore")
        return result

    def ip(ip_pools, uapools):
        thisua = random.choice(uapools)
        print(thisua)
        headers = ("User-Agent", thisua)
        thisip = ip_pools
        print("当前用的IP是：" + thisip)
        proxy = request.ProxyHandler({"http": thisip})
        opener = request.build_opener(proxy, request.HTTPHandler)
        opener.addheaders = [headers]
        request.install_opener(opener)

    if (ip_pools == 0):
        while True:
            ippools = api(api_url)
            print("提取IP完成")
            ip(ippools, uapools)
            print("正在验证IP有效性")
            data1 = request.urlopen("http://www.baidu.com").read().decode("utf-8", "ignore")
            if (len(data1) > 5000):
                print("当前IP有效")
                break
            else:
                print("当前IP无效，正在延时")
                time.sleep(60)
    else:
        ip(ip_pools, uapools)
    data = request.urlopen(target_url).read().decode("utf-8", "ignore")
    return ip_pools, data

添码座原创大约 2 分钟

池构建技术

用户代理池

from urllib import request
import re
import random

# 用户代理池
pools = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
]

# 每次都随机选择一个User-Agent
def agent():
    # 随机选择一个User-Agent
    ua = random.choice(pools)
    ua = ("User-Agent", ua)
    opener = request.build_opener()
    opener.addheaders = [ua]
    request.install_opener(opener)
    # print("当前使用的User-Agent：" + str(ua))

for i in range(0, 10):
    try:
        agent()
        url = "http://baike.baidu.com/item/" + str(i + 1)
        data = request.urlopen(url).read().decode("utf-8", "ignore")
        pat = '<h1 class="lemmaTitle_pFwpd J-lemma-title">(.*?)</h1>'
        rst = re.compile(pat, re.S).findall(data)
        for j in range(0, len(rst)):
            print(rst[j])
            print("------------------------")
    except Exception as e:
        print(e)

添码座原创大约 6 分钟

爬取应用说明

网络爬虫是一种互联网数据的自动化采集程序，主要作用是代替人工对网络中的数据进行自动采集与整理，以快速地、批量地获取目标数据。

从技术手段来说，网络爬虫有多种实现方案，如PHP、Python（Urllib、Scrapy、Selenium）等。

添码座原创大约 2 分钟

创造 · 奉献 · 陪伴

常用命令

构建用户代理和IP池

用户代理池