uf74b66bf7sz16 发表于 2023-1-18 09:12:05

获取抖音推荐和评论列表数据,超简单,一看就会

工欲善其事,必先利其器。
<hr>爬取网页数据,一般都是采用页面Xpath和请求接口取得数据,两种方式都有弊端,Xpath 需要不停的定位和寻找数据的位置,接口不仅需要查找接口,而且需要加密解密。

https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0f5f91f9ffc3405ab791851cff3c6c6a~tplv-tt-large.image?x-expires=1989367351&x-signature=vmacGJ1JjTYo4kTL576nEul6d3Q%3D

目标网站
demo用获取抖音的推荐接口,这个接口是加密的。接口地址是:/aweme/v1/web/aweme/post/(开发者工具中的网络标签可以找到接口)
之前分享过一次用代码片段(code snippet)的方式,有些人可能尝试过,对js的熟悉程度很高,门槛不低。但是不妨碍学习,因为你发现只需要变更url地址就可以获取到数据。

https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/de66a29dc50e4de4afbe840a4fe04905~tplv-tt-large.image?x-expires=1989367351&x-signature=NcQizmR8S53UO3VvHkUDLjO9hZc%3D

代码片段
我们用代码片段的目的是要拿到加密后的请求地址。今天我们分享python的方式,用更简单的方式来处理数据。

https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/e565e095acae417bae5c4b4bb717443b~tplv-tt-large.image?x-expires=1989367351&x-signature=EeBr%2F9bWpO3tmSXVpLG%2FOdDBKJ8%3D

copy代码片段到编辑器
依然是RPC的方式(在本地执行远程js方法,解决扣js补环境的问题),browser 是 selenium,定义一个类,代码稍微的规范一下。signatureurlget 方法里面是上面图的内容。init只是初始化了一个webdriver.ChromeOptions()。

https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/dff5dcbf22234218b0b10c549d62eef7~tplv-tt-large.image?x-expires=1989367351&x-signature=TT8PuZE%2BBKenGgoVyq8DRLYz0js%3D

规范一下代码
运行一下,获取到加密的地址,请求加密的地址,获取到结果

https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/e1a65b74a93543959a83052439d16cd7~tplv-tt-large.image?x-expires=1989367351&x-signature=1ACb1yyR9nXQy9KnSUd9gpe3jKo%3D

这样就能直接使用返回的json做点自己想做的事情了,亲自试过了头条,抖音,巨量引擎,京东等网站。

ustcas22sxdbtk 发表于 2023-1-18 09:12:21

这叫rpc?

uz3mic97oub9bi 发表于 2023-1-18 09:12:29

转发了

cr86fqs8qz 发表于 2023-1-18 09:13:05

好像很牛B
页: [1]
查看完整版本: 获取抖音推荐和评论列表数据,超简单,一看就会