今天我们来做一个问题平台数据的抓取测试,有很多网站提供网贷数据查询服务:
这个网站的数据就不错,图表也挺漂亮的,图表的下面就是问题平台的数据表:
默认的页面提供前20条数据,点击下面的加载更多会增加20条,其实就是个查询按钮,那么我们开始Power Query网络抓取的步骤。

F12打开谷歌浏览器的检查页面,按CTRL+R重新加载,点击加载更多就会出现一行新的查询出来:
通过预览,可以看到对应JSON数据,我们再一下加载更多数据:

页码page从2变成3,一共5800个平台,就要有290页。
我们来查看url:
这应该是真是网址,有查询页码。至此我们的网站分析基本可以结束了。
试抓试抓过程就是为了验证我们网站分析的过程是不是正确,我们在分析过程中注意到这个网站数据传递方式是POST,先不管是POST还是GET,我们直接用整串网址抓一下试一试:
看起来好像不可以直接抓取,什么表也不存在。
不要急我们看看web视图的内容:
看起来是乱码,但是认真观察数据的结构,看起来是标准的JSON结构,而且应该就是我们需要的数据,不过是通过url编码的数据。我们试着用JSON来解析这个数据:
果然可以。展开数据:
就是我们需要的数据,试抓过程结束。
定义函数根据试抓查询过程创建函数:
添加页码参数p,因为页码是数值,我们用一个Text.From函数将数值转换成文本用&拼接起来:
这样这个单页数据抓取函数就定义好了。
抓取有了函数抓取就简单了,用List.Transfrom函数历遍抓取:
一共抓取290行,然后展开整理数据:
通过4个步骤,我们就把问题平台数据全部抓取下来了。
接下来你就可以用抓取的数据做自己的可视化图表了: