欢迎光临
我一直在努力开车

【网站解析】搞定中国商标网信息爬取

Abbey偶然间接到一个需求,那就是批量爬取中国商标网的信息,不得不说,作为一个政府网站,反爬虫能做得那么好的真是少见~~

中国商标网有哪些反爬虫?

js混淆&js加密

点击进入商标网的主页(http://wsjs.saic.gov.cn),就会给跳转到一个带加密参数的链接,

看请求的话,应该是先请求了一个js,这个js再计算一个加密值然后自动跳转到带加密参数的链接

而这个js内容又多恶心,请自行打开体会。

仅仅是这一步就把Abbey难倒了,而且Abbey并没有信心去对商标网的js进行反混淆和解密

未知的反爬虫措施

上面的问题,可以通过selenium+chromedriver解决,但是实际用selenium的时候就会发现…

TM…连selenium都不行?经过Abbey的分析,觉得是商标网能够识别出是selenium,因此这里就GG了。

解决办法呢?

一是通过修改chromedriver,将selenium的信息隐藏

二则是使用firefox,因为firefox没有带selenium的信息

最终Abbey使用firefox继续攻防

动作识别

使用selenium+firefox是可以获取到信息,但是爬了一两个商标信息之后,又会触发上面一样的错误信息,这里Abbey分析是因为商标网会判断鼠标、键盘的路径,然后如果没有识别到“人”的行为特征,就会触发错误。

这个时候就只能尽量模仿真人的行为特征。

 

Abbey没有做大批量测试,就测试了大概十几个数据,没有触发错误,所以就没有继续研究了。

爬虫运行效果(headless):https://showmore.com/zh/u/5g013n4

爬虫运行效果(带浏览器):https://showmore.com/zh/u/mqhovsj

ps. 代码不会开源

赞(1)
未经允许不得转载:一个人的公交 » 【网站解析】搞定中国商标网信息爬取

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

Onedrive个人网盘搭建

GitHub地址联系Abbey