最新消息: 新版网站上线了!!!

win7 python scarpy抓取动态页面Scrapy Splash,Docker ToolBox

一、Scrapy Splash

Scrapy Splash需要结合docker

docker只支持Linux

windows环境下

windows7 + Docker ToolBox + Scrapy Splash

windows10 + 原生的Docker + Scrapy Splash

原生的Docker :系统要求,Windows10x64位,支持Hyper-V

下面以windows7 + Docker ToolBox + Scrapy Splash环境为实例说明

1、win7系统安装Docker Toolbox 

Windows 7/8.1可以使用 Docker Toolbox 在Windows运行Docker。

Docker ToolBox通过国外下载困难,推荐国内下载地址如下

http://get.daocloud.io/#install-docker-for-mac-windows

Scrapy-Splash的安装

Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具,安装分为两部分。一个是Splash服务的安装,通过Docker安装,安装之后,会启动一个Splash服务,我们可以通过它的接口来实现JavaScript页面的加载。另一个是Scrapy-Splash的Python库的安装,安装之后即可在Scrapy中使用Splash服务。

通过Docker安装Splah

  • 首先要确保Docker已启动,

  • 键入docker run -p 8050:8050 scrapinghub/splash,下载时间比较长,也可以使用国内的镜像源,docker run -p 8050:8050 scrapinghub/splash --registry-mirror=http://hub-mirror.c.163.com,这里使用了网易的镜像,直接设置--registry-mirror参数,仅对当前的命令有效。

12DC5D0721AF4EB88634FF024A0B5E27.jpg

安装完成

下面就是启动Splash

docker run -p 8050:8050 scrapinghub/splash

你会看到以下的图示内容

2.jpg

这个时候,打开你的浏览器,输入192.168.99.100:8050你会看到出现了这样的界面。

3.jpg

在搜索框中输入动态网页的网址,点击Render me!开始解析页面(测试一下Scrapy)

4.jpg

最后一步安装安装scrapy-splash

在win7 的cmd命令中执行如下命令安装scrapy-splash

pip install scrapy-splash


.....

转载请注明:谷谷点程序 » win7 python scarpy抓取动态页面Scrapy Splash,Docker ToolBox