在Python爬虫应用中,Selenium和PhantomJS经常配合使用来抓取一些大量JS的网页。
Selenium安装
Selenium 是一个动化测试的工具。
命令行输入:
pip install selenium
安装Selenium成功后,我用Chrome浏览器测试一下
首先我要下载对应版本的Chrome浏览器驱动,可以到这个网址下载:
下载解压后,将Chromedriver.exe放到Python的安装目录,如 D:\PromFile\python(注意目录必须添加到系统的环境变量中)
运行下面代码:
from selenium import webdriver browser = webdriver.Chrome() browser.get('http://www.baidu.com/')
运行这段代码,会自动启动Chrome浏览器,然后访问百度网址。如果不报错,即代表安装成功。
报错一般有两种可能:
- 浏览器驱动Chromedriver.exe存放的目录没有添加到系统的环境变量中。解决办法参考:Windows如何添加环境变量
- 浏览器驱动Chromedriver和Chrome的版本不对应造成不兼容。解决办法参考:Selenium启动Chrome浏览器提示:请停用以开发者模式运行的扩展程序
Selenium启动IE浏览器及Firefox浏览器也是按照同样的方法操作。
PhantomJS安装
PhantomJS是一个无界面的浏览器引擎。
官方下载地址:http://phantomjs.org/download.html
Windows下载直接解压就可以了,不用安装。点击bin目录下的phantomjs.exe即可运行程序。
要配合Selenium和Python的话还要把phantomjs.exe所在的目录(如:D:\Program Files\phantomjs\bin
)添加到系统的环境变量。方法可参考:Windows如何添加环境变量
在命令行输入: phantomjs --version
,如果显示版本号,则设置成功。