使用Python写爬虫(3)

Rate this post

 

 

前面使用Python写爬虫(2),主要介绍了python3环境的安装和一些数据库环境的安装,配置。本篇我将介绍一些我们写爬虫之后会用到的一些常用库的安装和配置。

Windows 下的安装,配置:
urllib re 是python自带的库
检测可用,cmd下,进入python
import urllib
import urllib.request
import re

request 安装
pip3 install request
python
import request
request.get(‘http://www.baidu.com’)
<Response (200)>
selenium ,驱动浏览器,用来做自动化测试
pip3 install selenium
python
import selenium

chromedriver 安装
百度搜索chromeDriver ,下载安装
将chromedriver.exe 放到python中Scripts的目录下

from selenium import webdriver
driver = webdriver.Chrome()
dirver.get<‘http://www.baidu.com’>

来检验selenium 是否可用(如果chrome闪退,可能是chrome版本过低)
phantomjs 是一个无界面浏览器,不需要想chrome一样一直有一个界面在刷新,我们可以只在命令行下处理。搜索下载phantomjs ,并且安装后添加到环境变量中。

from selenium import webdriver
driver = webdriver.Phantomjs()
dirver.get<‘http://www.baidu.com’>

lxml 库的安装,提供了xpath的解析方式
pip3 install lxml
beautifulsoup 库,是一个网页解析库,以来与lxml库
pip3 install beautifulsoup4
pyquery 库,与jquery语法相似,也是一个网页解析库。
pip3 install pyquery
pymysql 库,操作mysql数据库的一个库,
pip3 install pymysql
pymongo库,是用来操作mongodb数据库的库。
pip3 install pymongo

flask 库,用来设置代理的库
pip3 install flask

django 库,web服务器框架,提供完成的管理,在之后分布式爬虫的维护的时候可能会用到django。
pip3 install django