Python selenium介绍

2018年4月25日13:25:05

评论1 2060字阅读6分52秒

摘要这一篇文章介绍一下selenium的使用，并给出一个例子，使用selenium来爬取北邮人论坛的十大。主要还是熟悉一下selenium的使用。

文章目录(Table of Contents)

简介

这里讲一下python库selenium的简单介绍。这是一个浏览器自动化测试框架，可以模拟出用户操作。所以我们可以通过selenium来做一些爬虫。

我会在下面示例代码部分放一下使用selenium来爬取北邮人论坛十大的内容。

首先看一下selenium的快速使用, 我们可以通过下面的方式来查看我们是否获得了我们需要的页面信息 (打印出网页源代码).

from selenium import webdriver
from lxml import etree
import time
class byr_crawle(object):
def __init__(self):
self.username = 'Username'
self.password = 'Password'
def run(self):
driver = webdriver.Firefox()
driver.set_page_load_timeout(60)
driver.get('https://bbs.byr.cn/index')
textElement = driver.find_element_by_id('id')#输入账号
textElement.clear()
textElement.send_keys(self.username)
passWordElement = driver.find_element_by_id('pwd')#输入密码
passWordElement.clear()
passWordElement.send_keys(self.password)
#找到登录按钮，进行登录
submitElement = driver.find_element_by_id('b_login')
submitElement.click()
#等待页面加载完毕
time.sleep(3)
html = driver.page_source
dom_tree = etree.HTML(html)
#获得十大的标题
title = dom_tree.xpath('//li[@id="topten"]/div[@class="widget-content"]/ul/li/@title')
#获得十大的url
urls = dom_tree.xpath('//li[@id="topten"]/div[@class="widget-content"]/ul/li/a/@href')
urls = ['https://bbs.byr.cn'+i for i in urls]
driver.close()
line = ''
for i in range(len(urls)):
line = line+str(i)+' : '+title[i]+'\n'
return line
if __name__=='__main__':
print(byr_crawle().run())