selenium自动测试、爬虫
Selenium
是一个用于Web
应用程序测试的工具,也可以用于爬虫,以chrome浏览器为例
安装
Selenium
库
pip install selenium
安装浏览器驱动,可以通过工具自动安装,也可以根据浏览器版本自行安装
手动下载地址
:https://chromedriver.storage.googleapis.com/index.html可以使用到第三方库
webdriver_manager
,先安装这个库,然后调用对应的方法自动安装即可
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
browser = webdriver.Chrome(ChromeDriverManager().install())
如需自定义自行下载的驱动路径,可使用:
from selenium import webdriver
path = r'D:\driver\chromedriver.exe'
browser = webdriver.Chrome(path)
解决网站对selenium的禁用,例如403等错误
增加配置,根据自己的浏览器配置user-agent等
from selenium import webdriver
options_ = webdriver.ChromeOptions()
options_.add_argument('--headless')
options_.add_argument('--disable-gpu')
options_.add_argument('--no-sandbox')
options_.add_argument('lang=zh-CN.UTF-8')
options_.add_argument(
'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 '
'Safari/537.36')
prefs = {
'profile.managed_default_content_settings.images': 2,
'profile.managed_default_content_settings.notifications': 2,
'intl.accept_languages': 'zh-CN,zh;q=0.9,en;q=0.5',
}
options_.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(options_)
简单使用:
元素定位可以使用id定位、name定位、class定位、tag定位、link定位、partial定位、css定位、xpath定位等
由于现在很多网站都具有反爬虫的机制,推荐使用xpath定位
版权声明:
本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自
最上级!
喜欢就支持一下吧