Selenium是一个用于Web应用程序测试的工具,也可以用于爬虫,以chrome浏览器为例

  1. 安装Selenium

pip install selenium
  • 安装浏览器驱动,可以通过工具自动安装,也可以根据浏览器版本自行安装

    手动下载地址:https://chromedriver.storage.googleapis.com/index.html

    可以使用到第三方库webdriver_manager,先安装这个库,然后调用对应的方法自动安装即可

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

browser = webdriver.Chrome(ChromeDriverManager().install())

如需自定义自行下载的驱动路径,可使用:

from selenium import webdriver

path = r'D:\driver\chromedriver.exe'
browser = webdriver.Chrome(path)
  1. 解决网站对selenium的禁用,例如403等错误

增加配置,根据自己的浏览器配置user-agent等

from selenium import webdriver

options_ = webdriver.ChromeOptions()

options_.add_argument('--headless')
options_.add_argument('--disable-gpu')
options_.add_argument('--no-sandbox')
options_.add_argument('lang=zh-CN.UTF-8')
options_.add_argument(
    'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 '
    'Safari/537.36')

prefs = {
    'profile.managed_default_content_settings.images': 2,
    'profile.managed_default_content_settings.notifications': 2,
    'intl.accept_languages': 'zh-CN,zh;q=0.9,en;q=0.5',
}
options_.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(options_)
  1. 简单使用:

  • 元素定位可以使用id定位、name定位、class定位、tag定位、link定位、partial定位、css定位、xpath定位

    由于现在很多网站都具有反爬虫的机制,推荐使用xpath定位

文章作者: LrMaker
版权声明: 本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 最上级
爬虫 自动测试
喜欢就支持一下吧