Python 使用 selenium访问网页

本文主要记录,如何使用selenium 访问网站并且记录如何在添加chromedriver代理访问的方式。

首先需要安装selenium

命令行运行以下命令:

sudo pip3 install selenium

安装chromedriver浏览器

sudo apt-get install chromium-chromedriver

访问网站代码

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By

# 如果使用远程启动代码(SSH,Jupyter)则需要设置屏幕
# import os
# os.environ["DISPLAY"] = ":0"

chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension', False)
chrome_options.add_argument('lang=zh-CN,zh,zh-TW,en-US,en')
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36')
#加socks5代理
chrome_options.add_argument("proxy-server=http://127.0.0.1:1886") # 替换为你的代理地址和端口

driver = webdriver.Chrome(chrome_options=chrome_options)

driver.get("https://xxxx.com/") # 替换 需要访问的网站

driver.get_screenshot_as_file("website.png")

添加使用代理访问的代码

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By

import os

os.environ["DISPLAY"] = ":0"

chrome_options = webdriver.ChromeOptions()
# 设置浏览器参数
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension', False)
chrome_options.add_argument('lang=zh-CN,zh,zh-TW,en-US,en')
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36')
# 设置socks5代理
chrome_options.add_argument("proxy-server=http://127.0.0.1:1886") # 替换为你的代理地址和端口

driver = webdriver.Chrome(chrome_options=chrome_options)

driver.get("https://xxxx.com/") # 替换 需要访问的网站

driver.get_screenshot_as_file("website.png")