Python 使用 selenium访问网页
目录
本文主要记录,如何使用selenium 访问网站并且记录如何在添加chromedriver代理访问的方式。
首先需要安装selenium
命令行运行以下命令:
sudo pip3 install selenium
安装chromedriver浏览器
sudo apt-get install chromium-chromedriver
访问网站代码
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
# 如果使用远程启动代码(SSH,Jupyter)则需要设置屏幕
# import os
# os.environ["DISPLAY"] = ":0"
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension', False)
chrome_options.add_argument('lang=zh-CN,zh,zh-TW,en-US,en')
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36')
#加socks5代理
chrome_options.add_argument("proxy-server=http://127.0.0.1:1886") # 替换为你的代理地址和端口
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://xxxx.com/") # 替换 需要访问的网站
driver.get_screenshot_as_file("website.png")
添加使用代理访问的代码
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
import os
os.environ["DISPLAY"] = ":0"
chrome_options = webdriver.ChromeOptions()
# 设置浏览器参数
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension', False)
chrome_options.add_argument('lang=zh-CN,zh,zh-TW,en-US,en')
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36')
# 设置socks5代理
chrome_options.add_argument("proxy-server=http://127.0.0.1:1886") # 替换为你的代理地址和端口
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://xxxx.com/") # 替换 需要访问的网站
driver.get_screenshot_as_file("website.png")