No description
This repository has been archived on 2026-06-16. You can view files and clone it, but you cannot make any changes to its state, such as pushing and creating new issues, pull requests or comments.
Find a file
2023-03-17 09:17:54 +00:00
README.md Update README.md 2023-03-17 09:17:54 +00:00

SDProjects

项目简介

山东省网站ipv6测量项目在单v6环境下对网站进行深度采集记录网站性能指标。

环境依赖

Python 3.6以上

pip install requests
pip install urllib.parse
pip install bs4
pip install multiprocessing
pip install selenium
pip install tqdm

此外还需要手动安装与Chrome浏览器版本适配的webdriver

目录结构

/master

getWebInfo.py
homepageAve.py
/result 存储运行结果
/data 需自行创建

getWebInfo.py介绍

-- 输入:目标网站首页网址 或者 以txt格式存储的网站列表

-- 输出保存在result目录下命名为“目标网站域名.json”的网站信息文件。 例如“fgw.shandong.gov.cn.json”。

-- 网站信息内容json格式记录网站首页网址、首页响应码、二三级链接中的子域名和所有域名、子页面的响应码、响应时间和网页源码。

-- 备注可直接抓取单个指定网站也可多进程同时抓取多个网站。具体在153行程序入口处选择。若要处理多个网站需创建./data目录并在其中保存网站列表文件。

homepageAve.py介绍

--输入以txt格式存储的网站列表同上

--功能选择在程序入口处可选择对应的功能deal_urls批量获得网站首页的响应响应码、deal_websites获取网站首页10次访问的成功次数与平均时延、page_time单页面单次访问渲染所需时间

--输出:

deal_urls --> urls_status.csv (网站,响应状态码)
deal_websites --> websitesTimeInfo.csv (网站,访问成功次数,平均访问时延)