No description
| README.md | ||
SDProjects
项目简介
山东省网站ipv6测量项目,在单v6环境下对网站进行深度采集,记录网站性能指标。
环境依赖
Python 3.6以上
pip install requests
pip install urllib.parse
pip install bs4
pip install multiprocessing
pip install selenium
pip install tqdm
此外,还需要手动安装与Chrome浏览器版本适配的webdriver
目录结构
/master
getWebInfo.py
homepageAve.py
/result 存储运行结果
/data 需自行创建
getWebInfo.py介绍
-- 输入:目标网站首页网址 或者 以txt格式存储的网站列表
-- 输出:保存在result目录下,命名为“目标网站域名.json”的网站信息文件。 例如“fgw.shandong.gov.cn.json”。
-- 网站信息内容:json格式,记录网站首页网址、首页响应码、二三级链接中的子域名和所有域名、子页面的响应码、响应时间和网页源码。
-- 备注:可直接抓取单个指定网站,也可多进程同时抓取多个网站。具体在153行程序入口处选择。若要处理多个网站,需创建./data目录并在其中保存网站列表文件。
homepageAve.py介绍
--输入:以txt格式存储的网站列表(同上)
--功能选择:在程序入口处可选择对应的功能:deal_urls(批量获得网站首页的响应响应码)、deal_websites(获取网站首页10次访问的成功次数与平均时延)、page_time(单页面单次访问渲染所需时间)
--输出:
deal_urls --> urls_status.csv (网站,响应状态码)
deal_websites --> websitesTimeInfo.csv (网站,访问成功次数,平均访问时延)