This repository has been archived on 2025-09-14. You can view files and clone it, but cannot push or open issues or pull requests.
Files
yinjiangyi-webskt-query-agent/README.md
2021-06-17 10:34:20 +08:00

85 lines
3.3 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# webskt-query-agent
##########################################
########### VERSION-4.0-20210406 ########
##########################################
1whois和reputation分表存储查询结果单独写入同步导出只对份额里结果表进行 ✅
2域名查询策略先完全匹配查数据库然后阶段二级域名查数据库最后完全匹配查brightcloud ✅
3增加匹配方式字段 match_pattern: 1-右匹配二级域名2-全匹配:非二级域名 ✅
注意query_success实际上是没用的目前记录到db里的全部是查询成功的。查询不成功的会打印到日志中
- 对URL分类库近200万域名进行了查询查询结果报告更新至confluence ✅
- 对k国数据进行查询去掉.kz和.au后缀
##########################################
########### VERSION-3.0-20210318 ########
##########################################
性能进一步优化:
1数据库积累batch 查询 ✅
优化性能数据库查询5.5w/mbrightcloud查询7k-8k/m
##########################################
########### VERSION-2.0-20210312 ########
##########################################
修改:
功能:
1增加计费自统计功能Offline每查询一个文件输出计次日志update每update一次计次
2增加配置开关控制查询内容只进行url_info查询暂不查询whois和reputation ✅
3增加配置开关控制OfflineTask和UpdateTaskUpdate暂不开启 ✅
4WebSKT不做域名截断只做去重、格式判断等简单校验具体处理交给提交查询方CN去做 ✅
目前要求只取两级域名顶级域参照https://publicsuffix.org/list/
5目前调用api查询无法设置为优先本地库查询SDK可配置相关参数
OfflineTask
1用户导入csv格式的查询列表文件 ✅
2导入完成后用户手动添加后缀名(.compl) ✅
3定时任务设置改为秒级 ✅
4查询过程中产出日志包括查询进度、查询百分比等 ✅
5查询结束后保存查询结果文件(xxx.result),同时修改导入文件后缀名为(.done) ✅
UpdataTask
DB Sync
1定时任务改为用户触发用户传入时间等参数执行同步脚本 ✅
full_bak.sh: ✅
默认导入文件名websktDB_full-%Y%m%d-%H%M%S.csv如websktDB_full-20210310-115442.csv
可指定文件名:如
sh full_bak.sh -n filename
recent_bak.sh: ✅
默认导入近7天新增记录文件名为websktDB_recent-%Y%m%d-%H%M%S.csv如websktDB_full-20210310-115442.csv
可指定文件名,新增时段(create_time字段筛选的起止时间点):如
sh recent_bak.sh
sh recent_bak.sh -n filename
sh recent_bak.sh -s "2021-01-31 12:09:00" -e "2021-03-12"
性能:
offline查询过程
1单个fqdn遍历查mariadb或调用api全部遍历完成后插入数据库效率低一分钟处理300个fqdn
2全部遍历完成后插入数据库中间程序失败会造成数据库保存失败
3全部遍历完成后打印计次日志中间程序失败会导致计次丢失
修改为:
1bc查询积累至100个之后批量查询一分钟处理1300个效率提高至4~5倍。✅
##########################################
############# 初版-20210308 ###########
##########################################