Breakthrough——web日志分析程序,寻找溯源过程中的突破口!
Go to file
2025-02-12 13:46:59 +08:00
AimLog plan created 2025-02-12 13:46:59 +08:00
AnaResult plan created 2025-02-12 13:46:59 +08:00
AnalysisBase.py plan created 2025-02-12 13:46:59 +08:00
README.md plan created 2025-02-12 13:46:59 +08:00

代码编程思路

问题发现

  1. 大文件处理速度过慢
    解决方法:使用分块+多线程提高处理速度
  2. 日志格式不同的问题
    解决方法收集几种常见的web日志进行适配
    附加:收集安全设备导出日志进行分析适配
  3. 单python文件进行处理导致错误频发
    解决方法:分离各模块,单独进行分析最后再汇总

分离模块

  • 综合执行读取模块:日志读取数据分离与各模块调用协调
  • 性能提速模块:分割文件,启动多线程
  • 文档生成模块先记录IP-访问次数,然后将文件传给后续程序填写
  • 初步分析模块主要分析UA和响应码捕获分离出来的【IP-UA-响应码】进行初步分析将爬虫从数据中分离出来标注归属公司同时判断是否为恶意扫描IP
  • 次项分析模块主要分析访问路径结合上一步文件捕获分离出来的【IP-路径】进行第二步分析标记是否为合法爬虫是否访问过robots.txt根据路径中关键词判断IP是否为攻击者攻击类型含有哪些
  • 终项分析模块:结合所有剩余部分进行综合分析(内容待定)

表格构成

IP 属性 归属 访问次数 攻击类型 UA 响应码 备注
127.0.0.1 爬虫 百度 10 内容爬取
127.0.0.1 正常IP 互联网 100
127.0.0.1 恶意攻击者 互联网 1000 SQL注入路径扫描

附加模块

AnalysisBase.py

初步处理网站日志用以人工分析

待定

筛选分析程序人工筛选高频IP