### 代码编程思路  

#### 问题发现  
1. 大文件处理速度过慢  
	解决方法:使用分块+多线程提高处理速度  
2. 日志格式不同的问题  
	解决方法:收集几种常见的web日志进行适配  
	附加:收集安全设备导出日志进行分析适配  
3. 单python文件进行处理导致错误频发  
	解决方法:分离各模块,单独进行分析最后再汇总  

#### 分离模块  
- 综合执行读取模块:日志读取数据分离与各模块调用协调  
- 性能提速模块:分割文件,启动多线程  
- 文档生成模块:先记录IP-访问次数,然后将文件传给后续程序填写  
- 初步分析模块:主要分析UA和响应码;捕获分离出来的【IP-UA-响应码】进行初步分析,将爬虫从数据中分离出来,标注归属公司;同时,判断是否为恶意扫描IP  
- 次项分析模块:主要分析访问路径;结合上一步文件捕获分离出来的【IP-路径】进行第二步分析标记是否为合法爬虫(是否访问过robots.txt);根据路径中关键词判断IP是否为攻击者,攻击类型含有哪些  
- 终项分析模块:结合所有剩余部分进行综合分析(内容待定)  
  
#### 表格构成  
| IP | 属性 | 归属 | 访问次数 | 攻击类型 | UA | 响应码 | 备注 |
| :-----:| :----: | :----: | :----: | :----: | :----: | :----: | :----: |
| 127.0.0.1 | 爬虫 | 百度 | 10 |内容爬取||||
| 127.0.0.1 | 正常IP | 互联网 | 100 |||||
| 127.0.0.1 | 恶意攻击者 | 互联网 | 1000 |SQL注入,路径扫描||||


### 附加模块  
#### AnalysisBase.py  
初步处理网站日志用以人工分析  

#### 待定
筛选分析程序,人工筛选高频IP