### 代码编程思路  

#### 问题发现  
1. 大文件处理速度过慢  
	解决方法：使用分块+多线程提高处理速度  
2. 日志格式不同的问题  
	解决方法：收集几种常见的web日志进行适配  
	附加：收集安全设备导出日志进行分析适配  
3. 单python文件进行处理导致错误频发  
	解决方法：分离各模块，单独进行分析最后再汇总  

#### 分离模块  
- 综合执行读取模块：日志读取数据分离与各模块调用协调  
- 性能提速模块：分割文件，启动多线程  
- 文档生成模块：先记录IP-访问次数，然后将文件传给后续程序填写  
- 初步分析模块：主要分析UA和响应码；捕获分离出来的【IP-UA-响应码】进行初步分析，将爬虫从数据中分离出来，标注归属公司；同时，判断是否为恶意扫描IP  
- 次项分析模块：主要分析访问路径；结合上一步文件捕获分离出来的【IP-路径】进行第二步分析标记是否为合法爬虫（是否访问过robots.txt）；根据路径中关键词判断IP是否为攻击者，攻击类型含有哪些  
- 终项分析模块：结合所有剩余部分进行综合分析（内容待定）  
  
#### 表格构成  
| IP | 属性 | 归属 | 访问次数 | 攻击类型 | UA | 响应码 | 备注 |
| :-----:| :----: | :----: | :----: | :----: | :----: | :----: | :----: |
| 127.0.0.1 | 爬虫 | 百度 | 10 |内容爬取||||
| 127.0.0.1 | 正常IP | 互联网 | 100 |||||
| 127.0.0.1 | 恶意攻击者 | 互联网 | 1000 |SQL注入，路径扫描||||


### 附加模块  
#### AnalysisBase.py  
初步处理网站日志用以人工分析  

#### 待定
筛选分析程序，人工筛选高频IP