位置：首页-资讯-后端开发

利用python分析access日志的方法

2022-06-04 17:46

短信预约 -IT技能 免费直播动态提醒

前言

WAF上线之后，处理最多的是误报消除。

产生误报有多种原因，比如web应用源码编写时允许客户端提交过多的cookie；比如单个参数提交的数值太大。

把误报降低到了可接受的范围后，还要关注漏报。WAF不是神，任何WAF都可能被绕过。所以还需要定位漏过的攻击，明确漏报的原因，才能update WAF的策略。

要定位漏报，就必须分析Web应用的访问日志了。一个站点，每天产生的access日志大概接近1GB，显然靠肉眼看是不现实的。这就需要用python帮助自动分析。

实现思路

拿我司某Web系统举例：

apache开启了access日志记录

日志规则是每小时生成一个日志文件，以站点名称为文件名，以日期+时间为后缀。例如：special.XXXXXX.com.cn.2016101001

要分析这些散碎的日志文件，我的思路如下：

1、根据用户命令行输入获取日志文件所在目录；

2、遍历目录下所有文件，合并到一个文件；

3、定义web攻击常见payload的字符串：

SQLi的：select、union、+?+；

Struts的：ognl、java

webshell常见的：base64、eval、excute

使用正则逐行匹配，将命中的日志复制到单独的文件。

实现代码

代码如下：


# -*-coding: utf-8 -*-
import os,re,sys
if len(sys.argv) != 2 :
  print 'Usage : python logaudit.py <path>'
  sys.exit()
logpath = sys.argv[1]
#获取输入参数的文件路径'
merge = re.compile(r'.*(d[10])')
for root , dirs , files in os.walk(logpath):
  for line in files:
    #遍历日志文件夹，合并所有内容到一个文件
    pipei = merge.match(line)
    if pipei != None:
      tmppath = root + '\' +line
      logread1 = open(tmppath,'r')
      logread = logread1.read()
      log2txt = open('.\log.txt','a')
      log2txt.write(logread)
      log2txt.close()
      logread1.close()
    else:
      exit
log = open('.//log.txt','r')
logread = log.readlines()
auditString = re.compile(r'.*[^_][sS][eE][lL][eE][cC][tT][^.].*|.*[uU][nN][iI][Oo][nN].*|.*[bB][aA][sS][eE][^.].*|.*[oO][gG][nN][lL].*|.*[eE][vV][aA][lL][(].*|.*[eE][xX][cC][uU][tT][eE].*')
writelog = open('.//result.txt','a')
for lines in logread:
  auditResult = auditString.match(lines)
  if auditResult != None:
    writelog.write(auditResult.group())
    writelog.write('n')
  else:
    exit
writelog.close()
log.close()

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

方法日志 python

阅读原文内容投诉

利用python分析access日志的方法

下载Word文档到电脑，方便收藏和打印～

下载Word文档

猜你喜欢

利用python分析access日志的方法

前言 WAF上线之后，处理最多的是误报消除。产生误报有多种原因，比如web应用源码编写时允许客户端提交过多的cookie；比如单个参数提交的数值太大。把误报降低到了可接受的范围后，还要关注漏报。WAF不是神，任何WAF都可能被绕过。所以还需

2022-06-04

Python 关于日志的分析

项目情况介绍：基于Python 3.6.6 ,实现对nginx访问的日志分析代码，实现了对日志中code的占比统计和浏览器类型和访问情况统计实现的代码段有：1.编写窗户函数，实现在一定的时间内对数据进行分析2.通过正则表达式对日志进行匹配，

2023-01-31

利用Python中的pandas库对cdn日志进行分析详解

前言最近工作工作中遇到一个需求，是要根据CDN日志过滤一些数据，例如流量、状态码统计，TOP IP、URL、UA、Referer等。以前都是用 bash shell 实现的，但是当日志量较大，日志文件数G、行数达数千万亿级时，通过 she

2022-06-04

python分析nginx日志的ip（来

#!/usr/bin/env python#_*_coding:utf-8 _*___author__ = 'gaogd'import datetime,threadingimport sys, os, urllib2, jsonreloa

2023-01-31

Elasticsearch分布式搜索引擎在日志分析中的应用（如何利用Elasticsearch实现分布式日志分析？）

Elasticsearch分布式搜索引擎在日志分析中具有广泛应用，可高效处理海量日志数据。其分布式架构支持横向扩展，并采用反向索引结构，实现快速搜索。Logstash和Filebeat数据收集器将日志从不同来源收集到Elasticsearch集群中。Elasticsearch提供了强大的查询语言和强大的可视化功能，可以通过Kibana创建仪表盘和图表，以便分析和可视化日志数据。Elasticsearch还支持机器学习算法，用于检测异常和识别模式。在安全威胁检测、性能监控、故障排除和合规审计等方面有着广泛的

2024-04-02

编程热搜

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译