当前位置:  操作系统/服务器>linux
本页文章导读:
    ▪效率更高的awk分析日志的方法介绍          以前使用awk写过一个日志流量计算的单行命令,因为awk中没有sort函数,所以在中途采用了sort的方式,导致效率很低,在计算50GB+的日志时,运算时间慢的不可忍受。     设想了很多方.........
    ▪sed使用一例      有客户要求修改/home/squid/share/errors/Simplify_Chinese/里所有的错误页面转向到他们自己专用的界面去,七八个节点,几十台服务器,几百个文件,一个一个vi编辑,多可怕。 研究了下,决定使用se.........
    ▪linux下的ldconfig命令详解      动态链接管理命令ldconfig 在linux中,为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfig。 ldconfig 命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/e.........

[1]效率更高的awk分析日志的方法介绍
    来源: 互联网  发布时间: 2013-12-24

    以前使用awk写过一个日志流量计算的单行命令,因为awk中没有sort函数,所以在中途采用了sort的方式,导致效率很低,在计算50GB+的日志时,运算时间慢的不可忍受。
    设想了很多方法来加快运算,比如舍弃awk改用perl来完成,如下:
 

代码如下:
#!/usr/bin/perl
use warnings;
use strict;
my $access_log = $ARGV[0];
my $log_pattern = qr'^.*?:(\d\d:\d\d):(\S+\s){5}\d+\s(\d+).+';
my %flow;
my ($traffic, $result) = (0, 0);
open FH,"< $access_log" or die "Cannot open access_log";
while (defined(my $log = <FH>)) {
    $flow{$1} += $3 if $log =~ /$log_pattern/;
    #print $1." ".$3." ".$flow{$1} * 8 / 300 / 1024 / 1024,"\n";
}
close FH;
foreach my $key ( sort keys %flow ) {
    my $minute = $1 if $key =~ /\d\d:\d(\d)/;
    $traffic += $flow{$key};
    if ( $minute == '0' or $minute == '5' ) {
        $result = $traffic if $traffic > $result;
        $traffic = '0';
    }
}
print $result * 8 / 300 / 1024 / 1024;

好吧,这个正则太过垃圾,请无视,但至少在管道和系统sort上浪费的时间还是大大的节省了的。

翻到一个老帖子,提供一个比较不错的awk思路,命令如下:
awk '!b[substr($4,14,5)]++{print v,a[v]}{v=substr($4,14,5);a[v]+=$10}END{print v,a[v]}'

这里用substr()跟指定FS相比那个效率高未知,不过采用!b++的方式来判断某时间刻度结束,输出该时刻总和,在顺序输入日志的前提下,运算速度极快(就剩下一个加法和赋值了)。

注意:此处b[]内不能偷懒写v,!b[v]++永远只会输出时刻的第一行数值。

不过真实使用时不尽如人意。逻辑上推导了很久没发现问题,结果在重新运行前面的perl时看了看while中的print,发现这个日志因为是从各节点合并出来的日志,其时间并不是顺序排列的!!

另,刚知道gawk3.1以上提供了asort()和asorti()函数,可以研究一下~

采用time命令测试一下
gawk '{a[substr($4,14,5)]+=$10}END{n=asorti(a,b);for(i=1;i<=n;i++){print b[i],a[b[i]]*8/60/1024/1024}}' example.com_log | awk '{if($2>a){a=$2;b=$1}}END{print b,a}'

一个35G的日志文件只用了6分钟。

还有更简单的:
gawk '{a[substr($4,14,5)]+=$10}END{n=asort(a);print a[n]*8/60/1024/1024}' example.com_log

注:
运行发现只比前一种快不到10秒钟。
而前一种还能输出峰值的时间,可读性更好一些~


    
[2]sed使用一例
    来源: 互联网  发布时间: 2013-12-24

有客户要求修改/home/squid/share/errors/Simplify_Chinese/里所有的错误页面转向到他们自己专用的界面去,七八个节点,几十台服务器,几百个文件,一个一个vi编辑,多可怕。
研究了下,决定使用sed进行处理,目前发现两种办法:

1、find+sed 比如这样:
 

代码如下:
find . -name “*.html” -exec sed -i “s/eht/the/g” {} ;
 

用exec传输find的结果给sed,{}是集合的意思;

2、sed+grep 比如这样:
 

代码如下:
sed -i “s/eht/the/g” grep eht -rl /test 这个-rl参数。
或:
grep “abc” * -R | awk -F: ‘{print $1}’ | sort | uniq | xargs sed -i ‘s/abc/abcde/g’

awk -F:的意思是指定:为列的分隔符,sort排序,uniq删除重复行,最后用xargs传输大量数据给sed。
说到xargs,比如曾经有一次/var/spool/clientmqueue目录占用了大量磁盘空间,但其中的文件都是4.0K,数量及其多,单纯用rm,无法达到目的,就得用ls


    
[3]linux下的ldconfig命令详解
    来源: 互联网  发布时间: 2013-12-24

动态链接管理命令ldconfig

在linux中,为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfig。
ldconfig 命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件。缓存文件默认为 /etc/ld.so.cache,此文件保存已排好序的动态链接库名字列表。

ldconfig通常在系统启动时运行,而当用户安装了一个新的动态链接库时,就需要手工运行这个命令。

ldconfig命令行用法:
ldconfig [-v|--verbose] [-n] [-N] [-X] [-f CONF] [-C CACHE] [-r ROOT] [-l] [-p|--print-cache] [-c FORMAT] [--format=FORMAT] [-V] [-?|--help|--usage] path...

ldconfig可用的选项说明:

(1) -v或--verbose : 用此选项时,ldconfig将显示正在扫描的目录及搜索到的动态链接库,还有它所创建的连接的名字.

(2) -n : 用此选项时,ldconfig仅扫描命令行指定的目录,不扫描默认目录(/lib,/usr/lib),也不扫描配置文件/etc/ld.so.conf所列的目录.

(3) -N : 此选项指示ldconfig不重建缓存文件(/etc/ld.so.cache).若未用-X选项,ldconfig照常更新文件的连接.

(4) -X : 此选项指示ldconfig不更新文件的连接.若未用-N选项,则缓存文件正常更新.

(5) -f CONF : 此选项指定动态链接库的配置文件为CONF,系统默认为/etc/ld.so.conf.

(6) -C CACHE : 此选项指定生成的缓存文件为CACHE,系统默认的是/etc/ld.so.cache,此文件存放已排好序的可共享的动态链接库的列表.

(7) -r ROOT : 此选项改变应用程序的根目录为ROOT(是调用chroot函数实现的).选择此项时,系统默认的配置文件/etc/ld.so.conf,实际对应的为 ROOT/etc/ld.so.conf.如用-r /usr/zzz时,打开配置文件/etc/ld.so.conf时,实际打开的是/usr/zzz/etc/ld.so.conf文件.用此选项,可以大大增加动态链接库管理的灵活性.

(8) -l : 通常情况下,ldconfig搜索动态链接库时将自动建立动态链接库的连接.选择此项时,将进入专家模式,需要手工设置连接.一般用户不用此项.

(9) -p或--print-cache : 此选项指示ldconfig打印出当前缓存文件所保存的所有共享库的名字.

(10) -c FORMAT 或 --format=FORMAT : 此选项用于指定缓存文件所使用的格式,共有三种:old(老格式),new(新格式)和compat(兼容格式,此为默认格式).

(11) -V : 此选项打印出ldconfig的版本信息,而后退出.(12) -? 或 --help 或 --usage : 这三个选项作用相同,都是让ldconfig打印出其帮助信息,而后退出.


    
最新技术文章:
▪linux系统中的列出敏感用户的脚本代码
▪a10 config backup for aXAPI
▪一键备份gitolite服务器的Shell脚本
▪nagios 分发文件实现代码
▪阿里云云服务器Linux系统更新yum源Shell脚本
▪一个监控LINUX目录和文件变化的Shell脚本分享
▪Linux下实现SSH免密码登录和实现秘钥的管理、...
▪Shell正则表达式之grep、sed、awk实操笔记
▪3个备份系统文件并邮件发送的Shell脚本分享
▪CentOS 6.3下给PHP添加mssql扩展模块教程
▪监控网站是否可以正常打开的Shell脚本分享
▪shell脚本编程之if语句学习笔记
▪shell脚本编程之循环语句学习笔记
▪shell脚本编程之case语句学习笔记
▪Shell脚本实现的阳历转农历代码分享
▪Shell脚本实现复制文件到多台服务器的代码分...
▪Shell脚本实现批量下载网络图片代码分享
▪Shell脚本实现检测文件是否被修改过代码分享
▪Shell脚本数组用法小结
▪Shell脚本批量重命名文件后缀的3种实现
▪C语言实现的ls命令源码分享
▪Linux下查找后门程序 CentOS 查后门程序的shell脚...
▪Shell 函数参数
▪linux shell 自定义函数方法(定义、返回值、变...
▪Shell实现判断进程是否存在并重新启动脚本分...
▪Shell脚本break和continue命令简明教程
▪Shell脚本函数定义和函数参数
▪让代码整洁、过程清晰的BASH Shell编程技巧
▪shell常用重定向实例讲解
▪awk中RS、ORS、FS、OFS的区别和联系小结
 


站内导航:


特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

©2012-2021,,E-mail:www_#163.com(请将#改为@)

浙ICP备11055608号-3