Tuesday, November 29, 2011

使用nginx记日志

使用nginx记日志

做web服务和应用的时候,很多场景下需要记录日志。
如 访问日志,性能分析日志,打点日志,数据统计日志等。

假设有以下主机设置
<code>
server {
listen 80;
server_name abc.cc;
root /etc/www/abc;

access_log /var/log/www/abc/access.log;
location / {
index index.htm index.htm;
}
}
</code>

默认情况下,access_log 会使用 combined 的配置来记录访问日志
<code>
log_format combined '$remote_addr - $remote_user [$time_local] '
'"$request" $status $body_bytes_sent '
'"$http_referer" "$http_user_agent"';
</code>

通常这样就足够了。

如果是为了更加方便的日志分析,通常我们会使用特殊字符(如 ^A) 来作为日志字段的分隔符,
这样无论是过滤还是排序都会十分方便。甚至可以直接导入 mysql/hive 中,使用强大的 sql 来做查询分析。

为了排版方便,所有特殊字符都使用了展开的写法,请自行替换 ^A 为 ctrl+v,ctrl+a (nginx 日志格式不支持 \1 的写法)。

自定义日志格式:
<code>
server {
listen 80;
server_name abc.cc;
root /etc/www/abc;

# 更多日志可用字段(基本上都是 nginx 的变量),见
# http://wiki.nginx.org/NginxHttpLogModule#log_format
# http://wiki.nginx.org/NginxHttpUpstreamModule#Variables
# http://wiki.nginx.org/NginxHttpCoreModule#Variables
log_format abc "$remote_addr^A$remote_user^A$time_local^A$request_method^A$uri^A$args^A$server_protocol"
"^A$status^A$body_bytes_sent^A$http_referer"
"^A$http_user_agent";
access_log /var/log/www/abc/access.log abc;
location / {
index index.htm index.htm;
}
}
</code>

当把日志使用 ^A 分割以后,后续就可以使用 sort 和 grep 之类工具对特定url做分析了,
比如统计各url请求量倒排取前50个

<code>
awk -F^A '{print $5}' /var/log/www/abc/access.log | sort | uniq -c | sort -nr | head -50
</code>

有时候可能想对记录的字段做一些处理,比如 $arg_q 可能是搜索关键词,记录的时候如果 unescape 一下,
会更方便分析,存储上也会更小,
那么可以使用 NginxHttpSetMiscModule 模块提供的指令( http://wiki.nginx.org/NginxHttpSetMiscModule#set_unescape_uri )实现:

<code>
set_unescape_uri $q $arg_q;

log_format abc "$q";
</code>

有时候,我们需要对字段做 hash 转换,可以使用 HttpMapModule 提供的功能(http://wiki.nginx.org/HttpMapModule)

<code>
# 需要放到 http 里面,不能放到 server 里 :)
# 根据 url 地址计算分类,便于后续统计
# 具体根据需求做变换就好了
# 第一列是匹配规则,后面的是赋值 ~ 开头的匹配规则是正则
map $uri $typ {
default -;

~/login user;
~/my user;
~/static static;
}

log_format abc "$typ^A$uri";
</code>

如果使用 nginx 比较多,可能会尝试使用 if ,建议不要使用,因为nginx的if比较让人混乱。
如果有更多复杂的字段处理需求,可以使用 ngx_lua (http://wiki.nginx.org/HttpLuaModule)。
ngx_lua 里面操作 nginx 变量

<code>
# 实现上面 map 类似的功能
# 用法详见 http://wiki.nginx.org/HttpLuaModule#set_by_lua
# lua 语法见 http://www.lua.org/manual/5.1/manual.html#2.4
set_by_lua $typ "
local uri = ngx.var.uri
local _m = string.match
local v = '-'
if _m(uri, '^/login') then
v = 'user'
elseif _m(uri, '^/my') then
v = 'user'
elseif _m(uri, '^/static') then
v = 'static'
end

return v
";
</code>

某些情况下,可能我们的字段处理需要查询缓存(如redis)、数据库(如mysql)等,
这些都是可以使用 ngx_openresty 高效完成的(http://openresty.org/)。
这些功能就不在这一篇详细描述了,后续篇章会补充这些功能。
再描述一些复杂的日志记录功能吧。

有时候我们希望根据请求,来判断是否需要记录这一条日志。
在web的访问日志中这种需求比较少,但是独立的日志收集服务器一般有这样的需求的。
比如我需要判定,请求参数 arg_id 必须存在且为数字的时候我才记录日志,可以这样实现

<code>
server {
listen 80;
server_name abc.cc;
root /etc/www/abc;

log_format abc "$msec^A$args^A$q^A$ie^A$oe^A$ref"
"^A$http_user_agent";
access_log off;
location / {
# 专门记日志的服务,对非合法请求,直接断开连接 或者根据需求302到自己的站点
# 但是这种302一般不会被用户看到 可以综合考虑做法
# 444 的意义见 http://wiki.nginx.org/HttpRewriteModule#return
return 444;
}
location = /i-log {
internal;

set_unescape_uri $q $arg_q;
set_unescape_uri $ie $arg_ie;
set_unescape_uri $oe $arg_oe;
set_unescape_uri $ref $arg_ref;

# 这个很重要,否则不会记录的
log_subrequest on;

access_log /var/log/www/abc/access.log abc;
# 这个指令需要 HttpEchoModule (http://wiki.nginx.org/HttpEchoModule#echo) 的支持
# 因为这个地址只是为了辅助记录日志,所以不需要返回内容
echo '';
}
location = /1.gif {
default_type image/gif;
access_log off;

access_by_lua "
local q = ngx.var.arg_q
if q then
q = ngx.unescape_uri(q)
if q and #q > 0 then
ngx.location.capture('/i-log?' .. ngx.var.args)
end
end
";

# 这种请求一般不缓存
add_header Expires "Fri, 01 Jan 1980 00:00:00 GMT";
add_header Pragma "no-cache";
add_header Cache-Control "no-cache, max-age=0, must-revalidate";

# 一般独立记录日志的请求,都会返回一张 1x1 的空白gif图
empty_gif;
}
}
</code>

利用这个特性,我们甚至可以合并多个记录为1个http请求,在 ngx_lua 内再将多条记录拆分记录到日志文件
比如上例,我门可以添加一个字段 n 来标识有几条记录,并且给 q 之类的参数编号 q_1 .. q_n 。

<code>
# GET /1.gif?n=2&q_1=a&q_2=b&ie=gbk&oe=utf8&ref=
# 其他代码不变,只修改 1.gif 的 access_by_lua 为以下代码
local n = ngx.var.arg_n
if n then
n = tonumber(n)
if n > 0 then
local logs = {}

local prefix = string.format('/i-log?ie=%s&oe=%s&ref=%s&q=', ngx.var.arg_ie, ngx.var.arg_oe, ngx.var.arg_ref)
while n >= 1 do
-- 这里可以对 q_n 做进一步的校验,看是否需要记录下来
table.insert(logs, {prefix .. (ngx.var['arg_q_' .. n] or '')})
n = n - 1
end

-- 见 http://wiki.nginx.org/HttpLuaModule#ngx.location.capture_multi
ngx.location.capture_multi(logs)
end
end
</code>


如果请求量较大,一把需要添加写buffer,
方式为在每条 access_log 后面添加 buffer=32k 这样的设置(见 http://wiki.nginx.org/NginxHttpLogModule#access_log)
缓存的大小可以设置成 可以忍受丢失的记录数*每条记录的size

至此,各种记录功能都完成啦。
日志服务其他必要的功能,就是日志轮转了。

nginx 日志轮转的原理是

# 启动nginx收日志
# 启用cron任务
## 将日志文件move走 (文件名可以带上时间戳)
## 给 nginx master 进程发送 USR1 信号(nginx就会重新打开新的日志文件)
### 否则,日志会仍然记录到之前的日志文件中,虽然被 move 了
## cron 的频度可以根据日志大小调整,尽可能大些,能以天为单位就不要以半天为单位

具体实现可见 http://jk.aiwaly.com/wp/nginx-cut-log.html

以上操作中涉及较多 nginx 扩展模块,如果不想折腾,可以使用 ngx_openresty (http://openresty.org)
如果是淘宝系的同学,可以旺旺联系 定球 ,我们有现成的 rpm 可以使用:)

使用中有任何问题,欢迎发信到 kindy61 <at gmail> 或者 微博 @定球呀球

Tuesday, November 1, 2011

shell 下进行url编码解码

shell 下想进行简单的url编码、解码操作,可以使用 perl 提供的函数来进行

echo '测试' | perl -MURI::Escape -pe '$_ = uri_escape($_)'
echo '测试' | perl -MURI::Escape -pe '$_ = uri_escape($_)' | perl -MURI::Escape -pe '$_ = uri_unescape($_)'

:)

Thursday, October 27, 2011

nfs 网络共享基础设置

使用发行版内的 nfs 相关的包,涉及到的配置文件,服务器端有 /etc/exports ,用于设置共享哪些目录,
客户端一般临时使用 mount 即可,如果需要长久使用 修改 /etc/fstab 加入到自动设置里面。

假设服务器的ip为 192.168.1.123 修改 /etc/exports ,在后面添加

/home/abc/share 192.168.1.0/16(ro,async) 192.168.0.0/16(ro,async)

然后确认 $ ps aux|grep nfs 是否启动了,一般使用 $ /etc/init.d/nfs status 来确认是否运行
使用 $ /etc/init.d/nfs start 来启动服务,
这样,所有ip段在 192.168.1.x 的用户都可以使用

sudo mount -t nfs 192.168.1.123:/home/abc/share ./abc-share

来映射这个目录

如果想以后每次自动挂上这个目录,在客户端的 /etc/fstab 文件的最后添加

192.168.1.123:/home/abc/share /home/cde/abc-share nfs ro,async 0 0

just enjoy it.

Saturday, May 7, 2011

vim 里把左右切分的窗口变成上下切分

a | b

a
-
b


^w + K

需要大写的 K(或者 J 可以试试) 。

同理 H, L 可以把窗口反过来。

Saturday, April 2, 2011

vim 的 sort 和系统的 sort

如果想将 vim 内的若干行文本进行排序,有2种办法

:%!sort
:%sort

系统 sort 比较奇怪,貌似只支持使用空白字符和字母排序,遇到 * . 之类的都会忽略掉。偶尔也会觉得这样很恶心。
所以就用 vim 自带的 sort 吧。
等想排除非字母字符,再用系统的 sort 吧。


Tuesday, March 8, 2011

ngx_openresty系列之 ngx_lua vs. node.js

ngx_lua 是由 chaoslawful 和 agentzh 开发的用于 web 开发的 nginx 扩展,
其主要特点在于利用了 nginx 的非阻塞 IO 模型以及 lua VM 的灵活性。

node.js 是 ry 主导开发的基于强大高效的 v8 引擎,
提供了事件模型和各种基础设施的 web 开发平台,
其主要特点是内部各种 IO 操作是非阻塞的,为高并发提供了很好的基础。
同时,因为基于 js 语法,和 web 前端融合较紧密,
可以提供前后一致的编程体验(当然,客户端还比较难达到服务器端的爽)。

在传统的 php 编程中,当需要查询数据库时,当前的
apache 进程(或线程)(或 php-fpm 之类)在数据结果返回前一直处于等待状态,
如果大量的请求都在做数据库查询操作,那么服务器就没法处理更多请求。
因为 apache 能开启的进程(或线程)数是有限的(受内存限制)。

<code>
<?php
// 连接数据库时,进程是在等待的
$c = mysql_connect('mysql_host', 'user', '****');
mysql_select_db('my_database');

$query = 'SELECT col1 FROM my_table LIMIT 10';
// 查询时,进程是在等待的
$result = mysql_query($query);

while ($line = mysql_fetch_array($result, MYSQL_ASSOC)) {
    echo " * " . $line[0] . "\n";
}

mysql_free_result($result);
mysql_close($c);
?>
</code>

如上面的代码所示,在跟外部系统交互的时候,当前进程啥都没干,净等着了,
你还不能抱怨人家不干活,因为理由很充分:数据库忙着呢,我得等!
真的这样么?
我们看看 node.js 怎么做的。

<code>
// 仅仅给出部分代码,不能直接运行
// resp 是响应体对象

var c = new require('mysql').Client();
c.user = 'user';
c.password = '****';

// 开始连接数据库,同时注册了一个在连接成功后要执行的函数
// 注意,这时候 node.js 做了这件事情以后代码还在继续往下执行
c.connect(function (err, results) {
    if (err) {
        resp.end("ERROR: " + err.message);
        return;
    }

    // 这里发了一个数据库请求,并且注册了一个在请求完成后要
    // 执行的函数,注册完毕后就跟刚才一样干其他事情去了
    c.query(
        'SELECT col1 FROM my_table LIMIT 10',
        function (err, results, fields) {
            if (err) {
                resp.end("ERROR: " + err.message);
                return;
            }

            for (var i = 0, iM = results.length; i < iM; ++i) {
                resp.write(' * ' + results[i][0] + '\n');
            }

            resp.end();
            c.end();
        });
});
</code>

我们可以看到,node.js 对 IO 的做法是当要发生可能等待的事情时,
注册个函数在那里,然后继续做其他事情,当实际的数据到达或者事件完成时,
再调用之前注册的函数来处理。
整个 node.js 环境内漂浮着许多事件和函数,
在底层,有一些机制来保证这些事件的正确、准确触发。

在这种思路下,业务处理代码被切片,然后被注册到各种事件上面去,
这些由 node.js 统一管理,因此实现了非阻塞的处理。

对于 php 来说,一旦 apache 把控制权转交给 php 以后,
他们之间就很难转让控制权了,我们不可能把 php 代码切分到这样细致的地步,
因为即使切分了也没法注册给 apache ,而在 php 内部注册也是没有意义的:
一个 php 进程一般只处理一个客户端请求而已,在一个请求内添加事件的概念,
没法提升系统整体的并发能力。

node.js 还有一个很大的优势是 连接池。
在 php 里,连接可能仅仅是复用而已,连接池的意义应该不大。
而在 node.js 里,连接是可以在多个请求之间共享的,
只要 node.js 服务器不重启或关闭,那么这些连接便可以一直复用。

看到这里,你有没有激动或者兴奋呢?
是否要抛弃执着等待 IO 的 apache + php 这一对黄金搭档呢?
不过,我们稍等一下,如果为了非阻塞的特性,而要我人肉的拆分我的代码
成为很多函数(代码片段)然后注册到各种事件上去,会不会写起来很恶心?
或者,有没有从天上掉下来的什么东西,能够让我写像 php 那样从上到下的代码,
而又能够像 node.js 那样非阻塞呢?

ngx_lua 就是这样的东西。
那,ngx_lua 到底是神马东西呢?我们先看段代码。

<code>
upstream db {
    drizzle_server mysql_host:3306 protocol=mysql
                   dbname=my_database user=user password=****;
}

http {
    server {
        location = /i-mysql {
            internal;

            drizzle_query $echo_request_body;
            drizzle_pass db;

            rds_json on;
        }

        location /test {
            content_by_lua '
                local yajl = require("yajl")

                local sql = "SELECT col1 FROM my_table LIMIT 10"
                local res = ngx.location.capture("/i-mysql",
                    { method = ngx.HTTP_POST, body = sql })

                if res.status ~= 200 then
                    ngx.say("error")
                    ngx.exit()
                end

                local result = yajl.to_value(res.body)

                for i, v in ipairs(result) do
                    ngx.say(" * " .. v)
                end
            ';
        }
    }
}
</code>

这是神马东西!!!!!!
好吧,其实这是一段 nginx 配置,
同时也是一段业务逻辑处理代码。

这里的写法跟 php 是类似的,从上到下,
但是呢,它对待 IO 的态度跟 node.js 是一样的,
当开始 IO 操作的时候,它会暂停当前代码的执行并发起数据请求,
当请求完成后,恢复之前暂停的代码,并把结果返回。

ngx_lua 的模型是一个 nginx 进程内可以同时处理不限数量(几乎)的请求,
他们按照上面描述的逻辑执行。

你可能会说,
那为什么要用 lua 这个没听说过的东西来搞,
而不用 php 或者 js 搞呢?

刚才说了,当发起请求的时候,需要暂停代码的执行,
暂时只有 lua 运行时支持这个特性(或者有其他什么主流语言支持,赶快说来听听)。
并且 lua 里面创建的进程(其实是协程)非常轻量,占用内存非常少,可以让服务器同时处理更多请求。

这篇文章是个开头,
后续会更多的介绍 ngx_lua 的周边和现状,
以及更多的使用示例。



Thursday, February 10, 2011

下雪了

早晨迷迷蒙蒙的醒来,
发现下雪了,
虽不至若狂,却很是欣喜。

转又发现很多铲雪的声音和身影,
遂想,为何这会带来烦恼的雪,
会让我觉得欣喜呢?

或者是太久低迷的心情,
因为这雪而释放了。

或者是听到广播里太多的话语,
抱怨这没有雪的冬天太不像样,
现在终于下雪了,连我也感受到了这像样的冬天了
——没有雪的冬天是不完整的冬天。

早早的来到公司,
一个人静静的看窗外细碎的雪花飘舞,
无论是发呆还是遐想,
都是很不错的。

忽然想起,
19、20交际的时候,
有帮文人开始积极的探索改革,
期望能够帮助当权政府改善,
然而他们失败了,
看来即使所谓的头头想要改变,
也是困难的,
为什么呢,
可能是牵涉到的利益群体太多,
而这些利益群体又是极其重要和关键的,
比如人家有一切维护和保障权力的资格和能力。
人家反对,
当然很难做出什么实质性的改变了。

所以就导致人们出来抗议,
干脆我们重新洗牌,
总能碰到一手好牌吧。

也许社会就是这样,
就像一场牌局。
当前执政的人,就像我们的牌。
也许初抓到一首烂牌,
但只要运气好,技术好,
慢慢的也会翻势。

只是社会这场是永没有结束的牌局,
可以重新抓,只是永远打不完。

而所有的民众就是打牌的人,
随着打的越久,
也许技巧就越高,
大家只是在每一局里面不断的调整手里的牌,
保持一个良好的状态,
可是,却永远没法赢。

好牌放在手里只是一种感觉,
因为你既不会输,也不会赢。
你要做的也许只是陪着大家打牌。

雪还在下着,
心情却不如刚才那般明亮了。
何苦呢。

Saturday, October 9, 2010

jquery 事件处理研究(1)

jquery 事件绑定很好用,
不过处理事件冒泡、后续事件执行逻辑很是纠结。
总结已知的逻辑如下。


jquery 的事件提供以下方法处理相关逻辑:

1. ev.preventDefault -> 阻止浏览器绑定到当前 node 的默认行为,比如 a 链接的 click 事件默认会跳转
2. ev.stopPropagation -> 阻止冒泡,即当前 node 的 parentNode s 绑定的同类型事件不会被触发
3. ev.stopImmediatePropagation -> 阻止当前 node 同事件类型 后续函数的触发,会自动调用 ev.stopPropagation() ,
    比如给 #a 绑定了 5 个 click ,当第 2 个函数调用了 ev.stopImmediatePropagation() 以后,后面的 3 个函数都不会被调用,
    并且这个 click 事件也不会再冒泡了。
    如果只想阻止后续函数的触发而不阻止冒泡(假如有这需求呢),那么可以设置
        ev.isImmediatePropagationStopped = function () {return true;}; 即可。
4. return false -> 如果事件处理函数返回 false ,那么 jquery 会自动调用 ev.stopPropagation() 和 ev.preventDefault() ;
    但是后续函数会继续执行 :(

以上描述在正常的 .bind .click 等方法中正常,在 .live 和 .delegate 稍有不同

1. 在 .live 的事件处理函数中 return false ,行为不仅仅是上面描述的,还会产生类似 ev.stopImmediatePropagation() 的效果,
    即后续的 live 事件都不执行了;
2. 在 .live 的事件处理函数中想阻止后续函数的执行,只能 return false ;
    但是这样有个副作用就是 jquery 会自动调用 ev.stopPropagation() 和 ev.preventDefault() ,这个行为没法改变!!!!



纠结的事情啊
望同样纠结、研究过的一起探讨


参考: