原理
需要知识:正则NFA回溯原理,php的pcre.backtrack_limit设置。
正则NFA回溯原理
正则表达式是一个可以被"有限状态自动机"接受的语言类。
"有限状态自动机",拥有有限数量的状态,每个状态可以迁移到零个或多个状态,输入字串决定执行哪个状态的迁移。
常见的正则引擎被分为DFA(确定性有限状态自动机)与NFA(非确定性有限状态自动机)他们匹配输入的过程是:
DFA:从起始状态开始,一个字符一个字符读取输入串,根据正则一步步确定至下一个转移状态,直到匹配不上或走完整个输入。
NFA:从起始状态开始,一个字符一个字符读取输入串,并与正则表达式进行匹配,如果匹配不上,则进行其他状态。
状态:输入串被匹配的形式。
从上面过程可知,由于NFA存在回溯,所以性能会劣于DFA,但他支持更多功能,大多数语言都是以NFA作为正则引擎。
Demo
NFA的匹配模式:
正则:<\?.*[(`;?>].* 输入串:<?php phpinfo();//aaaaa
匹配位置 | 模式 | 回溯 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 0 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 0 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 0 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 1 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 1 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 1 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 1 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 1 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 1 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 1 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 1 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 0 |
<?php phpinfo();//aaaaa | <\?.*[(`;?>].* | 0 |
通过表格可知,一共进行了八次回溯
什么是pcre.backtrack_limit()设置
对正则NFD回溯次数进行限制,能够预防pcre ddos,默认值为1,000,000,如果超过限制,preg_match()
将会返回false,而如果preg_match匹配成功返回为1,匹配不成功返回为0。
安全问题出现原因
php的正则引擎是NFA,当preg_match()函数内正则的回溯次数超过pcre.backtrack_limit时,将会返回false。
漏洞出现的语法:
<?php
function is_php($data){
return preg_match('/<\?.*[(`;?>].*/is', $data);
}
if(!is_php($input)) {
//code
}
?>
修复方案
if( is_php($input) === 0 )
// preg_match匹配成功返回int(1),失败返回int(0) 而不是false