C++正则表达式regex初探及踩的坑

编程

Regex库简介

Regex是从c++ 11开始有的。
c++正则表达式提供了以下几个主要功能:

  1. Math:将整个输入与正则表达式进行比对。
  2. Search:查找是否与正则表达式匹配的子串。
  3. Tokenize:根据正则表达式进行切分取得想要的目标子字符串。
  4. Replace:替换与正则表达式匹配的子字符串(一个或多个)。

Regex库使用

匹配判断

首先先看一个简单的例子

#include<regex>

#include<iostream>

int main(int argc, char *argv[])

{

try {

std::regex pattern("t_[^_]*_[^_]*_.*");

bool match = regex_match("t_123_345_456", pattern);

if (match) {

std::cout<< "match" <<std::endl;

} else {

std::cout << "not match" << std::endl;

}

}

catch (const std::regex_error &e) {

std::cout << "regex_error: what(): " << e.what() << std::endl;

}

return 0;

}

代码执行结果:
match

下面来说下基本使用方法。首先声明一个正则表达式:

std::regex pattern("t_[^_]*_[^_]*_.*");

然后调用匹配方法:

 regex_match("t_123_345_456", pattern);

 

如果有正则表达式有异常或匹配出现异常会抛出regex_error的异常,该异常派生自std::runtime_error.


regex支持多种正则表达式语法,包括:ECMAScript、basic(POSIX的BRE)、extended(POSIX的ERE)、awk、grep、egrep。默认使用的是ECMAScript。你也可以自己指定语法,如:

std::regex pattern("t_[^_]*_[^_]*_.*", std::regex_constants::grep);

 

获取匹配内容

如果你想获取匹配的内容则需要使用std::smatch,看下面一段代码:

#include<regex>

#include<iostream>

int main(int argc, char *argv[])

{

try

{

std::regex pattern("t_[^_]*_[^_]*_.*");

std::smatch m;

bool match = regex_match(std::string("t_123_345_456"), m, pattern);

std::cout << "m.empty():" << m.empty() << std::endl;

std::cout << "m.size():" << m.size() << std::endl;

if (match) {

std::cout << "match" << std::endl;

std::cout << "m.str():" << m.str() << std::endl;

std::cout << "m.position():" << m.position() << std::endl;

std::cout << "m.length():" << m.length() << std::endl;

} else {

std::cout << "not match" << std::endl;

}

}

catch (const std::regex_error &e)

{

std::cout << "regex_error: what(): " << e.what() << std::endl;

}

return 0;

}

执行结果:

m.empty():0

m.size():1

match

m.str():t_123_345_456

m.position():0

m.length():13

regex_match会将匹配结果放到regex_match里,头文件里是这样定义的:

typedef match_results<const char*> cmatch; 

typedef match_results<string::const_iterator> smatch;

可以看到头文件里声明了两个特例模板,一个是针对c-string,另一个是c+±string。因为我使用的是smatch,所以第二个例子里调用regex_match的时候第一个参数是构造了个string对象。


从程序执行结果来看,返回的是匹配整个字符串信息,包括匹配到的字符串、开始位置、长度等信息。

获取匹配的子串

如果我只想获取匹配的某个子字符串应该怎么处理呢。先看下面的例子:

#include<regex>

#include<iostream>

int main(int argc, char *argv[])

{

try

{

std::regex pattern("t_([^_]*)_([^_]*)_(.*)");

std::smatch m;

bool match = regex_match(std::string("t_123_345_456"), m, pattern);

std::cout << "m.empty():" << m.empty() << std::endl;

std::cout << "m.size():" << m.size() << std::endl;

if (match) {

std::cout << "match" << std::endl;

std::cout << "m.str():" << m.str() << std::endl;

std::cout << "m.position():" << m.position() << std::endl;

std::cout << "m.length():" << m.length() << std::endl;

for (int i=0; i < m.size(); ++i) {

std::cout << " m[" << i << "].str():" << m[i].str() << std::endl;

std::cout << " m[" << i << "].position():" << m.position(i) << std::endl;

std::cout << " m[" << i << "].length():" << m.length(i) << std::endl;

}

} else {

std::cout << "not match" << std::endl;

}

}

catch (const std::regex_error &e)

{

std::cout << "regex_error: what(): " << e.what() << " code:" << e.code() << std::endl;

}

return 0;

}

程序执行输出:

m.empty():0

m.size():4

match

m.str():t_123_345_456

m.position():0

m.length():13

m[0].str():t_123_345_456

m[0].position():0

m[0].length():13

m[1].str():123

m[1].position():2

m[1].length():3

m[2].str():345

m[2].position():6

m[2].length():3

m[3].str():456

m[3].position():10

m[3].length():3

这里用到分组的概念,用()进行分组,需要哪部分将相应的规则用()包含起来。
代码里的正则表达式:

"t_([^_]*)_([^_]*)_(.*)"

我例子里是对三组数子感兴趣,所以正则表达式里会匹配到三个子串。
从结果可以看到smatch第一个元素是整个字符串的匹配信息,从第二个元素开始是你所需要的分组对应的子串。

巨坑

当我使用gcc-4.8.5对代码进行编译时,没有报错,但是当正则表达式里包含[]时在执行的时候会抛出异常:

code:4

what:regex_error

一直怀疑自己的正则表达式写错了,后来发现gcc-4.9.0以下版本虽然有regex头文件,但是GCC很不厚道的没有实现,语法完全支持,但是库还没跟上,所以编译的时候是没有问题的,但是一运行就会直接抛出异常。
花了好多时间安装升级到4.9.0后能够正常运行,就是上面例子的结果。坑了好久!

以上是 C++正则表达式regex初探及踩的坑 的全部内容, 来源链接: utcz.com/z/513679.html

回到顶部