C++正则表达式regex初探及踩的坑
Regex库简介
Regex是从c++ 11开始有的。
c++正则表达式提供了以下几个主要功能:
- Math:将整个输入与正则表达式进行比对。
- Search:查找是否与正则表达式匹配的子串。
- Tokenize:根据正则表达式进行切分取得想要的目标子字符串。
- Replace:替换与正则表达式匹配的子字符串(一个或多个)。
Regex库使用
匹配判断
首先先看一个简单的例子
#include<regex>#include<iostream>
int main(int argc, char *argv[])
{
try {
std::regex pattern("t_[^_]*_[^_]*_.*");
bool match = regex_match("t_123_345_456", pattern);
if (match) {
std::cout<< "match" <<std::endl;
} else {
std::cout << "not match" << std::endl;
}
}
catch (const std::regex_error &e) {
std::cout << "regex_error: what(): " << e.what() << std::endl;
}
return 0;
}
代码执行结果:
match
下面来说下基本使用方法。首先声明一个正则表达式:
std::regex pattern("t_[^_]*_[^_]*_.*");
然后调用匹配方法:
regex_match("t_123_345_456", pattern);
如果有正则表达式有异常或匹配出现异常会抛出regex_error的异常,该异常派生自std::runtime_error.
regex支持多种正则表达式语法,包括:ECMAScript、basic(POSIX的BRE)、extended(POSIX的ERE)、awk、grep、egrep。默认使用的是ECMAScript。你也可以自己指定语法,如:
std::regex pattern("t_[^_]*_[^_]*_.*", std::regex_constants::grep);
获取匹配内容
如果你想获取匹配的内容则需要使用std::smatch,看下面一段代码:
#include<regex>#include<iostream>
int main(int argc, char *argv[])
{
try
{
std::regex pattern("t_[^_]*_[^_]*_.*");
std::smatch m;
bool match = regex_match(std::string("t_123_345_456"), m, pattern);
std::cout << "m.empty():" << m.empty() << std::endl;
std::cout << "m.size():" << m.size() << std::endl;
if (match) {
std::cout << "match" << std::endl;
std::cout << "m.str():" << m.str() << std::endl;
std::cout << "m.position():" << m.position() << std::endl;
std::cout << "m.length():" << m.length() << std::endl;
} else {
std::cout << "not match" << std::endl;
}
}
catch (const std::regex_error &e)
{
std::cout << "regex_error: what(): " << e.what() << std::endl;
}
return 0;
}
执行结果:
m.empty():0m.size():1
match
m.str():t_123_345_456
m.position():0
m.length():13
regex_match会将匹配结果放到regex_match里,头文件里是这样定义的:
typedef match_results<const char*> cmatch; typedef match_results<string::const_iterator> smatch;
可以看到头文件里声明了两个特例模板,一个是针对c-string,另一个是c+±string。因为我使用的是smatch,所以第二个例子里调用regex_match的时候第一个参数是构造了个string对象。
从程序执行结果来看,返回的是匹配整个字符串信息,包括匹配到的字符串、开始位置、长度等信息。
获取匹配的子串
如果我只想获取匹配的某个子字符串应该怎么处理呢。先看下面的例子:
#include<regex>#include<iostream>
int main(int argc, char *argv[])
{
try
{
std::regex pattern("t_([^_]*)_([^_]*)_(.*)");
std::smatch m;
bool match = regex_match(std::string("t_123_345_456"), m, pattern);
std::cout << "m.empty():" << m.empty() << std::endl;
std::cout << "m.size():" << m.size() << std::endl;
if (match) {
std::cout << "match" << std::endl;
std::cout << "m.str():" << m.str() << std::endl;
std::cout << "m.position():" << m.position() << std::endl;
std::cout << "m.length():" << m.length() << std::endl;
for (int i=0; i < m.size(); ++i) {
std::cout << " m[" << i << "].str():" << m[i].str() << std::endl;
std::cout << " m[" << i << "].position():" << m.position(i) << std::endl;
std::cout << " m[" << i << "].length():" << m.length(i) << std::endl;
}
} else {
std::cout << "not match" << std::endl;
}
}
catch (const std::regex_error &e)
{
std::cout << "regex_error: what(): " << e.what() << " code:" << e.code() << std::endl;
}
return 0;
}
程序执行输出:
m.empty():0m.size():4
match
m.str():t_123_345_456
m.position():0
m.length():13
m[0].str():t_123_345_456
m[0].position():0
m[0].length():13
m[1].str():123
m[1].position():2
m[1].length():3
m[2].str():345
m[2].position():6
m[2].length():3
m[3].str():456
m[3].position():10
m[3].length():3
这里用到分组的概念,用()进行分组,需要哪部分将相应的规则用()包含起来。
代码里的正则表达式:
"t_([^_]*)_([^_]*)_(.*)"
我例子里是对三组数子感兴趣,所以正则表达式里会匹配到三个子串。
从结果可以看到smatch第一个元素是整个字符串的匹配信息,从第二个元素开始是你所需要的分组对应的子串。
巨坑
当我使用gcc-4.8.5对代码进行编译时,没有报错,但是当正则表达式里包含[]时在执行的时候会抛出异常:
code:4what:regex_error
一直怀疑自己的正则表达式写错了,后来发现gcc-4.9.0以下版本虽然有regex头文件,但是GCC很不厚道的没有实现,语法完全支持,但是库还没跟上,所以编译的时候是没有问题的,但是一运行就会直接抛出异常。
花了好多时间安装升级到4.9.0后能够正常运行,就是上面例子的结果。坑了好久!
以上是 C++正则表达式regex初探及踩的坑 的全部内容, 来源链接: utcz.com/z/513679.html