百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

在R语言中使用正则表达式(r语言中的正则表达式)

myzbx 2025-07-14 20:14 3 浏览

有时候我们要处理的是非结构化的数据,例如网页或是电邮资料,那么就需要用R来抓取所需的字符串,整理为进一步处理的数据形式。R语言中有一整套可以用来处理字符的函数,在之前的 博文 中已经有所涉及。但真正的要用好字符处理函数,则不得不用到正则表达式。 正则表达式(Regular Expression、regexp)是指一种用来描述一定数量文本的模式。熟练掌握正则表达式能使你随心所欲的操作文本来达成目标。其实学习正则表达式并没有想像中的那么困难。最好方法是从例子开始,然后多练习,多使用。网络上已经有许多不错的参考资料,例如 这篇 或 那篇 。本文假设你对正则表达式有了基本的了解,下面我们来看看如何在R里面来使用它。

假设我们有一个字符向量,包括了三个字符串。我们的目标是从中抽取电邮地址。R语言中很多字符函数都能识别正则表达式,而最重要的函数就是 gregexpr。该函数的第一个参数是正则表达式,前后需要用引号,对元字符进行转义时要用\\。第二个参数是等待处理的文本。那么用如下三行代 码,我们从word字符向量中得到一个列表,其中第一项元素中的5表示电邮地址从第5个字符位置开始,24表示电邮地址长度为24。

word <-c('abcnoboby@stat.berkeley.edu','textwithnoemail','firstme@mything.comalsoyou@yourspace.com')pattern<-'[-A-Za-z0-9_.%]+@[-A-Za-z0-9_.%]+\\.[A-Za-z]+'(gregout<-gregexpr(pattern,word))

[[1]]

[1] 5

attr(,”match.length”)

[1] 24

[[2]]

[1] -1

[[3]]

[1] 7 27

attr(,”match.length”)

[1] 14 17

下一步我们需要将电邮地址抽取出来,此时配合substr函数,即可根据需要字符串的位置来提取子集。

substr(word[1],gregout[[1]],gregout[[1]]+attr(gregout[[1]],'match.length')-1)

[1] “noboby@stat.berkeley.edu”

更方便的使用方式是根据上述方法建立一个自定义函数getcontent,参数s表示待处理的文本,参数g表示的是通过gregexpr函数处理后的结果。这个函数我们在后面还会用到。

getcontent <-function(s,g){substring(s,g,g+attr(g,'match.length')-1)}getcontent(word[1],gregout[[1]])

下面我们用一个较大的例子来说明在实际的数据抓取工作中,如何使用正则表达式。豆瓣电影是博主经常去的地方。此次任务目标是要抓取豆瓣电影中250部最佳电影的资料。R代码如下:

url<-'http://movie.douban.com/top250?format=text'# 获取网页原代码,以行的形式存放在web变量中web<-readLines(url,encoding="UTF-8")# 找到包含电影名称的行编号name<-web[grep('<tdheaders="m_name">',web)+1]# 用正则表达式来提取电影名
gregout <-gregexpr('>\\w+',name)
movie.names =0for(i in1:250){
    movie.names[i]<-getcontent(name[i],gregout[[i]])}
movie.names<-sub('>','',movie.names)# 找到包含电影发行年份的行编号并进行提取
year <-web[grep('<spanclass="year">',web)]
movie.year <-substr(year,36,39)# 找到包含电影评分的行编号并进行提取score<-web[grep('<tdheaders="m_rating_score">',web)+1]
movie.score <-substr(score,21,23)# 找到包含电影评价数量的行编号并进行提取rating<-web[grep('<tdheaders="m_rating_num">',web)+1]
movie.rating <-sub(' *','',rating)# 合成为数据框movie<-data.frame(names=movie.names,year=as.numeric(movie.year),score=as.numeric(movie.score),rate=as.numeric(movie.rating))# 绘散点图library(ggplot2)p<-ggplot(data=movie,aes(x=year,y=score))p+geom_point(aes(size=rate),colour='lightskyblue4',position="jitter",alpha=0.8)+geom_point(aes(x=1997,y=8.9),colour='red',size=4)

用散点图来观察数据,可以看到前250名电影中大部分是1980年之后发行的。1997年和2010年发行的电影有不少精品。而其中红色点所代表的是哪部电影你知道吗?那就是Titanic。

相关推荐

JMeter:执行顺序与作用域(jmeter顺序执行怎么设置)

一、执行顺序类似于运算符或操作符的优先级,当JMeter测试中包含多个不同的元素时,哪些元素先执行,哪些元素后执行,并不是严格按照它们出现的先后顺序依次有序执行的,而是会遵循一定的内部规则,我们称之为...

彻底搞懂C语言指针(c语言 指针用法)

指针是C语言的难点,本篇文章总结一下各类指针的用法。指针是个变量,它存储的是变量的地址,这个地址指向哪里,取决于指针的类型,指针类型包括以下几种:基本类型指针数组类型指针函数类型指针结构体类型指针联合...

Excel运算符相关知识点分享(excel运算符有哪些类型)

在Excel中,运算符主要用于执行各种计算和逻辑操作主要分为以下四类1.比较运算符在Excel中,比较运算符用于比较两个值,并返回逻辑结果TRUE(真)或FALSE(假)。它们常用于条件判...

Python编程基础:运算符的优先级(python运算符优先级记忆口诀)

多个运算符同时出现在一个表达式中时,先执行哪个,后执行哪个,这就涉及运算符的优先级。如数学表达式,有+、-、×、÷、()等,优先级顺序是()、×、÷、+、-,如5+(5-3)×4÷2,先计算(5-3)...

吊打面试官(四)--Java语法基础运算符一文全掌握

简介本文介绍了Java运算符相关知识,包含运算规则,运算符使用经验,特殊运算符注意事项等,全文5400字。熟悉了这些内容,在运算符这块就可以吊打面试官了。Java运算符的规则与特性1.贪心规则(Ma...

C语言零基础教学-3-运算符与表达式

同学们好,今天学习c元基础知识第三讲:运算符与表达式。本节内容将学习算数运算符与算数表达式。·至臻至减运算符、赋值运算符、逗号运算符、求至结运算符。→首先学习算数运算符,它包含加减乘除求余数正负。比如...

Python运算符优先级终极指南:避免表达式计算的陷阱

混合表达式中的运算符优先级当Python表达式中同时出现算术运算符、布尔运算符和比较运算符时,计算顺序由运算符优先级决定:算术运算符(最高优先级)包括:乘方(**)、乘除(*,/,//,%)、加...

Python自动化办公应用学习笔记12——运算符及运算符优先级

一、运算符1.算术运算符:运算符名称描述示例+加数值相加10+3=13-减数值相减10-3=7*乘数值相乘10*3=30/除浮点数除法10/3≈3.33//整除向下...

python3-运算符优先级(python运算符优先级最高)

#挑战30天在头条写日记#Python运算符优先级以下列出了从最高到最低优先级的所有运算符,相同单元格内的运算符具有相同优先级。运算符均指二元运算,除非特别指出。相同单元格内的运算符从左至右分组...

Java运算符优先级表(java语言中运算符的优先级)

Java语言中有很多运算符,由于运算符优先级的问题经常会导致程序出现意想不到的结果,为了避免程序可能由于运算顺序而导致一系列的问题,Java初学者需应尽可能掌握这些运算符规律图示给大家详细介绍了运算符...

Excel公式中运算符类型及优先顺序

在Excel中公式中,用到的一些运算符是有优先计算顺序的,详见下图。下面我们简单介绍一下这些运算符的使用方法。说明:Excel中所有公式及运算符,都需要在英文输入法半角状态输入,不要输入中文字符或者全...

JavaScript基础知识14——运算符:逻辑运算符,运算符优先级

哈喽,大家好,我是雷工!一、逻辑运算符1、概念:在程序中用来连接多个比较条件时候使用的符号。2、应用场景:在程序中用来连接多个比较条件时候使用。3、逻辑运算符符号:4、代码演示逻辑运算符的使用:逻辑...

认识Excel中的运算符(excel中的运算符包括在哪里)

Excel中,函数与公式无疑是最具有魅力的功能之一。使用函数与公式,能帮助用户完成多种要求的数据运算、汇总、提取等工作。函数与公式同数据验证功能相结合,能限制数据的输入内容或类型,还可以制作动态更新...

JavaScript 中的运算符优先级(javascript中的运算符分为哪几种?)

#寻找热爱表达的你#新人求关注,点击右上角↗关注,博主日更,全年无休,您的关注是我的最大的更新的动力~感谢大家了运算符优先级在JavaScript中是指决定表达式中不同操作符执行顺序的规...

从几个细节问题出发,如何写好产品需求文档?

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。这篇文章暂时不讨论什么是需求文档,也不强调需求文档的重要性等等,就简单地从各种细节问题出发如何写好一份需求文档。一份好...