百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

在R语言中使用正则表达式(r语言中的正则表达式)

myzbx 2025-07-14 20:14 39 浏览

有时候我们要处理的是非结构化的数据,例如网页或是电邮资料,那么就需要用R来抓取所需的字符串,整理为进一步处理的数据形式。R语言中有一整套可以用来处理字符的函数,在之前的 博文 中已经有所涉及。但真正的要用好字符处理函数,则不得不用到正则表达式。 正则表达式(Regular Expression、regexp)是指一种用来描述一定数量文本的模式。熟练掌握正则表达式能使你随心所欲的操作文本来达成目标。其实学习正则表达式并没有想像中的那么困难。最好方法是从例子开始,然后多练习,多使用。网络上已经有许多不错的参考资料,例如 这篇 或 那篇 。本文假设你对正则表达式有了基本的了解,下面我们来看看如何在R里面来使用它。

假设我们有一个字符向量,包括了三个字符串。我们的目标是从中抽取电邮地址。R语言中很多字符函数都能识别正则表达式,而最重要的函数就是 gregexpr。该函数的第一个参数是正则表达式,前后需要用引号,对元字符进行转义时要用\\。第二个参数是等待处理的文本。那么用如下三行代 码,我们从word字符向量中得到一个列表,其中第一项元素中的5表示电邮地址从第5个字符位置开始,24表示电邮地址长度为24。

word <-c('abcnoboby@stat.berkeley.edu','textwithnoemail','firstme@mything.comalsoyou@yourspace.com')pattern<-'[-A-Za-z0-9_.%]+@[-A-Za-z0-9_.%]+\\.[A-Za-z]+'(gregout<-gregexpr(pattern,word))

[[1]]

[1] 5

attr(,”match.length”)

[1] 24

[[2]]

[1] -1

[[3]]

[1] 7 27

attr(,”match.length”)

[1] 14 17

下一步我们需要将电邮地址抽取出来,此时配合substr函数,即可根据需要字符串的位置来提取子集。

substr(word[1],gregout[[1]],gregout[[1]]+attr(gregout[[1]],'match.length')-1)

[1] “noboby@stat.berkeley.edu”

更方便的使用方式是根据上述方法建立一个自定义函数getcontent,参数s表示待处理的文本,参数g表示的是通过gregexpr函数处理后的结果。这个函数我们在后面还会用到。

getcontent <-function(s,g){substring(s,g,g+attr(g,'match.length')-1)}getcontent(word[1],gregout[[1]])

下面我们用一个较大的例子来说明在实际的数据抓取工作中,如何使用正则表达式。豆瓣电影是博主经常去的地方。此次任务目标是要抓取豆瓣电影中250部最佳电影的资料。R代码如下:

url<-'http://movie.douban.com/top250?format=text'# 获取网页原代码,以行的形式存放在web变量中web<-readLines(url,encoding="UTF-8")# 找到包含电影名称的行编号name<-web[grep('<tdheaders="m_name">',web)+1]# 用正则表达式来提取电影名
gregout <-gregexpr('>\\w+',name)
movie.names =0for(i in1:250){
    movie.names[i]<-getcontent(name[i],gregout[[i]])}
movie.names<-sub('>','',movie.names)# 找到包含电影发行年份的行编号并进行提取
year <-web[grep('<spanclass="year">',web)]
movie.year <-substr(year,36,39)# 找到包含电影评分的行编号并进行提取score<-web[grep('<tdheaders="m_rating_score">',web)+1]
movie.score <-substr(score,21,23)# 找到包含电影评价数量的行编号并进行提取rating<-web[grep('<tdheaders="m_rating_num">',web)+1]
movie.rating <-sub(' *','',rating)# 合成为数据框movie<-data.frame(names=movie.names,year=as.numeric(movie.year),score=as.numeric(movie.score),rate=as.numeric(movie.rating))# 绘散点图library(ggplot2)p<-ggplot(data=movie,aes(x=year,y=score))p+geom_point(aes(size=rate),colour='lightskyblue4',position="jitter",alpha=0.8)+geom_point(aes(x=1997,y=8.9),colour='red',size=4)

用散点图来观察数据,可以看到前250名电影中大部分是1980年之后发行的。1997年和2010年发行的电影有不少精品。而其中红色点所代表的是哪部电影你知道吗?那就是Titanic。

相关推荐

OPPO Find X9手机曝料:6.6英寸屏幕、天玑9500芯片

IT之家8月27日消息,科技媒体xpertpick今天(8月27日)发布博文,报道称OPPO计划于今年10月推出FindX9系列旗舰手机,其中包括FindX9和...

OPPO Find X9系列搭载影像新硬件,支持Ultra级画质和色彩还原

IT之家8月27日消息,OPPOFindX9系列手机发布时间逐渐临近,目前官方已开启新机的前瞻预热。OPPOFind系列产品负责人周意保今日发文解释了厂商为什么现在都喜欢跨界合作这一...

我回来了!聊聊屏幕对续航的影响_屏幕耗电吗

时隔一周终于回国,让大家久等了本来上周日就能到家,结果在旧金山转机的时候把护照弄丢了…幸好后来被一位黑人大姐找到了,才能顺利回国,感谢勤劳朴实的美利坚人民。出差途中笔记本的续航是很重要的,刚好联想的产...

J人福音、P人救星,Lumix Flow如何重塑专业视频拍摄工作流

“等一下,刚才那个中景拍了没有?”“A机位的素材是哪一场的?”“完了,我忘了记哪一条是最好的了!”“今晚加个班,先把能用的素材挑出来……”作为经常一个人拍视频的内容创作者,这种崩溃称得上习以为常。如果...

realme史上最窄边框和下巴 realme GT Neo3正式发布

中关村在线消息:今天下午14点,realme召开真我GTNeo3发布会。realmeGTNeo3搭载6.7英寸2412×1080OLED直屏,其支持120Hz刷新率,360Hz触控采样率,智能...

用酒精擦屏幕,对屏幕的伤害有多大?

天府新青年你触手可及的朋友圈附录:1.不是所有电脑的屏幕都不能用酒精来擦,通常来说只有镜面屏屏幕才有涂层,这种不能用酒精擦;而雾面屏用的是另外一种抗反射技术,这种一般擦了没事。镜面屏和雾面屏特别好认...

windows11截屏快捷键是哪个?windows11快捷键设置大全

windows11键盘快捷方式就是键盘快捷方式就是按键或按键组合,可提供一种替代方式来执行通常使用鼠标执行的操作。下面就来分享下windows11截屏快捷键是哪个和windows11快捷键设置大全。一...

三星Galaxy S25 Slim配置曝光 6.7英寸屏幕搭配2亿像素主摄

【CNMO科技新闻】三星GalaxyS25系列将于北京时间1月23日正式发布,CNMO注意到有博主爆出了即将亮相GalaxyS25Slim的配置信息。据悉,GalaxyS25Slim将配备一...

两种手机屏幕到底有什么不一样?哪种手机屏幕更好?

一般来说,我们的手机屏幕只分为两种OLED和LCD,LCD是大火的一种手机屏幕,是千元机以及高端机的标配,OLED算是后起之秀,是近几年才渐渐兴起的一种类型的手机屏幕,那么这两种手机屏幕到底有什么不一...

有强芯才好用 这三款高性价比旗舰芯热机最低仅需1799元

在选购手机时,相信大家肯定都会把性能作为考虑的重点之一。而如果希望拥有出色的性能表现,一颗旗舰处理器是必不可少的。今天我就为大家汇总了几款采用旗舰处理器的底价新机,感兴趣的朋友千万不要错过。moto...

一文搞定FastDFS的搭建和使用_fastdfs怎么样

1.FastDFS概述FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文...

涨姿势!超级计算机用啥文件系统呢?

2015-10-1705:58:00作者:赵为民在计算机中,文件系统(filesystem)是一个非常重要的组件,你可以将他看做是操作系统的子系统,其实质就是一种软件的组件,通过文件系统我们可以...

Window as a VM:Chrome OS 现可窗口化运行其它 Linux 分支

这世上纵然有多种办法可以在Chromebook上安装运行ChromeOS和其它Linux分支多系统,但如果无需重启通过引导切换,确实是个很酷的改进。Google布道师Francois...

Win10新预览版19577开始推送:新图标+多项新功能

今日凌晨,微软正式向Windows10Insider快速通道用户推送了全新版本Windows10——Windows10InsiderPreviewBuild19577。19577版本是...

微软Windows升级密钥(例如家庭版升级为企业版)

下面的密钥,是微软官方提供的,仅能用于Windows10系统版本的升级,比如从家庭版升级为专业版、专业版升级为企业版等。升级密钥不能用于激活系统,激活需要KMS或者数字权利,由于涉及到版权问题,在此不...