百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

面试官:count(*) 怎么优化?

myzbx 2025-03-05 19:33 18 浏览

01 前言

哈喽,我是狗哥。小伙伴都知道我最近换工作了,薪资、工作内容什么的都是我比较满意的。五月底也面试了有 6、7 家公司,应该拿了有 5 个 offer。这段时间也被问了很多面试题,我打算写一个专题分享出来,希望对你们有所帮助~

这期面试官提的问题是:

count (1) 和 count (*) 有啥区别?你更推荐用哪个?数据量很大的情况下怎么优化?

国际惯例先上思维导图:

1.1 往期精彩

MySQL 查询语句是怎么执行的?

MySQL 索引

MySQL 日志

MySQL 事务与 MVCC

MySQL 的锁机制

MySQL 字符串怎么设计索引?

面试官:数据库自增 ID 用完了会咋样?

面试官:order by 怎么优化?

02 四种 count 的区别

count 是一个聚合函数,对于返回的结果集,一行行地判断,如果 count 函数的参数不是 NULL,累计值就加 1,否则不加。最后返回累计值。

既然都说到这里了,干脆就把 4 种 count 的区别都对比下:

  • count (字段):遍历整张表,需要取值,判断 字段!= null,按行累加;
  • count (主键) :遍历整张表,需要取 ID,判断 id !=null,按行累加;
  • count (1) :遍历整张表,不取值,返回的每一行放一个数字 1,按行累加;
  • count (*):不会把全部字段取出,专门做了优化,不取值。count ( * ) 肯定不是 null,按行累加。

count (主键) 可能会选择最小的索引来遍历,而 count (字段) 的话,如果字段上没有索引,就只能选主键索引,所以性能上 count (字段) < count (主键)

因为 count (*) 和 count (1) 不取字段值,减少往 server 层的数据返回,所以比其他 count (字段) 要返回值的性能较好;

所以结论是:** 按照效率排序的话,count (字段)<count (主键 id)<count (1)≈count (),建议尽量使用 count ()。

2.1 MySQL 对 count (*) 做的优化

InnoDB 是索引组织表,主键索引树的叶子节点是数据,而普通索引树的叶子节点是主键值。因此,普通索引树比主键索引树小很多

对于 count (*) 来说,遍历哪个索引树得到的结果逻辑上都是一样的。MySQL 优化器会找到最小的那棵树来遍历。在保证逻辑正确的前提下,尽量减少扫描的数据量,是数据库系统设计的通用法则之一

03 count (*) 的实现方式

count (*) 在不同引擎中的实现方式是不一样的:

  • MyISAM:不支持事务,把一个表的总行数存在了磁盘上,因此执行 count (*) 的时候会直接返回这个数,效率很高;
  • InnoDB:支持事务,它执行 count (*) 的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数。

当然这里讨论的是没有 where 条件下的 count,如果有 where 条件,那么即使是 MyISAM 也必须累积计数的。

至于有 where 条件怎么执行,建议看看海神的这篇文章:

SELECT COUNT (*) 会造成全表扫描吗?

当你的记录数越来越多的时候,计算一个表的总行数会越来越慢。你可能会问:

为什么 InnoDB 不跟 MyISAM 一样,也把数字存起来呢?

其实是因为 InnDB 支持事务的 MVCC 的原因,当前时刻的 SQL 应该返回的记录数是多少,它也需要扫描才知道。不知道 MVCC 的,可以看看之前的旧文:

MySQL 事务与 MVCC

看完还不懂?举个例子:假设表 t 中现在有 10000 条记录,有三个用户并行的会话。

  • 会话 A 先启动事务并查询一次表的总行数;
  • 会话 B 启动事务,插入一行后记录后,查询表的总行数;
  • 会话 C 先启动一个单独的语句,插入一行记录后,查询表的总行数。

它的执行流程以及结果是这样的:

A、B、C

你也发现了,因为 MVCC 机制,事务之间是存在可见性的。所以,并发环境下每个会话得到的数据是不一样的。

分析:

  • 会话 A 在 C 之前启动,C 可见 A 且会话 C 自己插入一行,再 count (*),对它自己来说肯定是可见的、所以结果 +1。
  • 会话 A、C 在 B 之前启动,B 可以看见 A、C,自己插入一条数据 +1、C 插入一条数据 +1、所以 B 结果 + 2

04 TABLE_ROWS 能代替 count (*) 吗?

如果你看过官方文档的话,你会知道 show table status 命令,它的结果有个 ROWS 字段就是估算该表的数据量,如下所示:

真实数据:

图一是估算数据、图二是真实数据。实际上你会发现两种数据不一致,因为 show table status 命令对数量的统计是估算的,并不准确。

到这里我们小结一下:

  • MyISAM 表虽然 count (*) 很快,但是不支持事务;
  • show table status 命令虽然返回很快,但是不准确;
  • InnoDB 表直接 count (*) 会遍历全表,虽然结果准确,但会导致性能问题。

那么问题来了:假设我现在有个订单页面,更新很频繁,并且需求是要显示实时的操作记录总数、并且展现最新的 100 条记录信息。应该用哪种方式呀?

很明显只能自己计数呀,那么如何设计呢?

05 基于 count (*) 的计数方案

基本思路就是:你需要自己找一个地方,把操作记录表的行数存起来

5.1 结果放在 Redis

更新频繁,我第一时间肯定是想到 Redis 这神器呀。表插入一行 Redis 计数加一,删除一行计数减一。Redis 性能贼好,听起来这方案似乎完美。

仔细一想,还是有 ** 丢失更新的问题:MySQL 插入一行,Redis 宕机咋办?** 你可能会说,恢复之后再执行一次 count (*),再次缓存不就得了?

好,丢失更新的问题确实解决了,但是 MySQL 和 Redis 的数据怎么保证一致性呢?

假设我现在要去最新的 100 条数据,并在前端展现。时序图如下:

很明显,会话 A 插入数据,但是还没来得及更新 Redis;会话 B 查询 Redis 计数,并向 MySQL 查询最新的 100 条记录。

此时数据就不精确:查到的 100 行结果里面有最新插入记录,而 Redis 的计数里还没加 1,总数不精确

有人可能说,你 SessionA 换个顺序不就好了。先更新 Redis 计数、再插入 MySQL 表记录。像下面这样

其实在 T3 时刻还是会出现不一致的情况:查到的 100 行结果里面没有最新插入记录,而 Redis 的计数里加了 1,最新记录不精确

所以说,用 Redis 保存计数有丢失数据和计数不精确的问题。

5.2 结果放在 MySQL

上面出现数据丢失或计算不精确的原因在于:MySQL 和 Redis 的事务不是同一体系的,我们并不能保证两者事务的原子性,而把 Redis 也换成 MySQL 这就迎刃而解了。

那我们换个思路,不能新建一张 MySQL 表 C 专门用来存放订单表的总数吗?

看到这里,你可能会说这不跟开头冲突了么?由于 InnoDB 要支持事务,从而导致 InnoDB 表不能把 count (*) 直接存起来,然后查询的时候直接返回计算好的。你现在说又能存,这不扯了么?

其实我们可以利用事务原子性和隔离特性解决这一问题:表 C 计数器的修改和订单数据的写表在一个事务中。读取计数器和查询最近订单数据也在一个事务中。看到这里,有没有清晰一点?

我来画个时序图:

会话 A 进行写操作,T3 时刻,A 的更新事务还没有提交;所以计数值加 1 这个操作对会话 B 还不可见。也就是说会话 B 看到的结果在逻辑上就是一致的

看到这里是不是有点,成也事务败也事务的感觉?

06 总结

首先,在 4 中 count 的对比中,我们应该选 count (*),因为 MySQL 对它作做了优化;

第二,count (*) 在两种搜索引擎中的实现是不一样的,MyIsam 直接把总数存在硬盘、而 InnDB 则是老式计数;

第三,分析了 Redis 存储计数会出现的问题,把计数值也放在 MySQL 中,利用事务的原子性和隔离性,就可以解决一致性的问题。

最后,数据量不大,我们尽量用 count (*) 实现计数;数据量很大的情况考虑新建 MySQL 表存储计数,用事务的原子性和隔离性解决。

参考

  • time.geekbang.org/column/article/72775
  • blog.csdn.net/bjweimengshu/article/details/79607522
  • cnblogs.com/shoshana-kong/p/10516404.html

原文链接:
https://mp.weixin.qq.com/s/bYOKQfTwriZH-zFiINoyEQ

相关推荐

C语言速成之数组:C语言数据处理的核心武器,你真的玩透了吗?

程序员Feri一名12年+的程序员,做过开发带过团队创过业,擅长Java、鸿蒙、嵌入式、人工智能等开发,专注于程序员成长的那点儿事,希望在成长的路上有你相伴!君志所向,一往无前!数组:C语言数据处理...

ES6史上最全数JS数组方法合集-02-数组操作

数组生成array.ofletres=Array.of(1,2,3)console.log(res)//[1,2,3]下标定位indexOf用于查找数组中是否存在某个值,如果存...

前端性能拉胯?这 8 个 JavaScript 技巧让你的代码飞起来!

在前端开发的江湖里,JavaScript就是我们手中的“绝世宝剑”。但为啥别人用剑就能轻松斩敌,你的代码却总拖后腿,页面加载慢、交互卡顿?别着急!今天带来8个超实用的JavaScript实...

12种JavaScript中最常用的数组操作整理汇总

数组是最常见的数据结构之一,我们需要绝对自信地使用它。在这里,我将列出JavaScript中最重要的几个数组常用操作片段,包括数组长度、替换元素、去重以及许多其他内容。1、数组长度大多数人都知道可...

手把手教你在Webpack写一个Loader

前言有的时候,你可能在从零搭建Webpack项目很熟悉,配置过各种loader,面试官在Webpack方面问你,是否自己实现过一个loader?如果没有去了解过如果去实现,确实有点尴尬,其...

const关键字到底该什么用?(可以用const关键字定义变量吗)

文|守望先生经授权转载自公众号编程珠玑(id:shouwangxiansheng)前言我们都知道使用const关键字限定一个变量为只读,但它是真正意义上的只读吗?实际中又该如何使用const关键字...

“JavaScript变量声明三兄弟,你真的会用吗?

在JavaScript中,var、let和const是声明变量的关键字,它们在作用域、变量提升、重复声明和重新赋值等方面有显著区别。以下是它们的相同点和不同点,并通过代码示例详细说明。一、相同点声明变...

ES6(二)let 和 const(es6 var let const区别)

let命令let和var差不多,只是限制了有效范围。先定义后使用不管是什么编程语言,不管语法是否允许,都要秉承先定义,然后再使用的习惯,这样不会出幺蛾子。以前JavaScript比较随意,...

js 里面 let 和 const的区别(js中的let)

在JavaScript(包括Vue、Node.js、前端脚本等)中,const和let是用于声明变量的两种方式,它们的主要区别如下:constvslet的区别特性constlet是否...

JDK21新特性:Sequenced Collections

SequencedCollectionsJDK21在JEP431提出了有序集合(SequencedCollections)。引入新的接口来表示有序集合。这样的集合都有一个明确的第一个元素、第二个...

动态编程基础——第 2 部分(动态编程是什么)

有两种方法可以使用动态规划来解决问题。在这篇文章中,我们将了解制表法。请参阅我的动态编程基础——第1部分了解记忆方法。记忆制表什么是动态规划?它是一种简单递归的优化技术。它大大减少了解决给定...

Lambda 函数,你真的的了解吗(lambda函数用法)

什么是lambda函数lambda函数是一个匿名函数,这意味着与其他函数不同,它们没有名称。这是一个函数,它添加两个数字,写成一个命名函数,可以按其名称调用它们:defadd(x,y):...

JavaScript 数组操作方法大全(js数组操作的常用方法有哪些)

数组操作是JavaScript中非常重要也非常常用的技巧。本文整理了常用的数组操作方法(包括ES6的map、forEach、every、some、filter、find、from、of等)...

系列专栏(六):解构赋值(解构赋值默认值)

ES6作为新一代JavaScript标准,已正式与广大前端开发者见面。为了让大家对ES6的诸多新特性有更深入的了解,MozillaWeb开发者博客推出了《ES6InDepth》系列文章。CSDN...

js列表遍历方法解读(js遍历链表)

JavaScript提供了多种遍历数组(或列表)的方法。以下是一些常用的方法及其解读:for循环:vararray=[1,2,3,4,5];for(vari=0;...