百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Linux 进程解析(6):资源隔离 (Namespace、Cgroups 与容器化)

myzbx 2025-09-18 23:45 2 浏览

0.简介

在前面文章中,我们对于进程相关的知识和实际案例进行了介绍,但在进程管理的世界中,仅仅理解进程的创建和调度还是不够的。当应用从单机走向容器化,从本地使用走向云端部署,资源隔离的失效轻则导致服务异常,重则导致宕机。本文将对内核级进程隔离和资源限制的实现和使用进行介绍,带读者一起深入理解容器技术的实现。

1.Namespace

Namespace本质上是对于进程可见全局资源的一层封装,使得每一个进程(进程组)都认为自己独占一套独立的资源,其提供了多种类型的Namespace来隔离不同的系统资源:

PID  │ 进程ID隔离      → 容器内首个进程以为自己是"init"(PID=1)  
NET  │ 网络栈隔离      → 容器拥有独立IP、端口、路由表  
IPC  │ 进程通信隔离    → 禁止跨容器的共享内存通信  
MNT  │ 文件系统隔离    → `/` 在容器内外看到不同内容  
UTS  │ 主机名隔离      → 容器可自定义hostname  
USER │ 用户权限隔离    → 容器内"root"≠宿主机root  

NameSpace的核心数据结构是nsproxy,每个进程的task_struct中都有一个nsproxy的指针,指向其所属的命名空间:

struct nsproxy {
    atomic_t count;
    struct uts_namespace *uts;    // UTS Namespace(主机名/域名)
    struct ipc_namespace *ipc;    // IPC Namespace(进程间通信)
    struct mnt_namespace *mnt;    // Mount Namespace(文件系统挂载)
    struct pid_namespace *pid;    // PID Namespace(进程ID)
    struct net           *net;    // Network Namespace(网络资源)
    ...                           //time相关
    struct cgroup_namespace *cgroup; // CGroup Namespace(cgroup视图)
};


struct task_struct {
    // ... 其他字段 ...
    struct nsproxy *nsproxy;  // 进程所属的namespace集合
    // ... 其他字段 ...
};

我们以创建一个新的PID Namespace为例,可以调用clone(CLONE_NEWPID | ...)创建新 PID Namespace,然后会将创建的task指向新的nsproxy。

我们来实际操作一下,使用unshare(用于在新的命名空间中来运行程序)来作为例子,可以看到使用这个之后只能看到bash和ps -ef本身,看不到原本的宿主进程了。

# 创建一个"看不见"宿主进程的隔离环境,--mount-proc让容器挂载独立的/proc,使ps只能看到"假"的进程树
sudo unshare --pid --fork --mount-proc /bin/bash
ps -ef
UID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 20:10 pts/3    00:00:00 /bin/bash
root         8     1  0 20:10 pts/3    00:00:00 ps -ef

容器的各种隔离就是通过这种方式来进行实现的,我们的程序需要这个隔离时也可以自己使用这种方法或者函数去进行环境隔离。

2.CGroup

有了Namespace后,容器可以拥有自己的运行环境,但是如果一个容器无限制的去消耗系统资源(CPU,内存等),就可能将整个机器拖垮,所以就需要一种限制手段,也就是CGroup,CGroup(Control Group)是将进程分组并且对每组资源进行监控和限制的一种手段。

CGroup的核心概念有两个:

1)控制组:是一组进程的集合,可以是树状的(子进程继承父进程的限制)。

2)子系统:每个子系统对应一种资源控制,如CPU、内存、IO等。

在linux中,实现CGroup的核心结构是cgroup,其结构主要内容如下,在task_struct中有进程所属的cgroup:

struct cgroup {
    struct cgroup_subsys_state self;
    unsigned long flags;  
    int level;  // 当前cgroup在树中的深度(root=0)
    /* Maximum allowed descent tree depth */
    int max_depth;  // 允许的最大子树深度
    
    ...
    struct kernfs_node *kn;     /* cgroup kernfs entry */
    struct cgroup_file procs_file;  /* handle for "cgroup.procs" */
    struct cgroup_file events_file; /* handle for "cgroup.events" */
 
    ...
    //子系统状态指针
    struct cgroup_subsys_state __rcu *subsys[CGROUP_SUBSYS_COUNT];
    struct cgroup_root *root;
 
    struct list_head cset_links;
  
    struct list_head e_csets[CGROUP_SUBSYS_COUNT];
    
    struct cgroup *dom_cgrp;
    struct cgroup *old_dom_cgrp;        /* used while enabling threaded */
    //CPU统计量
    struct cgroup_rstat_cpu __percpu *rstat_cpu;
    struct list_head rstat_css_list;
    /* cgroup basic resource statistics */
    struct cgroup_base_stat last_bstat;
    struct cgroup_base_stat bstat;
    struct prev_cputime prev_cputime;   /* for printing out cputime */
    struct list_head pidlists;
    struct mutex pidlist_mutex;
    /* used to wait for offlining of csses */
    wait_queue_head_t offline_waitq;
    /* used to schedule release agent */
    struct work_struct release_agent_work;
    /* used to track pressure stalls */
    struct psi_group psi;
    /* used to store eBPF programs */
    struct cgroup_bpf bpf;
    /* If there is block congestion on this cgroup. */
    atomic_t congestion_count;
    /* Used to store internal freezer state */
    struct cgroup_freezer_state freezer;
    // 祖先cgroup的ID数组(快速判断层级关系)
    u64 ancestor_ids[];
};


struct task_struct {
    // ... 其他字段 ...
    struct css_set *cgroups;  // 进程所属的cgroup集合
    // ... 其他字段 ...
};

接下来来看其资源限制的实现逻辑,以CPU限制为例(cpu 子系统通过 cpu.cfs_quota_us 和 cpu.cfs_period_us 控制 CPU 时间片(如 quota=50000、period=100000 表示 50% 使用率)。其整体设置后逻辑如下:

其可以通过如下方式使用限制:

# 创建内存限制组
mkdir /sys/fs/cgroup/memory/mygroup
echo 104857600 > /sys/fs/cgroup/memory/mygroup/memory.limit_in_bytes  # 限制100MB

各类容器(如Docker)中的资源限制也是通过Cgroup来实现的,各类子系统都支持限制,种类较多,不在此列举。

3.总结

Namespace实现了各类,为容器创建独立的运行环境(像网络,进程,文件等),实现了逻辑隔离;CGroup实现了资源控制(CPU、IO等),实现了物理控制,保证系统的稳定和公平。从这个设计也能体会到Linux的分层抽象、按需组合的设计思想。最后用伪代码来启动一个我们自己的容器(主要步骤描述)。

unshare(CLONE_NEWPID | CLONE_NEWNS)  # 创建Namespace
cgroup = Cgroup(cpu_shares=512, memory_limit="1G")  # 创建Cgroup
pivot_root("./alpine-rootfs")  # 切换根文件系统
execv("/bin/bash")  # 启动容器进程




相关推荐

vue:生命周期钩子函数及顺序_列举出5个vue中常用的生命周期钩子函数

一、vue的钩子相关顺序Vue实例有一个完整的生命周期,在newVue()后,会初始化数据,如下://初始化的入口,各种初始化工作initMixin(Vue);//数据绑定的核心方法,包括常用...

最长递增子序列:从经典算法到 Vue3 运行时核心优化

最长递增子序列(LongestIncreasingSubsequence,LIS)正悄然成为性能分水岭。它不仅是面试的高频考点,更是Vue3快速Diff算法赖以实现O(nlogn)...

十分钟掌握Vue 3性能优化:实战技巧与避坑指南

「为什么我的Vue应用越做越卡?」这是最近团队新人最常问的问题。本文将从真实电商项目出发,手把手教你用Vue3的现代特性实现性能飞跃,文末还准备了可复用的优化检查清单!一、先看疗效:优化前后对比优...

JavaScript学习 -- 文本节点_html 文本节点

什么是文本节点在HTML文档中,文本节点是一种特殊的dom节点,它包含文本内容,没有任何标记或属性。<p>这是一段文本节点</p>在上面的代码中,<p>元素包含了...

JavaScript中this指向各种场景_javascript的this指向

在JavaScript中,this的指向是一个核心概念,其值取决于函数的调用方式,而非定义位置(箭头函数除外)。以下是this指向的常见场景及具体说明:1.全局作用域中的this在全局作用域(非...

v-if和v-for的优先级是什么?_v-if和v-for的区别,什么时候用

#一、作用v-if指令用于条件性地渲染一块内容。这块内容只会在指令的表达式返回true值的时候被渲染v-for指令基于一个数组来渲染一个列表。v-for指令需要使用iteminitems...

Vue插槽(Slot)深度解析:从匿名到作用域的组件复用革命

在Vue组件化开发中,内容分发始终是核心挑战之一。当我们需要让组件既能保持结构复用,又能灵活定制局部内容时,插槽(Slot)机制应运而生。从基础的匿名插槽到复杂的作用域插槽,Vue的插槽系统逐步解决了...

手摸手带你解决AI应用开发中Markdown渲染问题

使用Markdown-It+VueRender实现安全可控的Markdown渲染在前端项目中,Markdown的渲染经常使用markdown-it。它功能丰富、插件多,但默认的渲染方...

Vue3 新趋势:10 个最强 X 操作!_vue.3

Vue3为前端开发带来了诸多革新,它不仅提升了性能,还提供了更简洁、更强大的API。以下是十个最值得学习和使用的Vue3API,它们将助力你的开发工作迈向新高度。浅层响应式API:shall...

25个React最佳实践小技巧_reactor设计模式

以下是25个React开发中实用的最佳实践与小技巧,覆盖组件设计、状态管理、性能优化、代码规范、错误处理等核心场景,每个技巧均附示例和核心原因,帮助你写出更高效、可维护的React代码。一...

javascript函数的call、apply和bind的原理及作用详解

javascript函数的call、apply和bind本质是用来实现继承的,专业点说法就是改变函数体内部this的指向,当一个对象没有某个功能时,就可以用这3个来从有相关功能的对象里借用过来...

简单介绍一下前端各框架中的模板标签

在各大前端框架、小程序中,此类标签的作用主要是用来帮助我们包裹多个元素。在浏览器实际渲染中会将其移除只渲染其包裹的DOM元素,所以说不会增加额外的DOM节点在小程序中使用小程序中的模板标签是<...

面试官问我,后端一次性返回十万条数据,前端应该怎么处理 ?

问题描述面试官:后端一次性返回10万条数据给你,你如何处理?我:歪嘴一笑,马上给后端发送一百万次请求,干蹦他的服务器,让他给爷哭!问题考察点性能优化意识(能否识别出“10万条数据”会导致性能问题?是...

React系列十 - 高阶组件以及组件补充

源自:coderwhy一.高阶组件1.1.认识高阶组件什么是高阶组件呢?相信很多同学都听说过,也用过高阶函数,它们非常相似,所以我们可以先来回顾一下什么是高阶函数。高阶函数的维基百科定义:至少...

从0开始写一个虚拟滚动组件_虚拟滚动原理

如果一个页面有1W+条数据,该怎么渲染比较好。不管是在我们的实际项目开发中还是在面试的过程中都会遇到类似的问题。相信很多同学会想到分页。当然这也是最传统也是最保底的解决方案了。如果有开发过electr...