百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

玩转Markdown(2)——抽象语法树的提取与操纵

myzbx 2025-03-28 19:09 29 浏览

上一篇 玩转Markdown —— 数据的分离存储与组件的原生渲染 发布,转眼已经鸽了大半年了。最近在操纵 mdast 生成 md 文件的时候,心血来潮,把 玩转Markdown(2) 给补上了。

这一篇我们一起来聊聊 markdown 的抽象语法树(Abstract Syntax Tree): 以下简称 mdast

AST 不是银弹

这是必须先声明的一点。

若你的需求,仅仅是写一篇 md 文档,那么你仅仅只需要一个好用的 md 编辑器 (个人推荐 vscode with markdown plugin)。

若你的需求稍微复杂一点,比如涉及到数据映射来自动生成 md 文档,那么 一门编程语言 + 字符串操作 + 文件数据流 就适合你。

但是,假如你的需求更进一步,说要把 md 文件转换成 htmlvuereact 组件,又或者说你要扩展 md 的语法,用 md 内嵌 silde 做成 ppt 。或者说你要把jsx 嵌入 md ,成为一种全新的文件格式 (mdx)。 那么此时解析操纵 mdast 就显得相对合适了,虽说 mdast 也能解决上面 2 个问题,但是把简单的问题复杂化,不符合我们写代码的本意,你说是不?

普遍的 AST

我们经常拆解各种语言,比如用 acorn babel 解析 js,ts, 用 postcss 转换 cssscssless

同样 html 也能变成 hastmarkdown 也能解析成 mdast ,更不用说 /.+.(?:(?:(?:wx|ax|jx|ks|tt|q)ml)|swan)$/ 这类的变体了。

如果你写过 webpackrolluppostcss 插件,一定对此不陌生。

它们通过各种形式,运行在我们的应用中,只是它们往往被封装了起来,我们感受不到它们的存在罢了。

Markdown AST

在看这段时,希望你对 markdown 语法了然于胸。

提到 mdast 就不得不提到 unifiedjs 和它的 rehype , retext , remark。它是一个语法树的统一解决方案,本篇文章不介绍它的用法。

让我们来看 syntax-tree 中关于 mdast 的定义。

它把 Nodes(节点) 大概分成了这些:

这些节点,就是对经典的 markdown 语法的一层抽象,相比 js 来说,markdown语法和 ast 真的是太简单了。

构建

有了上列的基础,接下来我们自己来构建一棵 mdast

yarn add @types/mdast mdast-util-to-markdown
import type {
  Root,
  Paragraph,
  Heading,
  ThematicBreak,
  Blockquote,
  List,
  ListItem,
  HTML,
  Code,
  Definition,
  Text,
  Emphasis,
  Strong,
  InlineCode,
  Break,
  Link,
  Image,
  LinkReference,
  ImageReference
} from 'mdast'

// 存放你的内容
const children : Content[] = [] 
const astTree: Root = {
  type: 'root',
  children
}

这样 mdast 就构建成功了。

转化

import { toMarkdown } from 'mdast-util-to-markdown'
// 生成 markdwon 字符串
toMarkdown(astTree)

这样从 mdast 就转化到了 markdown 了,实在是非常简单。

解析

import { fromMarkdown } from 'mdast-util-from-markdown'
const doc = fs.readFileSync('example.md')
const astTree = fromMarkdown(doc)

添加目录TOC

import { toc } from 'mdast-util-toc'
const tocResult = toc(tree, {
  tight: true
})
if (tocResult.map) {
  // 把目录添加到第一个节点后
  tree.children.splice(1, 0, tocResult.map)
}

更多操作

mdast-util-* 还有很多工具包,同时 remark,unified,mdx,vfile,Syntax tree 生态也欣欣向荣,我们完全可以自由的组合它们,达成我们想要的目的。

实战自动生成

写一个包,自动拉取 Github 项目,生成带目录和语言分类的 README.md 文件。

能同时发布在 Github Actionnpm 上,同时要对代码进行 tree-shaking, 避免 @actions/core , @actions/github 发布到 npm , @octokit/* 发布到 Github Action

Github marketplace: 地址

npm: 地址

源码见: github-repository-distributor

相关推荐

怎么恢复7z文件 7z文件删除了怎么恢复

7z是一种压缩格式的文件,它运用LZMA压缩算法,该压缩算法的输出稍后被算数编码进行处理以便后续进一步压缩,压缩比十分高。我们可以将文件压缩成这种格式,便于传输,保存,占空间少。了解更多7z文件知识...

郎酒让消费者喝得明明白白 算术题里有答案

日前,『郎酒酱香产品企业内控准则』颁布,郎酒首次公开酱香产品生产全过程,公布酱香产品产能、储能及投放计划。随后,郎酒官微向消费者发出「品控算术题」有奖问答。郎酒亮出家底,消费者踊跃留言。8天后,谜底揭...

学龄前,比识字、算术更重要的是这三件事

“为了给孩子选择一家合适的幼儿园,我曾穿梭于纽约各家幼儿园的开放日,这些幼儿员既包括主流的公立幼儿园,还包括那些遥不可及的私人幼儿园。我的目的就是想了解他们的教育理念是什么,到底厉害在哪里,看看对于我...

参加CSP-J信奥赛需要掌握数学知识

在C++语法的学习中需要储备的数学知识如下①数据类型:需要知道整数、正整数、负整数、小数、判断对错②算术运算符:加法、减法、乘法、除法、取模运算③关系表达式:大于、大于等于、小于、小...

1g米饭能做多少深蹲?今天我们来算一算

减重我们都知道3分在练,7分在吃,吃这件事情上,真的是每一口都算数。今天我们来算一笔账,1粒米饭可以做多少事情?本着认真负责的态度,今天在食物秤上称了1g米饭,是16粒。根据能量换算:100g米饭是4...

web 自动化测试,一定得掌握的 8 个核心知识点

使用cypress进行端对端测试,和其他的一些框架有一个显著不同的地方,它使用JavaScript作为编程语言。传统主流的selenium框架是支持多语言的,大多数QA会的pytho...

大话C语言:赋值运算符(c语言中赋值运算符是什么)

赋值运算符是最基本的运算符之一,用于将右侧的值或表达式的计算结果赋给左侧的变量。它是一个二元运算符,意味着它需要两个操作数:一个是目标变量(左侧),另一个是要赋给该变量的值或表达式(右侧)。赋值运算符...

Vue进阶(幺幺伍):js 将字符串转换为boolean

Boolean();参数为0、null和无参数返回false,有参数返回true。Boolean("");//输出为:falseBoolean(null);//输出为...

mongodb查询的语法(大于,小于,大于或等于,小于或等于等等)

1).大于,小于,大于或等于,小于或等于$gt:大于$lt:小于$gte:大于或等于$lte:小于或等于例子:db.collection.find({"field":{$gt:valu...

Python学不会来打我(21)python表达式知识点汇总

在Python中,表达式是由变量、运算符、函数调用等组合而成的语句,用于产生值或执行特定操作。以下是对Python中常见表达式的详细讲解:1.1算术表达式涉及数学运算的表达式。例如:a=5b...

C|数据存储地址与字节偏移、数据索引

话说C是面向内存的编程语言。数据要能存得进去,取得出来,且要考虑效率。不管是顺序存储还是链式存储,其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表示位置偏移,异质结构的结构体通过其...

下班后累懵?4 个 JS 手写题帮你搞定前端面试高频考点

打工人下班后最痛苦的事,莫过于拖着疲惫的身子还要啃前端面试题吧?看着那些密密麻麻的JS代码,脑子都快转不动了!别担心,今天咱就用轻松的方式,带你吃透4道高频手写题,让你在面试时自信满满,再也不...

嵌入式数据库sqlite3【进阶篇】-子句和函数的使用,小白一文入门

sqlite在《嵌入式数据库sqlite3命令操作基础篇-增删改查,小白一文入门》一文中讲解了如何实现sqlite3的基本操作增删改查,本文介绍一些其他复杂一点的操作。比如where、orderby...

前缀表达式与后缀表达式(前缀表达式后缀表达式中缀表达式计算)

昨天晚上和儿子一起学习了前缀表达式和后缀表达式。这应该是字符串算式如何被计算机识别并计算的2种方法。本来是想先给他讲一个逆波兰式(后缀表达式),以后再讲前缀表达式。没想到他还挺聪明,很快就把2个都掌握...

Python快速入门教程1:基本语法、数据类型、运算符、数字字符串

Python3的基础教程,涵盖了基本语法、数据类型、类型转换、解释器、注释、运算符、数字和字符串等内容,并附有使用实例场景。Python3的基础教程,涵盖了基本语法、数据类型、类型转换、解释器、注释、...