百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

共生与共构:人工智能与历史学结合的新探索

myzbx 2025-02-15 00:15 32 浏览

编者按

近年来人工智能技术飞速发展尤其是ChatGPT、DeepSeek等生成式人工智能技术的兴起,为历史研究和教学带来新的机遇。借助人工智能技术,历史学家们可以便捷地获取数据、释读史料,发现不同文本之间存在的关联。此外,运用人工智能进行历史模拟,也逐渐成为历史教学中积极探索的方向。人工智能为史学研究带来便利的同时,也给历史学家的工作带来不少挑战,如学者们必须注意到生成式人工智能引用的已有数据可能会存在价值偏见,进而影响输出内容的真实性等。人工智能与历史学之间如何共融共生?人工智能时代历史学家应该如何提升技能,积极运用新技术,推进历史知识生产和公共历史实践呢?基于此,本版特刊发专题文章,以期对上述问题作出回答。

作者:向静(中国社科院大学数字史学研究中心副教授)

当前AI(人工智能)正在逐渐改变世界,成为政府决策、医疗干预、金融交易、司法审议、环境保护、科学研究等领域的重要“参与者”。历史学者将要面对的是一个前所未有的与AI共生的时代。不过,到目前为止,大多数学者并不认为AI会从根本上改变历史学,或者历史学会对AI发挥关键性的作用。

这种态度部分源自于人文学者将AI理解为机器能力的进展,从而把接受AI视为纯粹的技术问题。1956年,美国科学家约翰·麦卡锡提出了“Artificial Intelligence(人工智能,简称AI)”这一术语,指代能展示人类智能行为的计算机系统。数十年后,随着计算能力提高、有了可用的大规模数据集,在2010年代中期,出现了基于深度学习技术的算法决策系统与预测性的机器学习,“人工智能”的涵义不断扩展,代表了IT系统(包括机器或软件系统)通过学习和解释庞大的人类记录数据,实现模拟人类认知能力的一系列技术、方法和流程。机器学习的算法和模型走出了学术研究与科学实验,开始应用于商业、医疗、教育以及国家战略等层面。戏剧性的转变发生在2022年底,生成式AI的应用ChatGPT问世,上线两个月,活跃用户达到1亿人,在引起广泛关注的同时,也促进中国开发的诸多大语言模型(LLM)投放市场。2024年底,DeepSeek上线并同步开源的V3模型,以其创新的模型构架和高性价比点燃了民众以中文使用AI的极大热情。通过ChatGPT、DeepSeek、Kimi、豆包这些国内外聊天机器人,AI对于普通人变得触手可及。人们能运用自己熟悉的语言指示机器执行任务,个人的决策、行动随时可以参考、调用算法和模型,机器的回应不仅符合人类表达的逻辑,顺畅自然,还能针对个人的输入进行调整,如同一个适应性强、情绪稳定的同伴,使人感到亲近。在与人类的互动关系上,这是人工智能一次革命性的飞跃,大语言模型不仅是一项在语义空间里应用生成式人工智能的典型技术,还下沉到日常生活,拉近了人类历史与现实之间的互动关系。

虽然到目前为止,人们还无法解释人工智能算法在内部运行的机制细节,但通过其训练过程,可以看到它正在为人类历史与现实的关系提供一种从未有过的数字交互模式。以生成式AI为例,开发者为了让AI理解人类语言的指令,实现人机连贯对话,主要让机器学习大量的文本数据。近两年来,现有的基础大语言模型几乎使用了绝大部分的可用高质量文本数据源,其中公开的、数字化的历史记录、档案、书籍论文虽然数量占比不大,对AI的训练影响却很重要。通过理解这些训练文本背后的结构,AI实现了与人类语言的“对齐”,也表征了这些历史文献与历史认识当中反映出来的偏好、价值观与意识形态。主流的机器学习算法目前都近似于一种优化多数的策略,擅长从历史数据中识别模式与类型,如果用于训练的历史文本和图片里含有明显的偏见、歧视与局限性,数量又多的话,就会被AI当作重要的参数,带入判断当下、影响未来的决策和预测当中,威胁到人类社会的安全、伦理、道德等基本需求。换言之,训练AI的过程,是在使AI历史化,从数据中获得定义过去的方法;运用AI的过程,则极大加速了从认识过去到付诸当下行动的转化,使人类历史与现实活动之间的关系在数字层面上呈现为一种持续相遇、顷刻相通、实时作用的互动形态。从一开始,AI系统的研究与应用,可以说就是赋予AI历史性与社会性的过程。

为了确保这项新信息技术的发明能服务于人类共同的福祉,除了技术开发者外,还需要人文社会科学工作者的深入理解与广泛参与。对历史学者来说,这会是一个与AI共同建构学科、学理与学识的过程。一方面,AI会促成重大的历史变革,它能自行决策、提出想法,将来还会使大量的非人类智能加入对历史的研究当中,它们擅长高速处理多模态的历史资源,通过智能体模拟进行“虚拟历史实验”,可能提出对复杂社会的解释系统,挑战人类学者的主体性,重新界定历史学的存在边界与独特领域。另一方面,历史学者如果能理解并掌握AI,可以增强历史学的技艺,作为领域专家参与审查AI训练的历史数据集,从长期的历史脉络中揭示AI系统的价值内嵌与认识机制,评估AI的预测、决策,并将历史学提供的对过去记忆与事实的选择书写,对人类活动价值与意义的总结反思,通过数据构建与算法改进,贯注作用于AI系统,影响AI的走向。

以古代历史研究为例,可以看到AI与历史学者之间这种正在探索中的共同建构。对于历史研究工作的核心要素与基础工作,AI能发挥积极作用,同时历史学也有力量推动AI从数据与算法两方面改变现状、提升性能。

为了理解古代社会、探究人群生活,历史研究需要的史料搜集与处理技艺非常复杂,比如泥板、纸草、甲骨、金石、写本这些载体的文献修复,古汉语、古希腊文等多种文字的识别与释读,图像、雕塑、考古遗址的辨识、分类等。近年来,学者运用深度神经网络、卷积神经网络等深度学习技术,结合迁移学习等策略,贡献出了前沿成果。中国科学院团队提高了甲骨文字符的自动识别率;谷歌的模型Ithaca,能合理推断古希腊铭文的时间与地理归属范围;浙江大学团队实现了缀合敦煌写本的自动化流程;中国矿业大学团队发布敦煌壁画的MuralDH图像数据集,进行分类、修复。2024年初,机器学习从碳化的意大利赫库兰尼姆卷轴里,识别出了莎草纸符,提供了古希腊哲学的新史料。像这类具有原创性和影响力的工作,都是由包括历史学在内的领域专家与计算机科学家组成的跨学科团队完成,显示出AI对历史研究的来源,尤其是在多模态史料发掘、解析方面的效能。由于目前大多数的AI算法依赖英语等主流语种,偏重近现代的历史训练集,在将AI运用于古代语言的文本、图像与考古对象时,需要明显扩大数据的多样性和包容性,在使AI处理古代历史中非标准化的、异质的、不完整的资料时,也要同时推进算法的批判性创新,这都显示出历史学研究将是助力AI突破结构性限制的重要领域。

研究古代的学者,也可能遇到史料数量庞大或者类型复杂得难以把握,此时找寻到最合适的AI技术,不仅使研究得以展开,还能发现隐藏的事实,提出有解释价值的新问题。在一项针对15至17世纪欧洲史的研究中,学者需要考察359本天文学教科书,其中含有76000页文本、数万幅科学插图与天文表格。德国马普所的研究人员通过机器学习来识别文本间的联系,检测、分类与聚类这些插图和表格,历史学者则从数据中看到了以前不被注意的事实,即欧洲的科学知识传播并不受宗教改革的分裂影响,而是呈现出凝聚与同质化的形态。这一时段对应着中国历史上的明清时期,研究者们同样也面临着史料复杂烦琐、文献汗牛充栋的问题,对于在整理、分析与思考中如何运用AI系统有着迫切的需求。比如对于明清档案文献,中国人民大学团队提出了深度学习、人机协同的智能著录标引流程;对于地方志研究,中国社科院大学团队开发了专有工具,通过调用大语言模型的API端口,批量实现方志数据的多层次、多义性标注,以知识图谱进行可视化呈现与分析。这些尝试都希望能从明确的问题出发,探索以数据建设为核心、以算法呈现历史语境、具有透明性与可解释性的研究工作流程,以一种符合职业与专业的要求,来推进与AI的共构,使研究者把更多的时间和精力解放出来,真正用于历史学的创造性思考、深度解释以及价值反思。

在积极拥抱AI变化的历史学者中,很多人从数字人文、数字史学的兴起之时已经在讨论史学与AI的共生之道。在AI迅速发展、推理思考能力不断迭代的当下,相信还会有更多的历史学家主动了解AI运作的机制,视其为学术助手、影子同行,共同建构一种从思考、写作到交流、教育的史学工作新生态,这将是一场引人注目、面向未来的探索之旅。

(本文系国家社科基金重点项目“清史地理信息系统开发与研究”的阶段性成果)

相关文章:①游戏还是工具——生成式人工智能与历史模拟 ②人工智能在史学研究中并非无往不利

《光明日报》(2025年02月10日 14版)

来源: 光明网-《光明日报》

相关推荐

vue 基础-组件中事件的触发和监听

前言《vue基础》系列是再次回炉vue记的笔记,除了官网那部分知识点外,还会加入自己的一些理解。(里面会有部分和官网相同的文案,有经验的同学择感兴趣的阅读)vue中单纯的事件调用,你一定不陌生...

JMH基准测试和JMH-Visual-chart可视化

原文地址:https://github.com/Sayi/sayi.github.com/issues/68如何度量一段代码的性能,换种实现方式会有更佳的性能表现吗?你或许想知道fastjson是否正...

一文轻松看懂丰田汽车的电路图(丰田车电路图识读技巧)

丰田汽车电路图符号、含义丰田汽车电路图识读说明电路图中字母是注释标号,其各部分的含义如下:注释标号A:表示系统标题,在电路图上方用横线划分,区域内用文字和系统符号表示下方电路系统的名称。注释标号B:表...

杭州高级中学发文言文版校庆公告引热议——全文932字,74处注释

阅读提示校方回应:我们期待以这种‘复古’的方式引起公众注意,也算是为树立起大众的文化自信、唤起大众对传统文化的关注作出一点贡献。5月14日,杭州高级中学官方微信发布了一篇文言文版的校庆公告。几个小...

Python 和 JS 有什么相似?(python和js哪个快)

Python是一门运用很广泛的语言,自动化脚本、爬虫,甚至在深度学习领域也都有Python的身影。作为一名前端开发者,也了解ES6中的很多特性借鉴自Python(比如默认参数、解构赋值、...

阿里卖家 Flutter for Web 工程实践

作者:马坤乐(坤吾)Flutter自2015年初次亮相以来,经过了多年的发展已经相当成熟,在阿里、美团、拼多多等互联网公司都有广泛的应用。在ICBU阿里卖家上90+%的新业务使用Flu...

诗经275思文押韵、注释、古音、今韵

诗经275-1思文押韵(备注:□=非韵、■=i韵、●=o/u韵、◆=ng韵、=i/o二象性)「」1.思文后稷,克配彼天。立我烝民,莫菲尔极。贻我来牟,帝命率育。无此疆尔界,陈常于时夏。□□□■,...

SolidWorks中常用命令快捷键(solidworks有哪些快捷键)

1.A:中心线2.B:镜向3.C:画圆4.D:智能标柱尺寸5.E:删除6.F:草图倒圆角7.G:画直线8.H:从装配制作工程9.I:等距实体10.J:从装配制作装配11.K:多边形12.L:延伸13....

第一章、TS语言简介(tsl语言)

TypeScript(简称TS)是微软公司开发的一种基于JavaScript(简称JS)语言的编程语言。它的目的并不是创造一种全新语言,而是增强JavaScript的功能,使其更适合多人合...

为什么要用JMH?何时应该用?(日本jmh地面分析图网站)

if快还是switch快?HashMap的初始化size要不要指定,指定之后性能可以提高多少?各种序列化方法哪个耗时更短?无论出自何种原因需要进行性能评估,量化指标总是必要的。在大部分场合...

雅虎“YSlow - 23 条规则”详尽阐释

以下乃是雅虎“YSlow-23条规则”的详尽阐释,旨在优化网页之性能以及用户之体验,乃是结合技术之原理与实践之方法梳理而成:1.减少HTTP请求次数说明:每一次HTTP请求皆会增添延迟...

JavaScript 运算符(js ~运算符)

JavaScript运算符JS变量JS算数JavaScript运算符实例向变量赋值,并把它们相加:varx=7;//向x赋值5vary=8;//向y赋值2...

在Notebook中使用Sublime Text 快捷键

编程派微信号:codingpy前几天,我在公众号上发布了两篇译文,对JupyterNotebook做了一些基础性的介绍。虽然说比较基础,而且第二篇阅读量并不高,但是我认为对于其他对于Noteb...

晨光静好时!2 道 JS 与 TS 面试题解析,开启惬意学习日

当第一缕晨光温柔地唤醒窗台的绿植,泡上一杯清香四溢的茉莉花茶,坐在洒满阳光的角落。此刻,放下对面试的焦虑,让我们像聊生活趣事般,轻松拆解两道JavaScript和TypeScript的高频面试...

2024年CSPJ题目解析,语法基本功>算法!

前言:每次有家长来找我们咨询报课,说孩子学了一年了,竞赛成绩不理想,问怎么才能强化,提升,我们经过一番询问,发现这类孩子普遍都是在算法上已经花了非常多的时间了,但是语法根本不过关。对这种孩子我们普遍建...