大语言模型在新闻领域的研究与应用发展

作者: 郭晶晶 高冰 张青青

摘要:文章对大语言模型在新闻领域的研究与应用发展进行了全面综述。首先,阐明了大语言模型的基本概念、技术原理及其基本功能。其次,介绍了国内外大语言模型在新闻领域的典型应用实例,并探讨了指令数据基础及其评估方法。最后,讨论了大语言模型在新闻领域的未来应用前景及其面临的挑战,并提出了相应的应对建议。本综述为该领域的后续工作提供了有价值的参考。

关键词:大语言模型;自然语言处理;Transformer;新闻应用挑战

中图分类号:TP18 文献标识码:A

文章编号:1009-3044(2025)09-0014-04 开放科学(资源服务) 标识码(OSID) :

0 引言

随着人工智能技术的快速发展,新闻机构积极探索新技术的应用,尤其是引入了大语言模型(LargeLanguage Models, LLMs) 作为新的解决方案。大语言模型具有强大的自然语言处理能力,能够在短时间内生成新闻报道,特别适用于突发事件或时效性要求高的新闻。在这些场景中,它可迅速整合网络信息生成初稿,为记者提供初步报道框架,提升新闻发布速度和时效性。

此外,大语言模型可以基于海量数据生成策划大纲和采访提问等创意性内容,为记者开拓思路,提供新的报道视角和切入点,从而创作出更具吸引力和独特性的新闻作品。同时,它还能帮助记者进行文本润色和语法检查等基础编辑工作,并根据不同媒体风格和受众特点生成相应语言风格的新闻文本,使报道更符合特定要求。

另一方面,大语言模型通过运用海量数据为新闻工作者提供有力的数据分析,挖掘新闻趋势和热点,助力选题策划。这使得记者能够快速了解社会关注焦点和舆论动向,确定有价值的报道选题。基于用户的阅读历史、浏览习惯和点击行为等数据,大语言模型还能为每个用户生成个性化的新闻推荐,实现从“人找信息”到“信息找人”的转变,提升用户对新闻的关注度和阅读兴趣,增强用户黏性。此外,它还能实现新闻内容的快速翻译和本地化,打破语言障碍,使新闻在不同语言地区广泛传播,扩大新闻的传播范围和影响力,促进全球信息交流。

尽管大语言模型在新闻领域的自然语言处理任务中表现突出,其应用也面临一系列挑战。因此,有必要深入研究大语言模型在新闻领域面临的问题及其解决方法和路径。

1 LLMs的基本概念和技术原理

大语言模型[1]是指通过大规模语料库训练的深度神经网络模型,其核心在于利用海量数据学习自然语言的规律和特征,从而实现对文本的深度理解与生成。大语言模型的核心技术和原理可以归纳如下。

1.1 架构基础

大语言模型通常基于Transformer架构[2],这是一种由Vaswani 等人在2017年提出的神经网络架构。其核心在于自注意力机制(Self-Attention) ,该机制使模型在处理序列数据时能够关注输入序列中的不同部分,从而有效捕捉长距离依赖关系。Transformer架构因其并行处理能力和优秀的性能,成为大语言模型的主流选择。

1.2 核心组件

1) 自注意力机制[3]:在处理每个词时,模型会考虑输入序列中的所有其他词,并根据它们之间的相关性分配不同的注意力权重。2) 多头注意力(Multi-HeadAttention) [4]:将注意力机制分解成多个独立的注意力头,每个头关注不同的信息方面,从而增强模型的并行处理能力和对复杂特征的捕捉能力。3) 前馈神经网络(Feed Forward Network) [4]:对每个位置的输出进行非线性变换,进一步提升模型的表达能力。4) 层归一化(Layer Normalization) [5]:加速训练过程并提高模型性能。5) 残差连接(Residual Connections) [6]:绕过潜在的梯度消失问题,使模型能够训练更深的网络结构。

1.3 训练过程

1) 预训练(Pre-training) :在大量未标记文本上进行无监督训练,学习通用的语言表示。这一步骤使模型能够掌握单词的含义、语法规则以及语言的使用方式[2]。2) 微调(Fine-tuning) :在特定任务或领域的小规模标注数据集上进一步训练模型,以适应具体任务需求。这有助于模型在特定场景下表现更优[2]。

1.4 高效训练技术

1) 混合精度训练(Mixed Precision Training) [7]:使用较低精度的数据类型(如FP16) 来加速训练,同时保持足够的精度。2) 激活重计算(Activation Recomputa⁃tion) [8]:在反向传播过程中重新计算激活值,以节省内存。3) Flash Attention[9] 和 Paged Attention[10]:高效处理长序列的注意力计算,减少计算资源消耗。4) 并行训练技术[11]:包括数据并行(Data Parallelism) 、张量模型并行(Tensor Model Parallelism) 、流水线并行(PipelineParallelism) 和3D并行(3D Parallelism) ,这些技术能够加速大模型的训练过程。

1.5 参数优化与调整

1) Prompt Tuning[12]:通过调整输入提示(prompt) 来引导模型生成特定的输出,而无需修改模型参数。2)Prefix Tuning[13]:仅微调模型输入的前缀部分,而非整个模型。3) Adapter 和 LLaMA-Adapter[14]:在模型的每一层添加轻量级的适配器模块,仅对这些模块进行微调。4) LoRA(Low-Rank Adaptation) [15]:通过低秩矩阵来更新模型权重,实现参数的高效微调。

1.6 应用与扩展

大语言模型的应用极为广泛,包括文本生成、文本分类、情感分析、问答系统和机器翻译等。此外,它们还支持聊天机器人、虚拟助手和推荐系统等多种自然语言处理(NLP) [16]应用。

2 LLMs在新闻领域的研究和应用

目前,大语言模型在新闻领域的研究与应用正蓬勃发展。国内外涌现出具有代表性且表现出色的新闻领域大语言模型。以下将具体阐述这些典型模型的研究成果及其特点。

2.1 美联社与OpenAI的合作

美联社与OpenAI签订了一项为期两年的协议,双方将共享部分新闻内容和技术,美联社借助Chat⁃GPT 提升生产效率[17]。通过利用ChatGPT 的生成能力,美联社显著提高了新闻生产的效率和质量,实现了双方的优势互补。

2.2 人民网-百度·文心大模型

人民网与百度合作推出了人民网-百度·文心大模型[18],基于双方在预训练大模型技术和传媒领域的丰富经验。该模型引入了人民网舆情数据中心的相关样本数据,为媒体的智能化提供了有力支持。针对媒体行业的特定需求,进行了定制开发,提升了模型在新闻领域的适用性并增强了其在舆情分析方面的能力。

2.3 央视听媒体大模型

中央广播电视总台与上海AI实验室联合发布的“央视听媒体大模型”[19],能够根据视频内容一键生成多种风格的解说词,并支持用户通过聊天对话的形式深挖视频蕴含的信息。该模型具备强大的视频内容理解能力,能自动生成解说词,提升视频内容的传播效果,并通过交互式对话,帮助用户获取更多视频信息。

2.4 Scube智媒魔方

上海广播电视台生成式人工智能媒体融合创新工作室推出的AI能力产品——Scube智媒魔方[20],专注于打造媒体领域的人工智能生成内容(Artificial Intelli⁃gence Generated Content, AIGC) 能力。在2024年全国两会报道中,Scube智媒魔方辅助上海台在多个重要现场进行直播报道。其功能包括实时语音识别、智能横屏转竖屏、自动写稿、全语种智能翻译及视频片段智能拆条等,提供全面的新闻报道服务。据统计,该系统共参与了14场两会直播,累计时长达到19小时,自动化生产了149个AI内容包,包括视频、标题、关键词和内容摘要等,每条内容包的生成时间仅需5分钟。

3 新闻大语言模型的指令数据基础及评估

在新闻领域,大语言模型的指令数据基础及评估是确保模型能够准确理解和生成新闻内容的关键环节。以下将详细探讨这两个方面。

3.1 LLMs在新闻领域的指令数据基础

指令数据是指导大规模语言模型进行学习和预测的基础,对于新闻领域的大语言模型而言,这些数据通常包括新闻文章、标题、摘要、关键词等,以及与之相关的分类、情感倾向、实体识别等标签信息。指令数据的丰富性和准确性直接影响到模型对新闻内容的理解和生成能力。

3.1.1 指令数据的定义与重要性

指令数据是指导大规模语言模型进行学习和预测的基础数据。在新闻领域,这些数据通常包括新闻文章、标题、摘要、关键词等,以及分类、情感倾向、实体识别等标签信息。指令数据的丰富性和准确性直接影响模型对新闻内容的理解和生成能力,是大语言模型成功应用的关键。

3.1.2 指令数据的构建构建

指令数据通常包括以下步骤:1) 数据收集:从各种新闻源(如新闻网站、社交媒体、新闻客户端等) 收集大量的新闻文章和相关信息。2) 数据预处理:对收集到的数据进行清洗、去重、分词、标注等处理,确保数据的质量和一致性。3) 数据标注:为新闻文章添加分类、情感倾向、实体识别等标签,形成标注数据集。这些标签将作为模型学习的指导信号。4) 数据分割:将标注数据集划分为训练集、验证集和测试集,分别用于模型的训练、验证和评估。

3.1.3 指令数据的特性

指令数据具备以下特性:1) 多样性:新闻内容涵盖政治、经济、文化、科技等多个领域,指令数据需要具有广泛的领域覆盖性。2) 时效性:新闻内容具有时效性,指令数据需要不断更新以反映最新的新闻动态。3) 准确性:指令数据的准确性对于模型的学习效果至关重要,需要确保数据的真实性和可靠性。

3.2 LLMs 在新闻领域的评估

评估新闻领域的大语言模型通常涉及多个指标和方法,并且有自己的流程,以确保模型的生成和预测能力符合实际需求。

3.2.1 评估指标

新闻领域大语言模型的评估通常涵盖以下几个指标:1) 准确性:衡量模型生成或预测的新闻内容与实际新闻内容的匹配程度。2) 流畅性:评估模型生成新闻内容的语言流畅度和自然度。3) 多样性:考察模型生成新闻内容的多样性和创新性。4) 时效性:评估模型对新闻事件反应的及时性和准确性。

3.2.2 评估方法

1) 自动评估:利用自然语言处理技术和自动化工具对模型生成的新闻内容进行评估,如计算 BLEU 分数、ROUGE 分数等。

2) 人工评估:邀请专业人士对模型生成的新闻内容进行主观评价,从语言质量、内容准确性、时效性等多个维度进行打分。

3) 基准测试:将模型与业界公认的基准模型进行比较,评估模型在特定任务上的表现。

3.2.3 评估流程

评估流程通常包括以下阶段:1) 准备阶段:确定评估指标、评估方法和评估数据集。2) 实施阶段:按照评估方法对模型进行评估,收集评估结果。3) 分析阶段:对评估结果进行分析和解读,识别模型的优点和不足。4) 反馈阶段:根据评估结果对模型进行调优和改进,提高模型的性能。

4 LLMs 在新闻领域发展趋势和挑战

大语言模型在新闻领域的应用随着技术的不断进步呈现出多样化的发展趋势,同时也面临诸多挑战。以下将详细探讨其发展趋势和存在的问题。

4.1 LLMs 在新闻领域发展趋势

随着技术的不断进步,大语言模型将在新闻领域展现出以下发展优势:1) 模型规模持续增长:大语言模型的规模将继续扩大,以提高语言理解和生成能力。2) 多模态融合:与图像、视频等多模态信息的融合将成为重要的发展方向,为用户提供更丰富的新闻体验。3) 技术创新:不断涌现的技术创新,如优化算法、并行计算技术等,将进一步提升大语言模型的性能和效率。4) 跨模态大模型深入发展:能够处理和生成多种模态信息的跨模态大模型将逐渐成为研究热点,为人工智能应用带来更多可能性。5) 产业化和商业化加速:随着技术的不断成熟,大语言模型将在更多领域得到应用,产业化和商业化进程将不断加速。6) 更加注重隐私和安全:在数据保护法律法规日益严格的背景下,大语言模型的隐私和安全问题将受到更多关注,相关技术和措施将不断完善。7) 可解释性和透明度提高:为了增强用户对大语言模型的信任,模型的可解释性和透明度将不断提高,使用户能够更好地理解模型的决策过程。

经典小说推荐

杂志订阅