互联网资讯 / 人工智能 · 2023年11月3日 0

AI评估自媒体文章质量的方法

在自媒体蓬勃发展的今天,众多公众号都在思考如何提升文章的曝光率。然而,文章的内在质量才是吸引读者的关键。本文将探讨腾讯微信数据质量团队提出的自媒体文章质量自动评估算法,揭示出理想文章的特征。

随着移动阅读的普及,许多用户生成内容模式的自媒体平台相继出现,任何用户都有机会成为内容创作者。这种开放性虽然丰富了内容,但也导致了自媒体文章质量的良莠不齐。因此,自动评估自媒体文章的质量对于推荐、搜索和广告等领域具有重要意义,但目前对此的研究仍非常有限。

与传统格式规范的文章(例如学术论文和维基百科条目)不同,自媒体文章通常由用户自由创作,缺乏统一的格式和写作规范,且涵盖文本、图像和视频等多种形式,内容丰富且风格多样。同时,评估过程中需要充分考虑读者的阅读体验。文章质量受到内容、排版、写作风格等多方面因素的影响,这使得自媒体文章质量的自动评估变得更加复杂和具有挑战性。

为应对这些挑战,腾讯微信数据质量团队在ACM MM2020中建立了一个统一框架,有效整合了在线文章质量评估的不同因素。他们结合排版、写作风格和深度语义,构建了名为CoQAN的联合模型,并设计了多种表示学习子网络,特别关注交互特征学习和移动设备上的阅读习惯,与人类对文章质量的评价方式更加贴合。此外,研究团队还建立了一个大规模的真实世界评估数据集,实验结果显示,该模型能够有效整合在线文章质量评估的各类因素。

AI评估自媒体文章质量的方法

在自媒体平台的背景下,作者合理地将在线文章质量定义为用户的阅读体验水平,具体体现在文章的可读性、信息内容和写作规范等方面。

高质量的文章通常具备整齐美观的排版,清晰的段落划分,以及合理的图文布局,内容连贯且逻辑清晰,信息量丰富。相反,低质量文章的排版混乱,逻辑不清,内容可能不完整或毫无意义,甚至可能仅仅是堆砌的文本或杂乱的图片和视频。

图1展示了两篇报道同一新闻的微信公众号文章,我们可以很容易地区分它们的质量:右侧的低质量文章包含不相关的广告图片,文本格式混乱,给读者带来视觉负担,且表达上使用了口语化和情感化的词汇;而左侧的高质量文章则逻辑清晰、表达得体,信息丰富。

AI评估自媒体文章质量的方法

图1:高质量文章(左)与低质量文章(右)示例

人类在阅读自媒体文章时的认知过程通常是由浅入深的。

当读者打开文章时,首先感受到的是排版的外观,这是读者的初步认知。精美的视觉布局和丰富的表现形式可以吸引读者的兴趣,从而提升阅读体验。

接着,读者会通过浏览词汇、句法、文章结构和图片来获取内容的主要印象,这是较为表层的认知。

最后,读者需要深入理解文本的语义和写作逻辑,以领悟文章的深层意义和价值,这属于深层认知。

基于上述认知过程,本文建议结合布局、写作特征和文本语义,通过交互特征表示学习整合到统一框架中,以评估自媒体在线文章的质量。不同于传统的文档质量评估主要关注文本要素,本文的方法将图片视为布局建模的重要元素,并提取关键的视觉特征,以反映文章的可读性和视觉效果。

该研究的主要贡献包括:

这是针对自媒体在线文章质量自动评估的首个研究项目。提出的方法能够有效模拟人类专家在评分时考虑的要素和阅读习惯。

作者设计了一个结合不同特征空间的联合认知表示学习模型,并构建了自媒体在线文章质量评估的端到端框架。

作者还构建了一个大规模的现实世界数据集,充分的实验结果显示,所提出的模型明显优于传统的文档质量评估方法。

具体方法方面

本文将自媒体在线文章质量评估视为分类任务,即根据给定文章预测其质量为高或低。

图2展示了本文提出的自媒体在线文章质量评估的CoQAN网络架构,设计了三个子网络以解耦布局、写作特征和文本语义的建模。

在布局建模中,研究人员考虑了用户在移动设备上阅读自媒体文章时的上下滑动浏览习惯,将文章划分为内容块序列,显式学习标题、段落、图片等元素的排版布局,同时捕捉整体页面和局部排版模式。

写作特征子网络则关注多模态元素特征,通过深层特征交互关系学习进行特征选择和融合,实现高阶非线性的特征整合。

文本语义子网络深入捕获篇章级长文本内容中的语义和内聚关系,学习词间和句间的依赖,以及文章整体的写作逻辑。在融合层,所有子网络经过全连接层调整输出向量中的权重,最终预测文章的质量类别。

AI评估自媒体文章质量的方法

图2:本文提出的自媒体在线文章质量评估的CoQAN网络架构

布局组织子网络

为显式学习外观布局,作者将文章划分为序列内容块,这些内容块可以是标题、段落、图片或视频。

随后,提取每个内容块的页面布局相关特征,包括类型(文本/图片/视频)、在文章的位置、内容块高度、离页面顶部的距离等。将这些特征聚合成排版特征向量,表达多个重要布局特征。

AI评估自媒体文章质量的方法

图3:布局组织子网络中内容块提取和输入特征向量的构建

在内容块排版特征向量序列上应用GRU网络,以建模内容块之间的序列依赖,捕捉文章的全局排列模式。同时,在输入排版向量上应用一维卷积神经网络,学习关键的局部布局,通过设置不同尺寸的卷积核捕获不同比例的布局模式,最终两个网络级联生成该子网络的输出向量。

写作特征子网络

写作特征子网络旨在捕获在线文章的编辑风格。作者提取了标题、正文、图片、视频和篇章组织等多个特征。

为实现不同类别特征和数值特征之间的交互,写作特征子网络首先通过嵌入层将所有特征投影到同一特征空间,以便在嵌入空间中对高阶组合特征建模。本文采用多头自注意力层,同时在多个特征子空间学习相互依赖关系,并进行特征空间融合。多头机制使得某个特征域可以包含在不同组合特征中。

网络中添加了残差连接,以保留之前学习的低阶组合特征,包括原始单特征。通过堆叠多层多头自注意力层,能够同时建模多阶组合特征,实现不同空间的深度特征融合。

文本语义子网络

作者改进了BERT,设计了Hi-BERT作为文本语义子网络。BERT凭借其强大的预训练技术,在建模上下文关系方面表现优异。由于BERT的自注意力机制时间复杂度为O(n^2),目前仅适用于句子级文本,不适合处理文档级长文本。考虑到文档的层次结构,作者将BERT改进为层次结构的Hi-BERT,包含两个层级的编码器,分别对句子和文档进行编码。

由于标题是文章的高层概述,将其作为输入句子。在句子级别,网络以迁移学习的方式使用预训练的BERT;在文档级别,作者采用文档级双向Transformer层学习句子之间的深层依赖关系,生成最终的文章语义向量。Hi-BERT能够深入学习单词和句子之间的交互关系,并在面对不同写作风格时,获得稳健的文章语义表示。

实验结果

由于目前尚无公开数据集可用于自媒体在线文章质量评估,作者从微信公众号平台收集并处理在线文章数据,构建了一个自媒体在线文章质量分类数据集,包含38,248篇文章,覆盖44种类别,包括新闻、金融、技术和民生等领域。实验在该数据集上进行评估。

对比实验结果显示,所提出的CoQAN方法在各项指标上均显著优于其他模型。实验中,基线模型与本文所提模型使用相同特征,模型的优越性能得益于联合网络表示学习架构的完整性,能够学习到更多有价值的信息。

AI评估自媒体文章质量的方法

消融实验结果验证了各子网络架构及联合学习的有效性。去除文本语义子网络会导致性能显著下降,说明建模复杂的写作知识至关重要。此外,文本语义子网络的表现优于仅基于文本输入的所有基线模型,而写作特征子网络的表现也超过了所有基于特征的基线模型,文章布局的建模有效提升了质量评估性能。从实验结果来看,任何两个子网络联合后的表现都优于单一子网络,而联合三个子网络的CoQAN则是最佳选择,证明了每个子网络在自媒体在线文章质量评估中的重要性。