关于“假”新闻(明显是捏造的新闻文章)的病毒式传播,一个令人困惑的问题是,为什么人们相信并传播它们。为什么不清楚哪些是事实,哪些不是?

“当某件事不真实时,没有语言上的标记或真实性测试闪现在我们眼前。”

事实证明,这种区分相当困难,因为事实并不是通过特殊的语言来传达的。当某件事不真实时,没有语言上的标记或真实性测试闪现在我们眼前。事实的语言和谬误的语言来自同样的字典和语法。然而,可能存在文体和体裁上的差异——这些微妙的线索可以指出作者的意图和他们对新闻语言的熟悉程度。

借鉴语言学体裁和风格的见解,运用语料库和计算语言学的方法,的同事们我正在学习假新闻和错误信息的语言。我们发现,尽管假的和基于事实的新闻故事很容易被混淆,但大规模的文本分析指出了有趣的差异。其中一些差异与现代新闻报道的非正式和会话风格有关,这可能是它们真实性的一个线索。

新闻的真实性

“大多数主流报纸意见版块的扩大也意味着,读者在阅读报纸时,无论是在纸质报纸上还是在网上,都会遇到意见和硬消息混在一起的情况。”

新闻文章的类型从深度调查新闻到listicles都有。主流新闻媒体中“标题党”(clickbait)、幽默文章和吹捧文章的增多,使得人们更难区分严肃的新闻和企图炒作的新闻虚假信息和错误的信息.大多数主流报纸意见版块的扩大也意味着,读者在阅读报纸时,无论是在纸面上还是在网上,都会遇到意见和硬消息混杂在一起的情况。这是信息化过程的一部分,即新闻话语向会话式风格的转变,以及在新闻报道中包含大量评价的过程。1牛津大学出版社,2017更多信息→会话性和口语性话语的一个最重要的特点是它更复杂,2剑桥大学出版社,1988更多信息→也就是说,它更突出了作者的观点和观点。

在这种背景下,读者很难从报道者的角度区分报道的事实和事件也就不足为奇了。这是新闻写作向更加复杂和非正式风格转变的自然结果。自然,在这种转变中有许多梯度。传统的“高质量”的大报在这种非正式风格上的投入远远少于小报、地方新闻媒体和一些在线出版物。

错误信息的语言

考虑下面的例子,这是一篇新闻文章的开头被Snopes贴上了假的标签和一部分数据集我们收集了。语言本身没有任何东西表明这不是基于事实的。Snopes利用外部信息来确定这篇文章是假的,包括文章来源的网站和文章附带的照片,这张照片是在另一篇关于一名男子被鳄鱼攻击而失去一只手臂的新闻文章中发现的。

昨天,一名环保人士在印度洋差点丧命,因为他试图拥抱的大白鲨突然袭击了他,并咬掉了他的手臂。
21岁的达雷尔·沃特福德来自俄勒冈州尤金市,当时他正在参加绿色和平组织的宣传视频,距离澳大利亚城市珀斯约100海里。

导语遵循典型的新闻结构,用描述符(一个环保主义者),然后在文章的第一段写上姓名和进一步的细节。其余的语言与更正式的报纸语言一致。它包括姓名、年龄和原产地等详细描述。同时,它也包括非正式语言(大约100海里),这在人们感兴趣的故事中很常见。

在假新闻谱系的另一端,我们发现一些文章在第一次阅读时看起来更可疑。考虑下一个例子:

洛丽塔·林奇:“联邦旗帜纹身必须立即去除。”
总的来说,历史上充满了各种各样的人工制品,它们既可以代表人类的好迹象,也可以代表人类的坏迹象。美国国旗是善的象征,因为它表明了殖民地的联合和美利坚合众国的开始。然而,也有艰难时期的象征,比如纳粹旗帜。无论他们站在哪一边,他们都代表着某种历史意义。

标题中的大写字母是不常见的,第一句话也不常见。这里的结构是:论文(人工制品可以是好的,也可以是坏的),证据(好的:美国国旗;坏:纳粹旗帜),那么结论。这是一种常见的辩论风格,是辩论的特点。然而,它通常不会出现在新闻文章中,尽管它可能出现在评论文章中。此外,布局然而在句首不加逗号,表示作者不完全熟悉标准文体约定,也表示文章没有经过编辑的审核。

虽然第二个例子中的缺陷是微妙的,但对于任何一个经常消费主流新闻媒体的精明读者来说,它们应该是一个教训。正是这种语言和文体分析,才能给我们一些关于假新闻的线索。虽然它对遵循体裁惯例的文章没有帮助,比如第一个例子,但它将筛选虚假内容领域。

对抗错误信息:多条路径

目前打击假新闻问题的趋势主要有三种方法:教育公众、进行人工检查或执行自动分类。教育公众包括鼓励读者检查故事的来源,分析它的传播(谁分享了它,分享了多少次),或者通过事实核查网站运行它。这当然是必要的,但这是不够的,而且会给个人带来沉重的负担。

“我们的实验室正在研究基于语言特征的文本分类方法,以补充依赖于故事来源或传播网络的方法。”

在发布之前或之后进行有组织的手动检查是可能的,但这也不是一个现实的解决方案,因为我们现在知道错误信息传播迅速和广泛。3.Soroush Vosoughi, Deb Roy和Sinan Aral, "网上真实和虚假新闻的传播”,科学359年,没有。6380(2018): 1146 - 1151。计算语言和机器学习方法执行自动分类,并有助于补充事实核查网站的努力,如Snopes网站Politifact,或公共编辑器.(请注意,一个奇怪的转折是Snopes网站承认抄袭网站上的一些故事。)我们的实验室正在研究基于语言特征的文本分类方法,以补充依赖于故事来源或其传播网络的方法。

基于文本分类的假新闻检测

文本分类方法依靠自然语言处理来区分不同类型的文本。文本分类已成功应用于垃圾邮件检测、情感分析、社交媒体监控和作者归属。它通常使用监督机器学习-人工智能的一种形式-对大型标记数据集学习数据的特征。例如,垃圾邮件检测系统首先接收大量已经标记为“垃圾邮件”和“非垃圾邮件”的电子邮件,然后应用算法来学习如何对新邮件进行分类。

这一描述中的两个关键问题是“大”和“有标签”。现代机器学习模型,尤其是那些采用深度学习方法的模型,对数据的需求尤其大。他们需要非常大的数据集来提取与某个类相关的特征(垃圾邮件vs.非垃圾邮件)。这些数据集需要被准确地标记;我们需要人工输入才能知道什么是垃圾邮件。

对大量标注数据的需求一直是假新闻研究的一个绊脚石。当我们第一次开始这个项目时,我们认为数据收集不会是一个问题。毕竟,我们被反复告知,假新闻和错误信息在网上自由、广泛传播。

“我们需要更多数据,我们知道其中很大一部分取决于社交媒体平台和大型科技公司。”

现实情况却大不相同。尽管研究人员多年来一直在汇编数据集,但对于判断一篇新闻文章是否包含错误信息这一简单问题来说,这些数据集都不够大,也不够准确。我们从事实核查机构收集新闻文章,但这个过程很痛苦,不完全准确,结果形成了大约3000篇文章的中型数据集。4Fatemeh Torabi Asr和Maite Taboada "假新闻和假信息检测的大数据和质量数据”,大数据与社会6,不。1(2019)。我们需要更多的数据,而我们知道,其中很大一部分取决于社交媒体平台和大型科技公司。与此同时,即使拥有中等规模的数据集,我们在根据文体特征区分假新闻方面也取得了可观的进展。我们发现假新闻文章往往比基于事实的新闻更短。它们往往包含更多的副词、更多的负面词汇,以及更多与性、死亡和焦虑相关的词汇。它们显示了不同的代词使用模式,with他们更常用的(可能是由于“不相,而基于事实的新闻使用第一人称代词的频率更高.令人惊讶的是,基于事实的文章有更多的标点符号和撇号,也许是因为它们是以非正式的风格写的(使用而不是).这些模式可能有助于更好地识别假新闻的风格。

机器学习最近遇到了一个图像问题。我们已经了解到,根据自然发生的数据训练的模型会遭受与产生它们的社会相同的偏见。5纽约:企鹅兰登书屋,2017年更多信息→除了无意识的,现有的社会偏见,许多机器学习模型有一个故意的人类偏见的动机增加参与的愿望.为了得到准确的结果而计算大型模型所带来的环境后果也引起了人们的严重关注。6艾米丽·m·本德等人,"随机鹦鹉的危险性:语言模型会不会太大?事实' 21:2021年ACM公平、问责和透明度会议论文集2021年3月,610-623。

然而,机器学习在打击错误信息方面显示出了希望。但首先,我们需要更多的数据来解决由大量虚假数据引起的问题。社交媒体公司可以做得更多与研究人员秘密分享数据

的下一个前沿

更多的数据将解决假新闻检测中文本分类的一些问题。文本分类可以帮助过滤掉一些最恶劣的假新闻案例,就像它有助于检测电子邮件中粗糙的垃圾邮件案例,或在线上明显的辱骂性信息案例一样。但如果假新闻作者变得更老练,就像一些垃圾邮件发送者那样,又该怎么办?那么我们仍然面临着真实性的问题。

温迪春已经指出,在我们的新闻报道中,我们期待的是真实性,而不是真实性。当错误信息和虚假信息的作者学会了听起来真实,那么我们在与错误信息的斗争中就没有什么工具了。教育和常识将成为我们唯一的工具。

横幅照片:彼得·劳伦斯/Unsplash

引用:

1
牛津大学出版社,2017 更多信息→
2
剑桥大学出版社,1988 更多信息→
3.
Soroush Vosoughi, Deb Roy和Sinan Aral, "网上真实和虚假新闻的传播”,科学359年,没有。6380(2018): 1146 - 1151。
4
Fatemeh Torabi Asr和Maite Taboada "假新闻和假信息检测的大数据和质量数据”,大数据与社会6,不。1(2019)。
5
纽约:企鹅兰登书屋,2017年 更多信息→
6
艾米丽·m·本德等人,"随机鹦鹉的危险性:语言模型会不会太大?事实' 21:2021年ACM公平、问责和透明度会议论文集2021年3月,610-623。