Embracing Domain Differences in Fake News- Cross-domain Fake News Detection using Multimodal Data(AAAI21)

一、摘要

随着社交媒体的快速发展,假新闻已经成为一个重大的社会问题,它无法通过人工调查及时解决。这激发了大量关于自动假新闻检测的研究。

大多数研究探索了基于新闻记录中不同模态信息(如文本、图像和传播网络)的有监督模型来识别假新闻。然而,如果新闻记录来自不同的领域(如政治、娱乐),特别是在训练时未见过的或很少见过的领域,这些方法的效果通常会下降。

本文经过探索性数据分析发现,来自不同领域的新闻记录具有显著不同的单词使用模式和传播模式。此外,由于未加标签的新闻记录数量庞大,选择新闻记录进行人工加标签,从而使加标签数据集的域覆盖最大化具有挑战性。因此,本工作:

  • 提出了一种新的框架,在新闻记录中联合保存特定领域和跨领域的知识,以检测来自不同领域的假新闻;
  • 设计了一种选择一组未标记的Informative新闻记录进行人工标签的无监督方法,其结果可用于训练一个假新闻检测模型,训练好的模型在许多领域表现良好,同时最小化标签成本。

实验表明,所提出的假新闻模型和选择性标注方法在跨领域新闻数据集上取得了最先进的性能,同时对新闻数据集中很少出现的领域有了显著的改进。

二、内容

**本文的创新是在跨领域假新闻检测问题上,从文本和传播网络的多模态数据中联合提取领域不变和领域特定的,来缓解跨领域检测问题。

其中,本文设计了一种基于网络社区的无监督领域划分,来获取新闻记录的领域嵌入。

后续,在假设标注预算有限的情况下,使用局部敏感哈希LSH将相似的记录分到同一个桶,从而实现经可能均匀地选择不同领域的样本来进行标注,从而提升领域覆盖度。

下图为论文PPT总结。

Embracing Domain Differences in Fake News- Cross-domain Fake News Detection using Multimodal Data(AAAI21)插图

文章来源于互联网:Embracing Domain Differences in Fake News- Cross-domain Fake News Detection using Multimodal Data(AAAI21)

THE END
分享
二维码