NLP技术揭露百万虚假网络中立评论

原创

用户11764306

发布于 2026-05-27 11:16:48

1100

我运用了自然语言处理技术，分析了2017年4月至10月期间提交给某机构的网络中立性评论，结果令人不安。

2017年11月29日更新：已发布多个数据集和足以让您重现本次分析的代码。请与我们分享您的其他发现——充分调研、可重现的数据分析能够确立基本事实，并有助于厘清各种纷争。期待看到您的分析，后续还会有更多数据！

纽约州总检察长估计，数十万美国人的身份被盗用，用于支持废除网络中立性的垃圾邮件活动。本研究发现至少有130万条虚假的支持废除评论，且怀疑还有更多。事实上，该程序中虚假支持废除评论的总数可能达数百万。本文将指出一个尤为恶劣的垃圾机器人提交案例，论证可能存在更多尚未确认的支持废除的垃圾机器人，并评估“有机”公众提交内容中对网络中立性的公众立场。

主要发现：

一个支持废除的垃圾邮件活动使用邮件合并技术，将130万条评论伪装成独特的草根提交内容。
可能存在其他多个活动，旨在向系统注入总计可能达数百万条的支持废除评论。
超过99%的真正独特评论极有可能支持保留网络中立性。

解析提交内容

鉴于评论提交过程中存在诸多有据可查的异常情况，从一开始就很清楚数据将是重复且混乱的。为了在不搭建“大数据”常用工具和基础设施的情况下进行分析，需要将超过2200万条评论及60GB以上的文本数据和元数据分解成更小的部分。

因此，统计了大量重复评论，得到2,955,182条独特评论及其各自的重复计数。然后将每条评论映射到语义空间向量，并对评论的含义运行了一些聚类算法。该方法识别出近150个不同大小的评论提交文本聚类。

在对评论类别进行聚类并去除重复项后，发现提交给某机构的超过2200万条评论中，只有不到80万条（3-4%）可被视为真正的独特评论。

以下是前20个评论“活动”，在2200多万条提交中占据了惊人的1700多万条：

绝大多数某机构评论都是以完全重复的形式提交，或是作为写信/垃圾邮件活动的一部分。

那么，如何区分哪些是合法的公众邮件活动，哪些是机器人呢？

识别130万条邮件合并的垃圾评论

第一个也是最大的支持废除的文档聚类尤其引人注目。与我发现的包含大量重复语言的其他聚类不同，这里的每条评论都是独特的；然而，每条评论的语气、语言和含义大体一致。语言也有些生硬。为了深入探究，使用正则表达式来匹配聚类评论中的词语：

“People like me”（像我这样的人）这个短语尤其讽刺。

事实证明，这样的评论有130万条。每条伪造评论中的句子看起来都像是由计算机程序生成的。邮件合并为每个术语替换了同义词，以生成听起来独特的评论。这就像“疯狂填词”游戏，只不过是为了制造伪草根言论。

当像上面这样将仅仅五条评论并排高亮显示时，很明显有问题。但当这些评论分散在2200多万条评论中，且不同评论之间的措辞差异很大时，就能理解为什么难以发现了。语义聚类技术（而非典型的字符串匹配技术）在捕获这些评论方面表现出色。

最后，将这些垃圾评论集中在一起看尤其令人不寒而栗，因为它们正是你期望在行业对拟议废除法案的评论中，或者如今在某机构委员赞扬废除法案的声明中看到的那种政策论点和语言。

支持废除的评论重复性更高，且以更大块的形式出现

但是，仅仅因为最大一块支持废除的提交内容被证明是预先策划和有组织的垃圾邮件活动，并不一定意味着还有更多支持废除的垃圾机器人有待验证，对吗？

事实证明，列表中接下来的两条最高评论（“2015年，主席Tom Wheeler……”和“奥巴马政府施加的前所未有的监管权力……”）在之前的报道中也已被指出可能是伪草根言论。

顺着列表往下看，每个评论聚类/重复项都需要单独调查，这超出了本文的范围。然而，我们仍然可以通过更宏观的视角来了解评论的分布情况。重新展示上面分解某机构主要评论的条形图，来看看前300个评论活动，它们在2200多万条提交中占据了惊人的2100多万条：

支持保留网络中立性的评论更有可能偏离模板信函，并在长尾中占据主导地位。

从这张图表可以看出，支持废除的评论（大约860万条）更可能是完全重复的（深红色条），并且以更大的块提交。即使这些支持废除的评论中只有25%被证实是垃圾信息，那仍然会产生超过200万条伪造的支持废除评论，每条都附有一个电子邮件地址。应对用于提交这些疑似垃圾评论的电子邮件地址进行进一步验证。

另一方面，支持网络中立性的评论更有可能偏离模板信函（浅绿色条，而非深绿色条），并且在长尾中数量更多。如果双方的评论类型、提交方式和“垃圾程度”相当，我们会预期在各个条形中看到大致均匀分布的浅色和深色、红色和绿色。但这里显然不是这种情况。

有机公众评论：超过99%支持保留网络中立性

那么，那些不是重复项也未作为评论类别的一部分被聚类的不到80万条提交的评论呢？评论支持网络中立性的趋势在长尾中是否仍然持续？

事实证明，传统统计学允许我们抽取一个有代表性的样本，并得到相当准确的总体比例估计和置信区间。在从80万条有机评论中随机抽取1000条评论样本并仔细查看后，只找到了三条明显支持废除的评论。这得出总体比例的估计值为99.7%。事实上，这个比例如此接近100%支持网络中立性，以至于置信区间超出了100%。至少可以得出结论：绝大多数对此问题有足够热情撰写自己评论的个人都支持保留网络中立性。

请花一分钟时间浏览所提供的样本。这些是受此决定影响的真实人物的评论，他们以最个人化和最痛彻的方式讲述了其影响：

“我82岁，残疾，被困家中，但并不孤独，因为我有自由的互联网。我可以漫游世界。使用Facebook拜访家人朋友。我可以在Etsy上出售我的作品，不用担心如果2015年的法律被废除，某机构会获得优先权。如果你们（某机构）不再有监督权，我的互联网服务提供商可以提高价格，以至于我根本用不起互联网！我依赖某机构保护我和像我一样的人。”

结论

公众参与和公民参与是民主运作的基石。想到公众辩论中真实、原创的声音（其中超过99%支持保留网络中立性）正被一群垃圾机器人的合唱所淹没，这令人恐惧。我们已生活在对公共机构信任度低的时代，基于这些发现，担心联邦监管的公众评论流程可能成为又一个被垃圾信息和虚假信息攻陷的公共论坛。

鉴于保留网络中立性的实际公众支持率压倒性地高，某机构多数派仅仅因为公共记录中存在异常，或者因为公众评论不是用法律术语写成的，就挥手无视公众意见，这是不负责任的。

某机构主席的办公室不仅需要提供总检察长所寻求的证据，还需要坦诚透明地回应有关网络中立性公众评论的信息自由法请求，以恢复公众对某机构规则制定流程的信心。

补充说明：

已有一些出色的分析聚焦于提交内容中的非文本元素，例如，提交时间、使用的电子邮件地址和其他元数据。
如有任何疑问，或希望访问从某机构ECFS提交系统抓取的数据集，请告知——如果有足够多的人请求，可能会将数据集托管在Google BigQuery上，以便您自行对约64 GB的数据集运行SQL查询。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

自然语言处理