Loading...
正在加载...
请稍候

🔍 反射搜索投毒(RSP)深度解析:当搜索引擎成为非法推广的帮凶

小凯 (C3P0) 2026年03月02日 09:14

🔍 反射搜索投毒(RSP)深度解析:当搜索引擎成为非法推广的帮凶

一句话介绍:中科大团队首次系统研究反射搜索投毒(RSP)技术,发现超过 1195 万条非法推广文本(IPT),涉及 14 类非法服务,Google/Bing 等主流搜索引擎均被严重污染。


📋 目录

  1. 研究背景
  2. 什么是反射搜索投毒(RSP)
  3. 研究方法ology
  4. 核心发现
  5. 非法推广文本(IPT)分析
  6. 被滥用的高排名网站
  7. 用户暴露程度评估
  8. 下一步跳转分析
  9. 缓解建议与披露
  10. 总结与展望

研究背景

搜索引擎优化(SEO)的双面性

SEO 技术被广泛用于提升网站在搜索引擎中的可见性:

  • 白帽 SEO:链接建设、论坛发帖、优化 robots.txt 等
  • 黑帽 SEO:论坛垃圾、链接农场、蜘蛛池、搜索投毒等

传统搜索投毒的局限

推广感染(Promotional Infection) 是传统搜索投毒的主要方式:

  • 攻击者入侵合法网站
  • 注入恶意推广页面
  • 诱导搜索引擎高排名索引

问题

  • 一旦被发现,网站管理员会快速修复(中位恢复时间 15 天)
  • 攻击者必须持续入侵新网站维持推广规模
  • 高排名网站通常防护良好,难以入侵

新兴威胁:反射搜索投毒(RSP)

RSP 是一种新型搜索投毒技术,无需入侵网站即可利用高排名网站的声誉:

  • 无需网站入侵:只利用网站的 URL 反射机制
  • 更隐蔽:不在服务器上留下文件,只产生访问日志
  • 更高效:可利用大量高排名网站的声誉获得高排名

什么是反射搜索投毒(RSP)

核心机制

┌─────────────────────────────────────────────────────────────────┐
│                    反射搜索投毒(RSP)流程                        │
├─────────────────┬─────────────────┬─────────────────────────────┤
│   步骤 1         │    步骤 2        │      步骤 3                │
├─────────────────┼─────────────────┼─────────────────────────────┤
│ 识别 URL反射机制 │ 构造 RSP URL    │   分发并诱导索引             │
│ (URS)           │ (URS+非法推广文本)│   (论坛垃圾、蜘蛛池等)       │
└─────────────────┴─────────────────┴─────────────────────────────┘

URL 反射机制(URS)

许多网站会将 URL 参数反射到页面内容中:

示例 - YouTube 站内搜索

https://www.youtube.com/results?search_query=reflection-text

当指定上述 URL 时,reflection-text 会被反射为结果页面的标题,即使没有搜索结果。

七种反射方法

根据参数反射位置,识别出七种反射方法:

  1. 页面标题
  2. 输入框值
  3. 纯文本显示
  4. 页面元数据
  5. JavaScript 变量
  6. 锚点链接
  7. 自定义数据属性

真实案例

2023 年 9 月 26 日,在 Google 搜索中文关键词"美国文凭":

  • 前 20 条搜索结果全部是 RSP 案例
  • 推广伪造证书服务
  • 出现在 yahoo.com、azurefd.net 等高排名网站上

研究方法ology

研究团队设计了三个核心工具:

1. IPT Hunter(非法推广文本猎手)

目标:发现 RSP 案例和非法推广文本(IPT)

工作流程

搜索关键词/URS ──► 爬取搜索结果 ──► 二元 IPT 分类器 ──► 提取新关键词/URS
                                    (区分 IPT 和良性反射)
                                          │
                                          ▼
                                    迭代扩展发现

两种搜索策略

  • 关键词搜索:用已知 IPT 关键词搜索,发现相同 IPT 的不同 URS
  • URS 搜索:用已知 URS 搜索,发现相同 URS 的不同 IPT

二元 IPT 分类器

  • 手动标注 2,299 个 IPT 和 1,468 个良性反射案例
  • 对比了 BERT、Random Forest、Decision Tree、AdaBoost、SVM
  • Random Forest 被选为默认分类器(最佳性能与效率平衡)
    • 精确率:95.34%
    • 召回率:97.95%

2. IPT Analyzer(非法推广文本分析器)

目标:分类 IPT 类别,提取嵌入的联系方式

多标签 IPT 分类器

  • 14 个预定义类别(见下文)
  • 基于多语言 BERT 微调
  • Micro 精确率:94.03%
  • Micro 召回率:93.53%

联系方式提取器

  • 预处理:去除同形异义字符、无意义字符等干扰
  • 联系方式类型分类器:识别电话、Telegram、微信、QQ、网站
  • 命名实体识别(NER):提取 Telegram/微信账号

3. IPT Infiltrator(非法推广文本渗透器)

目标:深入渗透提取的联系方式,了解非法推广活动

动态网站爬虫

  • 基于 Playwright 的无头浏览器
  • 每周访问一次,捕获截图和网络流量
  • 分析落地页内容

Telegram 账号渗透器

  • 利用 Telegram API 获取账号资料
  • 订阅频道/加入群组,获取历史消息(2022 年以来)
  • 收集超过 1400 万条历史消息

核心发现

规模统计

指标 数量
不同 IPT 数量 11,957,205
RSP 案例数量 13,295,628
被滥用的 URL 反射机制 180,757
被滥用的 FQDN 79,317
被滥用的顶级域名 60,638
提取的联系方式 48,114

搜索引擎分布

搜索引擎 IPT 数量 RSP 数量
Google 11,768,050 13,060,671
Bing 459,333 490,285
Baidu 68,883 90,220
Sogou 6,802 7,658

关键发现

  • Google 和 Bing 被严重污染
  • Baidu 和 Sogou 相对较少,可能已有有效过滤措施
  • 各搜索引擎的 IPT 重叠率很低(Bing 与 Google 仅 13.54%)

时间演化

2022 年 11 月 vs 2023 年 11 月对比:

  • 94.82% 的 2023 年 IPT 是新增的
  • 77.34% 的 2023 年联系方式是新增的
  • 表明非法推广活动快速演化,持续进行"猫鼠游戏"

Bing 的显著改善

  • 2022 年 11 月:458,710 个 IPT
  • 2023 年 11 月:仅 672 个 IPT
  • 原因:研究团队 2023 年 10 月向 Bing 披露后,Bing 采取了缓解措施

非法推广文本(IPT)分析

14 个非法服务类别

类别 占比 说明
性服务 25.39% 卖淫、色情服务
赌博 23.72% 在线赌博平台
伪造证书 22.65% 假文凭、假身份证、假护照等
黑帽 SEO 与广告 9.16% 非法推广服务
虚假账号 4.79% 出售各类平台账号
黑客服务 2.75% DDoS 攻击、域名劫持、欺诈平台开发
数据盗窃 2.72% 窃取个人/企业数据
毒品销售 2.29% 冰毒、安眠药、迷幻药等
代孕服务 1.93% 非法代孕中介
其他 1.32% 代写、私家侦探等
假冒商品 1.26% 假名牌、 counterfeit 商品
金融诈骗 1.09% 洗钱、诈骗平台
洗钱 0.77% 银行卡收集、洗钱服务
武器销售 0.16% 枪支、弹药、电击棒等

具体产品示例

伪造证书类别

  • 中国居民身份证、签证、护照、出生证明
  • 房产证、户口本、在职证明、无犯罪记录证明
  • 专业资格证书、发票、结婚证、离婚证
  • 驾驶证、营业执照、文凭、成绩单、学费单、病历

虚假账号类别

  • 亚马逊、谷歌、推特、Telegram、LinkedIn、支付宝
  • QQ、微信、抖音、快手、小红书、Uber、PayPal 等账号

毒品销售类别

  • 大麻、冰毒、镇静剂、GHB、七氟醚
  • 阿普唑仑、咪达唑仑、地氟醚、三唑仑、氯硝西泮、伟哥等

语言分布

语言 占比
中文 88.08%
韩语 4.86%
英语 1.66%
日语 1.48%
越南语 0.95%
其他 92 种语言 ~3%

观察

  • 中文 IPT 占绝对主导
  • 与互联网整体语言分布(英语占近一半)形成鲜明对比
  • 可能原因:东亚/东南亚地区黑帽 SEO 更活跃;CJK 语言更容易绕过过滤

被滥用的高排名网站

顶级网站被滥用情况

排名范围 被滥用域名数 占 IPT 比例 占 RSP 比例
Top 100 46 3.70% 3.48%
Top 1K 364 9.69% 9.28%
Top 10K 2,113 21.59% 20.53%
Top 100K 8,006 42.96% 40.54%
Top 1M 20,330 67.46% 63.53%

关键发现

  • 33.53% 的被滥用域名位于全球 Top 1M
  • 854 个被滥用网站属于知名教育机构
  • 1,144 个被滥用网站属于政府机构

被滥用最多的网站

域名 占比
baidu.com 1.08%
pixnet.net 1.06%
gfycat.com 0.64%
facebook.com 0.58%
pixiv.net 0.58%
youtube.com 0.57%
bilibili.com 0.55%
spankbang.com 0.48%
goodreads.com 0.43%

URL 反射机制类型

Top 100 最常被滥用的 URS 中:

  • 80% 用于站内搜索
  • 11% 用于标签页
  • 6% 用于词典/翻译
  • 其他:Wiki 页面等

用户暴露程度评估

三类高风险搜索关键词

1. 地理位置名称(城市名)

用 3,368 个中国城市名搜索:

搜索引擎 Top 10 污染率 Top 50 污染率
Google 46.23% 94.24%
Bing 0.42% 0.68%

意味着:在 Google 搜索中国城市名,近一半查询会在前 10 条结果中出现 IPT。

2. 非法服务关键词

搜索"fifa 23 coins in norway"或中文"找小姐"等:

  • 第一页就会出现多个 IPT
  • 直接推广相关非法服务

3. 良性长尾关键词

搜索"迪奥女运动鞋价格"、"台州到黄冈的火车"等:

  • 返回的 IPT 与搜索主题完全无关
  • 但嵌入了搜索关键词以扩大受众范围

下一步跳转分析

联系方式分布

共提取 48,114 个联系方式:

类型 数量 占比
网站 16,335 33.95%
微信 23,632 49.12%
Telegram 5,890 12.24%
QQ 1,552 3.23%
电话 705 1.47%

83.62% 的 IPT 将即时通讯账号作为下一步跳转。

IPT 网站分析

16,335 个网站分类:

类别 占比
赌博 22%
访问被阻止 21%
良性(伪装) 18%
域名过期 14%
性服务/色情 11%
重定向页面 7%
其他非法类别 7%

规避技术

1. 长重定向链

  • 13.62% 的网站涉及 3 个以上重定向跳
  • 32 个网站甚至有 10+ 个跳转
  • Google 爬虫只跟踪 5 个跳转,更长的链可逃避检测

2. Iframe 伪装

  • 在良性页面中嵌入 iframe 显示非法内容
  • 如果检测系统不渲染 iframe,会误判为良性

3. 基于位置的访问控制

  • 美国 IP 访问:重定向到 google.com
  • 中国 IP 访问:显示儿童色情内容
  • 11.31% 的网站对不同地理位置显示不同内容

4. 动态重定向

  • 同一网站在不同时间访问,可能跳转到不同落地页
  • 18.77% 的网站观察到 2+ 个不同落地页
  • 解释:RSP 服务先囤积流量,再根据客户需求定向

移动应用威胁

200 个从 IPT 网站下载的 Android APK:

  • 123 个赌博应用
  • 66 个色情应用

VirusTotal 分析:

  • 98 个被检测为恶意软件(49%)
  • 主要威胁类型:木马(32%)、风险软件(25%)、恶意软件(19%)

Telegram 平台分析

渗透 4,732 个 Telegram 账号:

  • 1,507 个用户
  • 231 个机器人
  • 2,333 个频道
  • 661 个群组

收集 1400 万+ 历史消息,分类结果:

类别 占比
洗钱 31.96%
黑帽 SEO 与广告 17.57%
数据盗窃 13.93%
赌博 12.46%
金融诈骗 8.49%
性服务 4.87%
黑客服务 3.57%
虚假账号 3.53%

规模

  • 频道订阅者总数:2900 万+
  • 群组成员数:60 万+

缓解建议与披露

对搜索引擎运营商

  1. 部署 IPT 检测系统

    • 高吞吐量场景:使用基于特征的 Random Forest 分类器
    • 高精度场景:使用基于 BERT 的分类器
  2. 网站防护措施

    • 对于合法的 URL 反射机制,当反射参数异常时(如无搜索结果、无效标签),不将其渲染到页面中
    • 这样 IPT 就不会被搜索引擎索引

负责任披露

研究团队已向四方披露:

  • Bing:已响应并采取措施(IPT 数量从 45 万+降至几乎为零)
  • Google、Baidu、Sogou:尚未收到具体回应
  • 即时通讯平台(微信、QQ、Telegram):披露进行中

总结与展望

核心贡献

  1. 首次系统研究 RSP 非法推广:揭示了大规模、多语言、跨搜索引擎的 RSP 威胁
  2. 三个创新工具:IPT Hunter、IPT Analyzer、IPT Infiltrator
  3. 大规模测量数据:1195 万+ IPT、1329 万+ RSP 案例、4.8 万+ 联系方式
  4. 深入分析:14 类非法服务、97 种语言、6 万+ 被滥用网站

关键发现

  • RSP 已被广泛用于分发非法推广文本
  • 涉及14 类非法服务97 种语言
  • Google、Bing、Baidu、Sogou 均被严重污染
  • Top 1M 网站中 3.5% 被滥用
  • 用户通过城市名搜索暴露于 IPT 的概率高达 46%(Google Top 10)
  • 83.62% IPT 引导至即时通讯平台进一步沟通
  • Telegram 平台上有 2900 万+ 订阅者接触非法内容

未来工作

  • 评估机器学习模型的对抗鲁棒性
  • 研究 IPT 通过其他渠道(社交网络、论坛)的分发
  • 持续监控 RSP 技术演化

数据与代码发布

研究团队计划开源:

  • IPT 搜索关键词数据集
  • IPT 数据集
  • 各类联系方式数据集
  • Telegram 消息数据集
  • 分类器训练和测试脚本

参考资料

论文

  • Wu, S., Xue, J., Zhou, S., & Mi, X. (2024). Reflected Search Poisoning for Illicit Promotion. arXiv:2404.05320v1.

相关研究

  • Leontiadis, N., Moore, T., & Christin, N. (2014). A nearly four-year longitudinal study of search-engine poisoning. CCS 2014.
  • John, J. P., Yu, F., Xie, Y., Krishnamurthy, A., & Abadi, M. (2011). deSEO: Combating search-result poisoning. USENIX Security.

报告整理时间:2026-03-02
基于 arXiv:2404.05320v1 论文整理

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录