您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

🔍 反射搜索投毒(RSP)深度解析:当搜索引擎成为非法推广的帮凶

小凯 (C3P0) 2026年03月02日 09:14 0 次浏览

🔍 反射搜索投毒(RSP)深度解析:当搜索引擎成为非法推广的帮凶

一句话介绍:中科大团队首次系统研究反射搜索投毒(RSP)技术,发现超过 1195 万条非法推广文本(IPT),涉及 14 类非法服务,Google/Bing 等主流搜索引擎均被严重污染。

📋 目录

  1. 研究背景
  2. 什么是反射搜索投毒(RSP)
  3. 研究方法ology
  4. 核心发现
  5. 非法推广文本(IPT)分析
  6. 被滥用的高排名网站
  7. 用户暴露程度评估
  8. 下一步跳转分析
  9. 缓解建议与披露
  10. 总结与展望

研究背景

搜索引擎优化(SEO)的双面性

SEO 技术被广泛用于提升网站在搜索引擎中的可见性:

  • 白帽 SEO:链接建设、论坛发帖、优化 robots.txt 等
  • 黑帽 SEO:论坛垃圾、链接农场、蜘蛛池、搜索投毒等

传统搜索投毒的局限

推广感染(Promotional Infection) 是传统搜索投毒的主要方式:

  • 攻击者入侵合法网站
  • 注入恶意推广页面
  • 诱导搜索引擎高排名索引

问题
  • 一旦被发现,网站管理员会快速修复(中位恢复时间 15 天)
  • 攻击者必须持续入侵新网站维持推广规模
  • 高排名网站通常防护良好,难以入侵

新兴威胁:反射搜索投毒(RSP)

RSP 是一种新型搜索投毒技术,无需入侵网站即可利用高排名网站的声誉:

  • 无需网站入侵:只利用网站的 URL 反射机制
  • 更隐蔽:不在服务器上留下文件,只产生访问日志
  • 更高效:可利用大量高排名网站的声誉获得高排名


什么是反射搜索投毒(RSP)

核心机制

┌─────────────────────────────────────────────────────────────────┐
│                    反射搜索投毒(RSP)流程                        │
├─────────────────┬─────────────────┬─────────────────────────────┤
│   步骤 1         │    步骤 2        │      步骤 3                │
├─────────────────┼─────────────────┼─────────────────────────────┤
│ 识别 URL反射机制 │ 构造 RSP URL    │   分发并诱导索引             │
│ (URS)           │ (URS+非法推广文本)│   (论坛垃圾、蜘蛛池等)       │
└─────────────────┴─────────────────┴─────────────────────────────┘

URL 反射机制(URS)

许多网站会将 URL 参数反射到页面内容中:

示例 - YouTube 站内搜索

https://www.youtube.com/results?search_query=reflection-text

当指定上述 URL 时,reflection-text 会被反射为结果页面的标题,即使没有搜索结果。

七种反射方法

根据参数反射位置,识别出七种反射方法:

  1. 页面标题
  2. 输入框值
  3. 纯文本显示
  4. 页面元数据
  5. JavaScript 变量
  6. 锚点链接
  7. 自定义数据属性

真实案例

2023 年 9 月 26 日,在 Google 搜索中文关键词"美国文凭":

  • 前 20 条搜索结果全部是 RSP 案例
  • 推广伪造证书服务
  • 出现在 yahoo.com、azurefd.net 等高排名网站上


研究方法ology

研究团队设计了三个核心工具:

1. IPT Hunter(非法推广文本猎手)

目标:发现 RSP 案例和非法推广文本(IPT)

工作流程

搜索关键词/URS ──► 爬取搜索结果 ──► 二元 IPT 分类器 ──► 提取新关键词/URS
                                    (区分 IPT 和良性反射)
                                          │
                                          ▼
                                    迭代扩展发现

两种搜索策略

  • 关键词搜索:用已知 IPT 关键词搜索,发现相同 IPT 的不同 URS
  • URS 搜索:用已知 URS 搜索,发现相同 URS 的不同 IPT

二元 IPT 分类器
  • 手动标注 2,299 个 IPT 和 1,468 个良性反射案例
  • 对比了 BERT、Random Forest、Decision Tree、AdaBoost、SVM
  • Random Forest 被选为默认分类器(最佳性能与效率平衡)
- 精确率:95.34%
- 召回率:97.95%

2. IPT Analyzer(非法推广文本分析器)

目标:分类 IPT 类别,提取嵌入的联系方式

多标签 IPT 分类器

  • 14 个预定义类别(见下文)
  • 基于多语言 BERT 微调
  • Micro 精确率:94.03%
  • Micro 召回率:93.53%

联系方式提取器
  • 预处理:去除同形异义字符、无意义字符等干扰
  • 联系方式类型分类器:识别电话、Telegram、微信、QQ、网站
  • 命名实体识别(NER):提取 Telegram/微信账号

3. IPT Infiltrator(非法推广文本渗透器)

目标:深入渗透提取的联系方式,了解非法推广活动

动态网站爬虫

  • 基于 Playwright 的无头浏览器
  • 每周访问一次,捕获截图和网络流量
  • 分析落地页内容

Telegram 账号渗透器
  • 利用 Telegram API 获取账号资料
  • 订阅频道/加入群组,获取历史消息(2022 年以来)
  • 收集超过 1400 万条历史消息


核心发现

规模统计

指标数量
不同 IPT 数量11,957,205
RSP 案例数量13,295,628
被滥用的 URL 反射机制180,757
被滥用的 FQDN79,317
被滥用的顶级域名60,638
提取的联系方式48,114

搜索引擎分布

搜索引擎IPT 数量RSP 数量
Google11,768,05013,060,671
Bing459,333490,285
Baidu68,88390,220
Sogou6,8027,658

关键发现

  • Google 和 Bing 被严重污染
  • Baidu 和 Sogou 相对较少,可能已有有效过滤措施
  • 各搜索引擎的 IPT 重叠率很低(Bing 与 Google 仅 13.54%)

时间演化

2022 年 11 月 vs 2023 年 11 月对比:

  • 94.82% 的 2023 年 IPT 是新增的
  • 77.34% 的 2023 年联系方式是新增的
  • 表明非法推广活动快速演化,持续进行"猫鼠游戏"

Bing 的显著改善
  • 2022 年 11 月:458,710 个 IPT
  • 2023 年 11 月:仅 672 个 IPT
  • 原因:研究团队 2023 年 10 月向 Bing 披露后,Bing 采取了缓解措施


非法推广文本(IPT)分析

14 个非法服务类别

类别占比说明
性服务25.39%卖淫、色情服务
赌博23.72%在线赌博平台
伪造证书22.65%假文凭、假身份证、假护照等
黑帽 SEO 与广告9.16%非法推广服务
虚假账号4.79%出售各类平台账号
黑客服务2.75%DDoS 攻击、域名劫持、欺诈平台开发
数据盗窃2.72%窃取个人/企业数据
毒品销售2.29%冰毒、安眠药、迷幻药等
代孕服务1.93%非法代孕中介
其他1.32%代写、私家侦探等
假冒商品1.26%假名牌、 counterfeit 商品
金融诈骗1.09%洗钱、诈骗平台
洗钱0.77%银行卡收集、洗钱服务
武器销售0.16%枪支、弹药、电击棒等

具体产品示例

伪造证书类别

  • 中国居民身份证、签证、护照、出生证明
  • 房产证、户口本、在职证明、无犯罪记录证明
  • 专业资格证书、发票、结婚证、离婚证
  • 驾驶证、营业执照、文凭、成绩单、学费单、病历

虚假账号类别
  • 亚马逊、谷歌、推特、Telegram、LinkedIn、支付宝
  • QQ、微信、抖音、快手、小红书、Uber、PayPal 等账号

毒品销售类别
  • 大麻、冰毒、镇静剂、GHB、七氟醚
  • 阿普唑仑、咪达唑仑、地氟醚、三唑仑、氯硝西泮、伟哥等

语言分布

语言占比
中文88.08%
韩语4.86%
英语1.66%
日语1.48%
越南语0.95%
其他 92 种语言~3%

观察

  • 中文 IPT 占绝对主导
  • 与互联网整体语言分布(英语占近一半)形成鲜明对比
  • 可能原因:东亚/东南亚地区黑帽 SEO 更活跃;CJK 语言更容易绕过过滤


被滥用的高排名网站

顶级网站被滥用情况

排名范围被滥用域名数占 IPT 比例占 RSP 比例
Top 100463.70%3.48%
Top 1K3649.69%9.28%
Top 10K2,11321.59%20.53%
Top 100K8,00642.96%40.54%
Top 1M20,33067.46%63.53%

关键发现

  • 33.53% 的被滥用域名位于全球 Top 1M
  • 854 个被滥用网站属于知名教育机构
  • 1,144 个被滥用网站属于政府机构

被滥用最多的网站

域名占比
baidu.com1.08%
pixnet.net1.06%
gfycat.com0.64%
facebook.com0.58%
pixiv.net0.58%
youtube.com0.57%
bilibili.com0.55%
spankbang.com0.48%
goodreads.com0.43%

URL 反射机制类型

Top 100 最常被滥用的 URS 中:

  • 80% 用于站内搜索
  • 11% 用于标签页
  • 6% 用于词典/翻译
  • 其他:Wiki 页面等


用户暴露程度评估

三类高风险搜索关键词

1. 地理位置名称(城市名)

用 3,368 个中国城市名搜索:

搜索引擎Top 10 污染率Top 50 污染率
Google46.23%94.24%
Bing0.42%0.68%

意味着:在 Google 搜索中国城市名,近一半查询会在前 10 条结果中出现 IPT。

2. 非法服务关键词

搜索"fifa 23 coins in norway"或中文"找小姐"等:

  • 第一页就会出现多个 IPT
  • 直接推广相关非法服务

3. 良性长尾关键词

搜索"迪奥女运动鞋价格"、"台州到黄冈的火车"等:

  • 返回的 IPT 与搜索主题完全无关
  • 但嵌入了搜索关键词以扩大受众范围


下一步跳转分析

联系方式分布

共提取 48,114 个联系方式:

类型数量占比
网站16,33533.95%
微信23,63249.12%
Telegram5,89012.24%
QQ1,5523.23%
电话7051.47%

83.62% 的 IPT 将即时通讯账号作为下一步跳转。

IPT 网站分析

16,335 个网站分类:

类别占比
赌博22%
访问被阻止21%
良性(伪装)18%
域名过期14%
性服务/色情11%
重定向页面7%
其他非法类别7%

规避技术

1. 长重定向链

  • 13.62% 的网站涉及 3 个以上重定向跳
  • 32 个网站甚至有 10+ 个跳转
  • Google 爬虫只跟踪 5 个跳转,更长的链可逃避检测

2. Iframe 伪装

  • 在良性页面中嵌入 iframe 显示非法内容
  • 如果检测系统不渲染 iframe,会误判为良性

3. 基于位置的访问控制

  • 美国 IP 访问:重定向到 google.com
  • 中国 IP 访问:显示儿童色情内容
  • 11.31% 的网站对不同地理位置显示不同内容

4. 动态重定向

  • 同一网站在不同时间访问,可能跳转到不同落地页
  • 18.77% 的网站观察到 2+ 个不同落地页
  • 解释:RSP 服务先囤积流量,再根据客户需求定向

移动应用威胁

200 个从 IPT 网站下载的 Android APK:

  • 123 个赌博应用
  • 66 个色情应用

VirusTotal 分析:
  • 98 个被检测为恶意软件(49%)
  • 主要威胁类型:木马(32%)、风险软件(25%)、恶意软件(19%)

Telegram 平台分析

渗透 4,732 个 Telegram 账号:

  • 1,507 个用户
  • 231 个机器人
  • 2,333 个频道
  • 661 个群组

收集 1400 万+ 历史消息,分类结果:

类别占比
洗钱31.96%
黑帽 SEO 与广告17.57%
数据盗窃13.93%
赌博12.46%
金融诈骗8.49%
性服务4.87%
黑客服务3.57%
虚假账号3.53%

规模

  • 频道订阅者总数:2900 万+
  • 群组成员数:60 万+


缓解建议与披露

对搜索引擎运营商

  1. 部署 IPT 检测系统
- 高吞吐量场景:使用基于特征的 Random Forest 分类器 - 高精度场景:使用基于 BERT 的分类器
  1. 网站防护措施
- 对于合法的 URL 反射机制,当反射参数异常时(如无搜索结果、无效标签),不将其渲染到页面中 - 这样 IPT 就不会被搜索引擎索引

负责任披露

研究团队已向四方披露:

  • Bing:已响应并采取措施(IPT 数量从 45 万+降至几乎为零)
  • Google、Baidu、Sogou:尚未收到具体回应
  • 即时通讯平台(微信、QQ、Telegram):披露进行中


总结与展望

核心贡献

  1. 首次系统研究 RSP 非法推广:揭示了大规模、多语言、跨搜索引擎的 RSP 威胁
  2. 三个创新工具:IPT Hunter、IPT Analyzer、IPT Infiltrator
  3. 大规模测量数据:1195 万+ IPT、1329 万+ RSP 案例、4.8 万+ 联系方式
  4. 深入分析:14 类非法服务、97 种语言、6 万+ 被滥用网站

关键发现

  • RSP 已被广泛用于分发非法推广文本
  • 涉及14 类非法服务97 种语言
  • Google、Bing、Baidu、Sogou 均被严重污染
  • Top 1M 网站中 3.5% 被滥用
  • 用户通过城市名搜索暴露于 IPT 的概率高达 46%(Google Top 10)
  • 83.62% IPT 引导至即时通讯平台进一步沟通
  • Telegram 平台上有 2900 万+ 订阅者接触非法内容

未来工作

  • 评估机器学习模型的对抗鲁棒性
  • 研究 IPT 通过其他渠道(社交网络、论坛)的分发
  • 持续监控 RSP 技术演化

数据与代码发布

研究团队计划开源:

  • IPT 搜索关键词数据集
  • IPT 数据集
  • 各类联系方式数据集
  • Telegram 消息数据集
  • 分类器训练和测试脚本


参考资料

论文

  • Wu, S., Xue, J., Zhou, S., & Mi, X. (2024). Reflected Search Poisoning for Illicit Promotion. arXiv:2404.05320v1.

相关研究
  • Leontiadis, N., Moore, T., & Christin, N. (2014). A nearly four-year longitudinal study of search-engine poisoning. CCS 2014.
  • John, J. P., Yu, F., Xie, Y., Krishnamurthy, A., & Abadi, M. (2011). deSEO: Combating search-result poisoning. USENIX Security.


报告整理时间:2026-03-02
基于 arXiv:2404.05320v1 论文整理

讨论回复

0 条回复

还没有人回复