🔍 反射搜索投毒(RSP)深度解析:当搜索引擎成为非法推广的帮凶
一句话介绍:中科大团队首次系统研究反射搜索投毒(RSP)技术,发现超过 1195 万条非法推广文本(IPT),涉及 14 类非法服务,Google/Bing 等主流搜索引擎均被严重污染。
📋 目录
- 研究背景
- 什么是反射搜索投毒(RSP)
- 研究方法ology
- 核心发现
- 非法推广文本(IPT)分析
- 被滥用的高排名网站
- 用户暴露程度评估
- 下一步跳转分析
- 缓解建议与披露
- 总结与展望
研究背景
搜索引擎优化(SEO)的双面性
SEO 技术被广泛用于提升网站在搜索引擎中的可见性:
- 白帽 SEO:链接建设、论坛发帖、优化 robots.txt 等
- 黑帽 SEO:论坛垃圾、链接农场、蜘蛛池、搜索投毒等
传统搜索投毒的局限
推广感染(Promotional Infection) 是传统搜索投毒的主要方式:
- 攻击者入侵合法网站
- 注入恶意推广页面
- 诱导搜索引擎高排名索引
问题:
- 一旦被发现,网站管理员会快速修复(中位恢复时间 15 天)
- 攻击者必须持续入侵新网站维持推广规模
- 高排名网站通常防护良好,难以入侵
新兴威胁:反射搜索投毒(RSP)
RSP 是一种新型搜索投毒技术,无需入侵网站即可利用高排名网站的声誉:
- 无需网站入侵:只利用网站的 URL 反射机制
- 更隐蔽:不在服务器上留下文件,只产生访问日志
- 更高效:可利用大量高排名网站的声誉获得高排名
什么是反射搜索投毒(RSP)
核心机制
┌─────────────────────────────────────────────────────────────────┐
│ 反射搜索投毒(RSP)流程 │
├─────────────────┬─────────────────┬─────────────────────────────┤
│ 步骤 1 │ 步骤 2 │ 步骤 3 │
├─────────────────┼─────────────────┼─────────────────────────────┤
│ 识别 URL反射机制 │ 构造 RSP URL │ 分发并诱导索引 │
│ (URS) │ (URS+非法推广文本)│ (论坛垃圾、蜘蛛池等) │
└─────────────────┴─────────────────┴─────────────────────────────┘
URL 反射机制(URS)
许多网站会将 URL 参数反射到页面内容中:
示例 - YouTube 站内搜索:
https://www.youtube.com/results?search_query=reflection-text
当指定上述 URL 时,reflection-text 会被反射为结果页面的标题,即使没有搜索结果。
七种反射方法
根据参数反射位置,识别出七种反射方法:
- 页面标题
- 输入框值
- 纯文本显示
- 页面元数据
- JavaScript 变量
- 锚点链接
- 自定义数据属性
真实案例
2023 年 9 月 26 日,在 Google 搜索中文关键词"美国文凭":
- 前 20 条搜索结果全部是 RSP 案例
- 推广伪造证书服务
- 出现在 yahoo.com、azurefd.net 等高排名网站上
研究方法ology
研究团队设计了三个核心工具:
1. IPT Hunter(非法推广文本猎手)
目标:发现 RSP 案例和非法推广文本(IPT)
工作流程:
搜索关键词/URS ──► 爬取搜索结果 ──► 二元 IPT 分类器 ──► 提取新关键词/URS
(区分 IPT 和良性反射)
│
▼
迭代扩展发现
两种搜索策略:
- 关键词搜索:用已知 IPT 关键词搜索,发现相同 IPT 的不同 URS
- URS 搜索:用已知 URS 搜索,发现相同 URS 的不同 IPT
二元 IPT 分类器:
- 手动标注 2,299 个 IPT 和 1,468 个良性反射案例
- 对比了 BERT、Random Forest、Decision Tree、AdaBoost、SVM
- Random Forest 被选为默认分类器(最佳性能与效率平衡)
- 精确率:95.34%
- 召回率:97.95%
2. IPT Analyzer(非法推广文本分析器)
目标:分类 IPT 类别,提取嵌入的联系方式
多标签 IPT 分类器:
- 14 个预定义类别(见下文)
- 基于多语言 BERT 微调
- Micro 精确率:94.03%
- Micro 召回率:93.53%
联系方式提取器:
- 预处理:去除同形异义字符、无意义字符等干扰
- 联系方式类型分类器:识别电话、Telegram、微信、QQ、网站
- 命名实体识别(NER):提取 Telegram/微信账号
3. IPT Infiltrator(非法推广文本渗透器)
目标:深入渗透提取的联系方式,了解非法推广活动
动态网站爬虫:
- 基于 Playwright 的无头浏览器
- 每周访问一次,捕获截图和网络流量
- 分析落地页内容
Telegram 账号渗透器:
- 利用 Telegram API 获取账号资料
- 订阅频道/加入群组,获取历史消息(2022 年以来)
- 收集超过 1400 万条历史消息
核心发现
规模统计
| 指标 | 数量 |
|---|
| 不同 IPT 数量 | 11,957,205 |
| RSP 案例数量 | 13,295,628 |
| 被滥用的 URL 反射机制 | 180,757 |
| 被滥用的 FQDN | 79,317 |
| 被滥用的顶级域名 | 60,638 |
| 提取的联系方式 | 48,114 |
搜索引擎分布
| 搜索引擎 | IPT 数量 | RSP 数量 |
|---|
| Google | 11,768,050 | 13,060,671 |
| Bing | 459,333 | 490,285 |
| Baidu | 68,883 | 90,220 |
| Sogou | 6,802 | 7,658 |
关键发现:
- Google 和 Bing 被严重污染
- Baidu 和 Sogou 相对较少,可能已有有效过滤措施
- 各搜索引擎的 IPT 重叠率很低(Bing 与 Google 仅 13.54%)
时间演化
2022 年 11 月 vs 2023 年 11 月对比:
- 94.82% 的 2023 年 IPT 是新增的
- 77.34% 的 2023 年联系方式是新增的
- 表明非法推广活动快速演化,持续进行"猫鼠游戏"
Bing 的显著改善:
- 2022 年 11 月:458,710 个 IPT
- 2023 年 11 月:仅 672 个 IPT
- 原因:研究团队 2023 年 10 月向 Bing 披露后,Bing 采取了缓解措施
非法推广文本(IPT)分析
14 个非法服务类别
| 类别 | 占比 | 说明 |
|---|
| 性服务 | 25.39% | 卖淫、色情服务 |
| 赌博 | 23.72% | 在线赌博平台 |
| 伪造证书 | 22.65% | 假文凭、假身份证、假护照等 |
| 黑帽 SEO 与广告 | 9.16% | 非法推广服务 |
| 虚假账号 | 4.79% | 出售各类平台账号 |
| 黑客服务 | 2.75% | DDoS 攻击、域名劫持、欺诈平台开发 |
| 数据盗窃 | 2.72% | 窃取个人/企业数据 |
| 毒品销售 | 2.29% | 冰毒、安眠药、迷幻药等 |
| 代孕服务 | 1.93% | 非法代孕中介 |
| 其他 | 1.32% | 代写、私家侦探等 |
| 假冒商品 | 1.26% | 假名牌、 counterfeit 商品 |
| 金融诈骗 | 1.09% | 洗钱、诈骗平台 |
| 洗钱 | 0.77% | 银行卡收集、洗钱服务 |
| 武器销售 | 0.16% | 枪支、弹药、电击棒等 |
具体产品示例
伪造证书类别:
- 中国居民身份证、签证、护照、出生证明
- 房产证、户口本、在职证明、无犯罪记录证明
- 专业资格证书、发票、结婚证、离婚证
- 驾驶证、营业执照、文凭、成绩单、学费单、病历
虚假账号类别:
- 亚马逊、谷歌、推特、Telegram、LinkedIn、支付宝
- QQ、微信、抖音、快手、小红书、Uber、PayPal 等账号
毒品销售类别:
- 大麻、冰毒、镇静剂、GHB、七氟醚
- 阿普唑仑、咪达唑仑、地氟醚、三唑仑、氯硝西泮、伟哥等
语言分布
| 语言 | 占比 |
|---|
| 中文 | 88.08% |
| 韩语 | 4.86% |
| 英语 | 1.66% |
| 日语 | 1.48% |
| 越南语 | 0.95% |
| 其他 92 种语言 | ~3% |
观察:
- 中文 IPT 占绝对主导
- 与互联网整体语言分布(英语占近一半)形成鲜明对比
- 可能原因:东亚/东南亚地区黑帽 SEO 更活跃;CJK 语言更容易绕过过滤
被滥用的高排名网站
顶级网站被滥用情况
| 排名范围 | 被滥用域名数 | 占 IPT 比例 | 占 RSP 比例 |
|---|
| Top 100 | 46 | 3.70% | 3.48% |
| Top 1K | 364 | 9.69% | 9.28% |
| Top 10K | 2,113 | 21.59% | 20.53% |
| Top 100K | 8,006 | 42.96% | 40.54% |
| Top 1M | 20,330 | 67.46% | 63.53% |
关键发现:
- 33.53% 的被滥用域名位于全球 Top 1M
- 854 个被滥用网站属于知名教育机构
- 1,144 个被滥用网站属于政府机构
被滥用最多的网站
| 域名 | 占比 |
|---|
| baidu.com | 1.08% |
| pixnet.net | 1.06% |
| gfycat.com | 0.64% |
| facebook.com | 0.58% |
| pixiv.net | 0.58% |
| youtube.com | 0.57% |
| bilibili.com | 0.55% |
| spankbang.com | 0.48% |
| goodreads.com | 0.43% |
URL 反射机制类型
Top 100 最常被滥用的 URS 中:
- 80% 用于站内搜索
- 11% 用于标签页
- 6% 用于词典/翻译
- 其他:Wiki 页面等
用户暴露程度评估
三类高风险搜索关键词
1. 地理位置名称(城市名)
用 3,368 个中国城市名搜索:
| 搜索引擎 | Top 10 污染率 | Top 50 污染率 |
|---|
| Google | 46.23% | 94.24% |
| Bing | 0.42% | 0.68% |
意味着:在 Google 搜索中国城市名,近一半查询会在前 10 条结果中出现 IPT。
2. 非法服务关键词
搜索"fifa 23 coins in norway"或中文"找小姐"等:
3. 良性长尾关键词
搜索"迪奥女运动鞋价格"、"台州到黄冈的火车"等:
- 返回的 IPT 与搜索主题完全无关
- 但嵌入了搜索关键词以扩大受众范围
下一步跳转分析
联系方式分布
共提取 48,114 个联系方式:
| 类型 | 数量 | 占比 |
|---|
| 网站 | 16,335 | 33.95% |
| 微信 | 23,632 | 49.12% |
| Telegram | 5,890 | 12.24% |
| QQ | 1,552 | 3.23% |
| 电话 | 705 | 1.47% |
83.62% 的 IPT 将即时通讯账号作为下一步跳转。
IPT 网站分析
16,335 个网站分类:
| 类别 | 占比 |
|---|
| 赌博 | 22% |
| 访问被阻止 | 21% |
| 良性(伪装) | 18% |
| 域名过期 | 14% |
| 性服务/色情 | 11% |
| 重定向页面 | 7% |
| 其他非法类别 | 7% |
规避技术
1. 长重定向链
- 13.62% 的网站涉及 3 个以上重定向跳
- 32 个网站甚至有 10+ 个跳转
- Google 爬虫只跟踪 5 个跳转,更长的链可逃避检测
2. Iframe 伪装
- 在良性页面中嵌入 iframe 显示非法内容
- 如果检测系统不渲染 iframe,会误判为良性
3. 基于位置的访问控制
- 美国 IP 访问:重定向到 google.com
- 中国 IP 访问:显示儿童色情内容
- 11.31% 的网站对不同地理位置显示不同内容
4. 动态重定向
- 同一网站在不同时间访问,可能跳转到不同落地页
- 18.77% 的网站观察到 2+ 个不同落地页
- 解释:RSP 服务先囤积流量,再根据客户需求定向
移动应用威胁
200 个从 IPT 网站下载的 Android APK:
VirusTotal 分析:
- 98 个被检测为恶意软件(49%)
- 主要威胁类型:木马(32%)、风险软件(25%)、恶意软件(19%)
Telegram 平台分析
渗透 4,732 个 Telegram 账号:
- 1,507 个用户
- 231 个机器人
- 2,333 个频道
- 661 个群组
收集 1400 万+ 历史消息,分类结果:
| 类别 | 占比 |
|---|
| 洗钱 | 31.96% |
| 黑帽 SEO 与广告 | 17.57% |
| 数据盗窃 | 13.93% |
| 赌博 | 12.46% |
| 金融诈骗 | 8.49% |
| 性服务 | 4.87% |
| 黑客服务 | 3.57% |
| 虚假账号 | 3.53% |
规模:
- 频道订阅者总数:2900 万+
- 群组成员数:60 万+
缓解建议与披露
对搜索引擎运营商
- 部署 IPT 检测系统
- 高吞吐量场景:使用基于特征的 Random Forest 分类器
- 高精度场景:使用基于 BERT 的分类器
- 网站防护措施
- 对于合法的 URL 反射机制,当反射参数异常时(如无搜索结果、无效标签),不将其渲染到页面中
- 这样 IPT 就不会被搜索引擎索引
负责任披露
研究团队已向四方披露:
- Bing:已响应并采取措施(IPT 数量从 45 万+降至几乎为零)
- Google、Baidu、Sogou:尚未收到具体回应
- 即时通讯平台(微信、QQ、Telegram):披露进行中
总结与展望
核心贡献
- 首次系统研究 RSP 非法推广:揭示了大规模、多语言、跨搜索引擎的 RSP 威胁
- 三个创新工具:IPT Hunter、IPT Analyzer、IPT Infiltrator
- 大规模测量数据:1195 万+ IPT、1329 万+ RSP 案例、4.8 万+ 联系方式
- 深入分析:14 类非法服务、97 种语言、6 万+ 被滥用网站
关键发现
- RSP 已被广泛用于分发非法推广文本
- 涉及14 类非法服务,97 种语言
- Google、Bing、Baidu、Sogou 均被严重污染
- Top 1M 网站中 3.5% 被滥用
- 用户通过城市名搜索暴露于 IPT 的概率高达 46%(Google Top 10)
- 83.62% IPT 引导至即时通讯平台进一步沟通
- Telegram 平台上有 2900 万+ 订阅者接触非法内容
未来工作
- 评估机器学习模型的对抗鲁棒性
- 研究 IPT 通过其他渠道(社交网络、论坛)的分发
- 持续监控 RSP 技术演化
数据与代码发布
研究团队计划开源:
- IPT 搜索关键词数据集
- IPT 数据集
- 各类联系方式数据集
- Telegram 消息数据集
- 分类器训练和测试脚本
参考资料
论文:
- Wu, S., Xue, J., Zhou, S., & Mi, X. (2024). Reflected Search Poisoning for Illicit Promotion. arXiv:2404.05320v1.
相关研究:
- Leontiadis, N., Moore, T., & Christin, N. (2014). A nearly four-year longitudinal study of search-engine poisoning. CCS 2014.
- John, J. P., Yu, F., Xie, Y., Krishnamurthy, A., & Abadi, M. (2011). deSEO: Combating search-result poisoning. USENIX Security.
报告整理时间:2026-03-02
基于 arXiv:2404.05320v1 论文整理