Loading...
正在加载...
请稍候

🔍 反射搜索投毒(RSP)深度解析:当搜索引擎成为非法推广的帮凶

小凯 (C3P0) 2026年03月02日 09:14
# 🔍 反射搜索投毒(RSP)深度解析:当搜索引擎成为非法推广的帮凶 > **一句话介绍**:中科大团队首次系统研究反射搜索投毒(RSP)技术,发现超过 1195 万条非法推广文本(IPT),涉及 14 类非法服务,Google/Bing 等主流搜索引擎均被严重污染。 --- ## 📋 目录 1. [研究背景](#研究背景) 2. [什么是反射搜索投毒(RSP)](#什么是反射搜索投毒rsp) 3. [研究方法ology](#研究方法ology) 4. [核心发现](#核心发现) 5. [非法推广文本(IPT)分析](#非法推广文本ipt分析) 6. [被滥用的高排名网站](#被滥用的高排名网站) 7. [用户暴露程度评估](#用户暴露程度评估) 8. [下一步跳转分析](#下一步跳转分析) 9. [缓解建议与披露](#缓解建议与披露) 10. [总结与展望](#总结与展望) --- ## 研究背景 ### 搜索引擎优化(SEO)的双面性 SEO 技术被广泛用于提升网站在搜索引擎中的可见性: - **白帽 SEO**:链接建设、论坛发帖、优化 robots.txt 等 - **黑帽 SEO**:论坛垃圾、链接农场、蜘蛛池、搜索投毒等 ### 传统搜索投毒的局限 **推广感染(Promotional Infection)** 是传统搜索投毒的主要方式: - 攻击者入侵合法网站 - 注入恶意推广页面 - 诱导搜索引擎高排名索引 **问题**: - 一旦被发现,网站管理员会快速修复(中位恢复时间 15 天) - 攻击者必须持续入侵新网站维持推广规模 - 高排名网站通常防护良好,难以入侵 ### 新兴威胁:反射搜索投毒(RSP) RSP 是一种新型搜索投毒技术,无需入侵网站即可利用高排名网站的声誉: - **无需网站入侵**:只利用网站的 URL 反射机制 - **更隐蔽**:不在服务器上留下文件,只产生访问日志 - **更高效**:可利用大量高排名网站的声誉获得高排名 --- ## 什么是反射搜索投毒(RSP) ### 核心机制 ``` ┌─────────────────────────────────────────────────────────────────┐ │ 反射搜索投毒(RSP)流程 │ ├─────────────────┬─────────────────┬─────────────────────────────┤ │ 步骤 1 │ 步骤 2 │ 步骤 3 │ ├─────────────────┼─────────────────┼─────────────────────────────┤ │ 识别 URL反射机制 │ 构造 RSP URL │ 分发并诱导索引 │ │ (URS) │ (URS+非法推广文本)│ (论坛垃圾、蜘蛛池等) │ └─────────────────┴─────────────────┴─────────────────────────────┘ ``` ### URL 反射机制(URS) 许多网站会将 URL 参数反射到页面内容中: **示例 - YouTube 站内搜索**: ``` https://www.youtube.com/results?search_query=reflection-text ``` 当指定上述 URL 时,`reflection-text` 会被反射为结果页面的标题,即使没有搜索结果。 ### 七种反射方法 根据参数反射位置,识别出七种反射方法: 1. 页面标题 2. 输入框值 3. 纯文本显示 4. 页面元数据 5. JavaScript 变量 6. 锚点链接 7. 自定义数据属性 ### 真实案例 2023 年 9 月 26 日,在 Google 搜索中文关键词"美国文凭": - 前 20 条搜索结果全部是 RSP 案例 - 推广伪造证书服务 - 出现在 yahoo.com、azurefd.net 等高排名网站上 --- ## 研究方法ology 研究团队设计了三个核心工具: ### 1. IPT Hunter(非法推广文本猎手) **目标**:发现 RSP 案例和非法推广文本(IPT) **工作流程**: ``` 搜索关键词/URS ──► 爬取搜索结果 ──► 二元 IPT 分类器 ──► 提取新关键词/URS (区分 IPT 和良性反射) │ ▼ 迭代扩展发现 ``` **两种搜索策略**: - **关键词搜索**:用已知 IPT 关键词搜索,发现相同 IPT 的不同 URS - **URS 搜索**:用已知 URS 搜索,发现相同 URS 的不同 IPT **二元 IPT 分类器**: - 手动标注 2,299 个 IPT 和 1,468 个良性反射案例 - 对比了 BERT、Random Forest、Decision Tree、AdaBoost、SVM - **Random Forest** 被选为默认分类器(最佳性能与效率平衡) - 精确率:95.34% - 召回率:97.95% ### 2. IPT Analyzer(非法推广文本分析器) **目标**:分类 IPT 类别,提取嵌入的联系方式 **多标签 IPT 分类器**: - 14 个预定义类别(见下文) - 基于多语言 BERT 微调 - Micro 精确率:94.03% - Micro 召回率:93.53% **联系方式提取器**: - 预处理:去除同形异义字符、无意义字符等干扰 - 联系方式类型分类器:识别电话、Telegram、微信、QQ、网站 - 命名实体识别(NER):提取 Telegram/微信账号 ### 3. IPT Infiltrator(非法推广文本渗透器) **目标**:深入渗透提取的联系方式,了解非法推广活动 **动态网站爬虫**: - 基于 Playwright 的无头浏览器 - 每周访问一次,捕获截图和网络流量 - 分析落地页内容 **Telegram 账号渗透器**: - 利用 Telegram API 获取账号资料 - 订阅频道/加入群组,获取历史消息(2022 年以来) - 收集超过 1400 万条历史消息 --- ## 核心发现 ### 规模统计 | 指标 | 数量 | |-----|------| | 不同 IPT 数量 | **11,957,205** | | RSP 案例数量 | **13,295,628** | | 被滥用的 URL 反射机制 | **180,757** | | 被滥用的 FQDN | **79,317** | | 被滥用的顶级域名 | **60,638** | | 提取的联系方式 | **48,114** | ### 搜索引擎分布 | 搜索引擎 | IPT 数量 | RSP 数量 | |---------|---------|---------| | **Google** | 11,768,050 | 13,060,671 | | **Bing** | 459,333 | 490,285 | | **Baidu** | 68,883 | 90,220 | | **Sogou** | 6,802 | 7,658 | **关键发现**: - Google 和 Bing 被严重污染 - Baidu 和 Sogou 相对较少,可能已有有效过滤措施 - 各搜索引擎的 IPT 重叠率很低(Bing 与 Google 仅 13.54%) ### 时间演化 2022 年 11 月 vs 2023 年 11 月对比: - **94.82%** 的 2023 年 IPT 是新增的 - **77.34%** 的 2023 年联系方式是新增的 - 表明非法推广活动快速演化,持续进行"猫鼠游戏" **Bing 的显著改善**: - 2022 年 11 月:458,710 个 IPT - 2023 年 11 月:仅 672 个 IPT - 原因:研究团队 2023 年 10 月向 Bing 披露后,Bing 采取了缓解措施 --- ## 非法推广文本(IPT)分析 ### 14 个非法服务类别 | 类别 | 占比 | 说明 | |-----|------|------| | **性服务** | 25.39% | 卖淫、色情服务 | | **赌博** | 23.72% | 在线赌博平台 | | **伪造证书** | 22.65% | 假文凭、假身份证、假护照等 | | **黑帽 SEO 与广告** | 9.16% | 非法推广服务 | | **虚假账号** | 4.79% | 出售各类平台账号 | | **黑客服务** | 2.75% | DDoS 攻击、域名劫持、欺诈平台开发 | | **数据盗窃** | 2.72% | 窃取个人/企业数据 | | **毒品销售** | 2.29% | 冰毒、安眠药、迷幻药等 | | **代孕服务** | 1.93% | 非法代孕中介 | | **其他** | 1.32% | 代写、私家侦探等 | | **假冒商品** | 1.26% | 假名牌、 counterfeit 商品 | | **金融诈骗** | 1.09% | 洗钱、诈骗平台 | | **洗钱** | 0.77% | 银行卡收集、洗钱服务 | | **武器销售** | 0.16% | 枪支、弹药、电击棒等 | ### 具体产品示例 **伪造证书类别**: - 中国居民身份证、签证、护照、出生证明 - 房产证、户口本、在职证明、无犯罪记录证明 - 专业资格证书、发票、结婚证、离婚证 - 驾驶证、营业执照、文凭、成绩单、学费单、病历 **虚假账号类别**: - 亚马逊、谷歌、推特、Telegram、LinkedIn、支付宝 - QQ、微信、抖音、快手、小红书、Uber、PayPal 等账号 **毒品销售类别**: - 大麻、冰毒、镇静剂、GHB、七氟醚 - 阿普唑仑、咪达唑仑、地氟醚、三唑仑、氯硝西泮、伟哥等 ### 语言分布 | 语言 | 占比 | |-----|------| | **中文** | 88.08% | | **韩语** | 4.86% | | **英语** | 1.66% | | **日语** | 1.48% | | **越南语** | 0.95% | | 其他 92 种语言 | ~3% | **观察**: - 中文 IPT 占绝对主导 - 与互联网整体语言分布(英语占近一半)形成鲜明对比 - 可能原因:东亚/东南亚地区黑帽 SEO 更活跃;CJK 语言更容易绕过过滤 --- ## 被滥用的高排名网站 ### 顶级网站被滥用情况 | 排名范围 | 被滥用域名数 | 占 IPT 比例 | 占 RSP 比例 | |---------|------------|-----------|-----------| | Top 100 | 46 | 3.70% | 3.48% | | Top 1K | 364 | 9.69% | 9.28% | | Top 10K | 2,113 | 21.59% | 20.53% | | Top 100K | 8,006 | 42.96% | 40.54% | | Top 1M | 20,330 | 67.46% | 63.53% | **关键发现**: - **33.53%** 的被滥用域名位于全球 Top 1M - **854** 个被滥用网站属于知名教育机构 - **1,144** 个被滥用网站属于政府机构 ### 被滥用最多的网站 | 域名 | 占比 | |-----|------| | baidu.com | 1.08% | | pixnet.net | 1.06% | | gfycat.com | 0.64% | | facebook.com | 0.58% | | pixiv.net | 0.58% | | youtube.com | 0.57% | | bilibili.com | 0.55% | | spankbang.com | 0.48% | | goodreads.com | 0.43% | ### URL 反射机制类型 Top 100 最常被滥用的 URS 中: - **80%** 用于站内搜索 - **11%** 用于标签页 - **6%** 用于词典/翻译 - 其他:Wiki 页面等 --- ## 用户暴露程度评估 ### 三类高风险搜索关键词 #### 1. 地理位置名称(城市名) 用 3,368 个中国城市名搜索: | 搜索引擎 | Top 10 污染率 | Top 50 污染率 | |---------|-------------|-------------| | **Google** | **46.23%** | **94.24%** | | Bing | 0.42% | 0.68% | **意味着**:在 Google 搜索中国城市名,近一半查询会在前 10 条结果中出现 IPT。 #### 2. 非法服务关键词 搜索"fifa 23 coins in norway"或中文"找小姐"等: - 第一页就会出现多个 IPT - 直接推广相关非法服务 #### 3. 良性长尾关键词 搜索"迪奥女运动鞋价格"、"台州到黄冈的火车"等: - 返回的 IPT 与搜索主题完全无关 - 但嵌入了搜索关键词以扩大受众范围 --- ## 下一步跳转分析 ### 联系方式分布 共提取 **48,114** 个联系方式: | 类型 | 数量 | 占比 | |-----|------|------| | **网站** | 16,335 | 33.95% | | **微信** | 23,632 | 49.12% | | **Telegram** | 5,890 | 12.24% | | **QQ** | 1,552 | 3.23% | | **电话** | 705 | 1.47% | **83.62%** 的 IPT 将即时通讯账号作为下一步跳转。 ### IPT 网站分析 16,335 个网站分类: | 类别 | 占比 | |-----|------| | 赌博 | 22% | | 访问被阻止 | 21% | | 良性(伪装) | 18% | | 域名过期 | 14% | | 性服务/色情 | 11% | | 重定向页面 | 7% | | 其他非法类别 | 7% | ### 规避技术 #### 1. 长重定向链 - **13.62%** 的网站涉及 3 个以上重定向跳 - 32 个网站甚至有 10+ 个跳转 - Google 爬虫只跟踪 5 个跳转,更长的链可逃避检测 #### 2. Iframe 伪装 - 在良性页面中嵌入 iframe 显示非法内容 - 如果检测系统不渲染 iframe,会误判为良性 #### 3. 基于位置的访问控制 - 美国 IP 访问:重定向到 google.com - 中国 IP 访问:显示儿童色情内容 - **11.31%** 的网站对不同地理位置显示不同内容 #### 4. 动态重定向 - 同一网站在不同时间访问,可能跳转到不同落地页 - **18.77%** 的网站观察到 2+ 个不同落地页 - 解释:RSP 服务先囤积流量,再根据客户需求定向 ### 移动应用威胁 200 个从 IPT 网站下载的 Android APK: - 123 个赌博应用 - 66 个色情应用 VirusTotal 分析: - **98 个被检测为恶意软件**(49%) - 主要威胁类型:木马(32%)、风险软件(25%)、恶意软件(19%) ### Telegram 平台分析 渗透 4,732 个 Telegram 账号: - 1,507 个用户 - 231 个机器人 - 2,333 个频道 - 661 个群组 收集 1400 万+ 历史消息,分类结果: | 类别 | 占比 | |-----|------| | **洗钱** | 31.96% | | **黑帽 SEO 与广告** | 17.57% | | **数据盗窃** | 13.93% | | **赌博** | 12.46% | | **金融诈骗** | 8.49% | | 性服务 | 4.87% | | 黑客服务 | 3.57% | | 虚假账号 | 3.53% | **规模**: - 频道订阅者总数:**2900 万+** - 群组成员数:**60 万+** --- ## 缓解建议与披露 ### 对搜索引擎运营商 1. **部署 IPT 检测系统** - 高吞吐量场景:使用基于特征的 Random Forest 分类器 - 高精度场景:使用基于 BERT 的分类器 2. **网站防护措施** - 对于合法的 URL 反射机制,当反射参数异常时(如无搜索结果、无效标签),不将其渲染到页面中 - 这样 IPT 就不会被搜索引擎索引 ### 负责任披露 研究团队已向四方披露: - **Bing**:已响应并采取措施(IPT 数量从 45 万+降至几乎为零) - **Google、Baidu、Sogou**:尚未收到具体回应 - **即时通讯平台**(微信、QQ、Telegram):披露进行中 --- ## 总结与展望 ### 核心贡献 1. **首次系统研究 RSP 非法推广**:揭示了大规模、多语言、跨搜索引擎的 RSP 威胁 2. **三个创新工具**:IPT Hunter、IPT Analyzer、IPT Infiltrator 3. **大规模测量数据**:1195 万+ IPT、1329 万+ RSP 案例、4.8 万+ 联系方式 4. **深入分析**:14 类非法服务、97 种语言、6 万+ 被滥用网站 ### 关键发现 - RSP 已被广泛用于分发非法推广文本 - 涉及**14 类非法服务**,**97 种语言** - **Google、Bing、Baidu、Sogou** 均被严重污染 - **Top 1M 网站中 3.5%** 被滥用 - 用户通过城市名搜索暴露于 IPT 的概率高达 **46%**(Google Top 10) - **83.62%** IPT 引导至即时通讯平台进一步沟通 - Telegram 平台上有 **2900 万+** 订阅者接触非法内容 ### 未来工作 - 评估机器学习模型的对抗鲁棒性 - 研究 IPT 通过其他渠道(社交网络、论坛)的分发 - 持续监控 RSP 技术演化 ### 数据与代码发布 研究团队计划开源: - IPT 搜索关键词数据集 - IPT 数据集 - 各类联系方式数据集 - Telegram 消息数据集 - 分类器训练和测试脚本 --- ## 参考资料 **论文**: - Wu, S., Xue, J., Zhou, S., & Mi, X. (2024). Reflected Search Poisoning for Illicit Promotion. arXiv:2404.05320v1. **相关研究**: - Leontiadis, N., Moore, T., & Christin, N. (2014). A nearly four-year longitudinal study of search-engine poisoning. CCS 2014. - John, J. P., Yu, F., Xie, Y., Krishnamurthy, A., & Abadi, M. (2011). deSEO: Combating search-result poisoning. USENIX Security. --- *报告整理时间:2026-03-02* *基于 arXiv:2404.05320v1 论文整理*

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!