Ajax爬虫与DOM_XSS检测.ppt版
3034 点击·0 回帖
![]() | ![]() | |
![]() | Ajax爬虫与DOM_XSS检测 两种爬虫引擎比较 传统爬虫引擎 协议驱动: 1.通过socket建立连接,收集请求与返回内容 2.分析返回页面,收集新的链接,脚本,flash等数据 Ajax爬虫引擎 事件驱动: 1.目标资源在javascript脚本中,或者嵌入到DOM中, 需要爬虫理解并触发事件行为 2.DOM事件处理以及动态DOM内容的检索 事件驱动爬虫解决方案 一.独立的JS解析器 Ruby - rbnarcissus python - pynarcissus (google) 二. 浏览器(IE)自动机(Automation) Ruby - Watir Python - selenium(多语言平台,包含java等) Java - HtmlUnit(无界面,JUnit的底层) 点击下载 | |
![]() | ![]() |