资源大全_资源网 登录

首页  php  jsp  js  java  python  .net  H5  asp  易语言  C#   jQuery  游戏  微信小程序  插件

您当前的位置:首页 > java

wind-bell风铃虫轻量级爬虫工具 v2.2.1

2021-01-21 20:14:30  35资源网(www.35d.net)
  java
下载本资源原文网址:http://www.daima.org/java/java9462.html

 wind-bell风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。

【声明】 请勿将风铃虫应用到任何可能会违反法律规定和道德约束的工作中,请友善使用风铃虫,遵守蜘蛛协议,不要将风铃虫用于任何非法用途。如您选择使用风铃虫即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。

风铃虫的原理极为简单,主要由 资源调度器、网页下载器、链接解析器、内容解析器、信息输出器 这极大部分组成。

他们的作用与功能如下所示:

资源调度器:负责风铃虫资源的调度过程,例如进行任务的储存、任务的调度和任务的管理

网页下载器:负责根据调度器调度的任务下载网页资源

链接解析器:负责解析网页下载器下载的网页内容,从网页内容中提取出所有符合要求的链接

内容解析器:负责对网页下载器下载的网页内容进行内容解析

信息输出器:输出内容解析器解析出来的数据

其中的链接解析器是由一系列的链接提取器组合而成,目前链接提取器主要是支持正则提取。

内容解析器由一系列的内容提取器组合而成,不同的内容提取器功能不同,适用于不同的解析场景,支持多个提取器的重复、循环等多种组合形式。

上述个组件均提供了自定义配置接口,使用户可以根据实际需要进行自定义配置,满足各种复杂乃至异常场景的要求。

风铃虫内置的内容提取器有:

原文提取器

中文提取器

常量提取器

CSS内容提取器

CSS文本提取器

邮箱提取器

数字提取器

正则提取器

字符删除提取器

字符替换提取器

字符串截取提取器

XPATH提取器

数组截取

wind-bell风铃虫轻量级爬虫工具 更新日志:

v2.2.1

更新pom依赖

增加附带数据功能

优化下载器功能

下载地址: [ 下载地址1 ]  消耗积分:0分  [ 下载地址2 ]  消耗积分:0分    
网盘密码 (密码:)
litemall小商场系统 v1.8.0
JetLinks开源物联网平台源码 v1.5.0
赞助
相关代码
    无相关信息
最新代码
栏目热门
Tags: 微信小程序 源码 源码下载 HTML5游戏 92Game 整站源码 PHP 商业版 帝国CMS cms 完整版 网站源码 织梦模板 织梦 wordpress插件 下载 最新 html5源码 微信小程序源码 帝国CMS内核 带后台 微信公众号 DEDECMS HTML5 完整源码 微信 自动采集 完整版源码 ecshop 源代码 Thinkphp dede织梦模板 PHP+MYSQL 小程序 小程序源码 DESTOON6.0 搜客淘宝客 淘宝客 更新包合集 带手机版 整站 手机版 完整运营版 游戏 92 92kaifa 完整商业版源码 管理系统 dedecms模板 织梦CMS内核 带数据 电影网站 系统 多城市 生成静态 免费下载 一键安装版 系统源码 多多淘宝客 同步包
资源大全_资源下载网站:www.35d.net    本站资源仅限研究学习使用,如需商用请联系版权方,     本站事务联系QQ:939804642