【进化版】不管[古力娜扎]还是[迪丽热巴],用JFinal美女图爬虫谁都可以抓

去年,小木做了几个JFinal项目,大量使用了Java爬虫去全网抓取数据,清洗筛选后入库,成为本地结构化数据。

jfinalmeinvtu001.jpg


之前听过一句话,大体意思就是

我们所能访问的网页本身就是一个数据宝藏,天然的对外数据接口。


只要我们能拿到网页的Html代码,就可以拿到网站的公开数据。


最近,看社区里小伙伴对JFinal+JSoup做爬虫很赶兴趣,所以,又将JFinal美女图爬虫做了"正儿八经"的升级


到现在为止,不管是古力娜扎还是迪丽热巴,不管是柳岩还是杨幂,照抓不误。

jfinalmeinvtu002.jpg

【雷达启动,正在扫描】


image.png

【可以快速添加明星】


jfinalmeinvtu003.jpg

【个人相册主页】


jfinalmeinvtu004.jpg


【相册里的照片】

艺术爬虫3.jpg


【点一张出来幻灯片】


jfinalmeinvtu005.jpg

【大图单页】


image.png


代码使用j技术

JFinal3.7

JFinal Undertow 1.6

Bootstrap4.3

JQuery

Layer

JSoup

Mysql

Jbolt


利用JSoup针对直接加载显示数据的网页,也可以轻松拿到Html代码,后面的操作类似JQuery的API,有这类似的DOM操作形式。


还可以扩展爬虫的能力,分布式,多线程,异步,定时任务执行,总之,了解和核心使用方法,剩下的都是怎么玩儿的事儿了!


代码获取方式:


扫码识别

关注JFinal学院公众号

回复:“爬虫”两个字

image.png


评论区

山东小木

2019-03-22 08:40

其实加个胡歌 黄晓明 也能抓

zhangchuang

2019-03-22 08:47

无聊,低俗,逼格低,哼!

山东小木

2019-03-22 08:49

@zhangchuang 这是一个很正经的技术爬虫 请不要带着有色眼镜看它 (#^.^#)

一群老母猪君

2019-03-23 12:24

原来是打广告的

山东小木

2019-03-23 12:53

@一群老母猪君 是的 公众号里有教程和资源 关注有惊喜

山东小木

2019-03-23 12:53

@一群老母猪君 代码在公众号里获取

getthem

2019-03-24 23:27

这个如何运行啊?

xxxxxlz_2018

2019-03-25 16:00

话说究竟怎么跑起来啊

山东小木

2019-03-25 18:26

@getthem @xxxxxlz_2018 下载源码导入ide 跟正常jfinal一样启动运行就可以啊
这个是基于jfinal undertow mainconfig.java右键运行即可 也可以下载jbolt.插件 右键一键运行

getthem

2019-03-26 11:42

@山东小木 run as-jfinal java application出现jbolt.properties not exist错误,另一台电脑上这样运行成功

山东小木

2019-03-26 16:07

@getthem 有个._jbolt.properties 文件在目录下 win系统应该没问题 mac上出现过 可能导入的时候没有识别这个文件 找到压缩包里的这个文件 复制进去

JxLoading

2019-06-10 17:22

WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by net.sf.cglib.core.ReflectUtils$1 (file:/C:/Users/Administrator/.m2/repository/cglib/cglib-nodep/3.2.5/cglib-nodep-3.2.5.jar) to method java.lang.ClassLoader.defineClass(java.lang.String,byte[],int,int,java.security.ProtectionDomain)
WARNING: Please consider reporting this to the maintainers of net.sf.cglib.core.ReflectUtils$1
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
@山东小木 老师 这个是什么问题

JxLoading

2019-06-10 18:03

刚才的问题解决了,但是爬不出东西

GSir

2019-12-27 11:16

能爬Js动态生成的页面吗?

山东小木

2019-12-27 11:23

@GSir 需要增加内存浏览器模拟

阿帕奇

2020-03-19 18:19

@山东小木 如果目标网站加了Ddos后,有没有办法抓?

山东小木

2020-03-19 19:05

@阿帕奇 总有模拟的越来越像真人的 道高一尺 魔高一丈 要不那些xx查的数据公司哪来的数据

热门分享

扫码入社