去年,小木做了几个JFinal项目,大量使用了Java爬虫去全网抓取数据,清洗筛选后入库,成为本地结构化数据。
之前听过一句话,大体意思就是
我们所能访问的网页本身就是一个数据宝藏,天然的对外数据接口。
只要我们能拿到网页的Html代码,就可以拿到网站的公开数据。
最近,看社区里小伙伴对JFinal+JSoup做爬虫很赶兴趣,所以,又将JFinal美女图爬虫做了"正儿八经"的升级
到现在为止,不管是古力娜扎还是迪丽热巴,不管是柳岩还是杨幂,照抓不误。
【雷达启动,正在扫描】
【可以快速添加明星】
【个人相册主页】
【相册里的照片】
【点一张出来幻灯片】
【大图单页】
代码使用j技术
JFinal3.7
JFinal Undertow 1.6
Bootstrap4.3
JQuery
Layer
JSoup
Mysql
Jbolt
利用JSoup针对直接加载显示数据的网页,也可以轻松拿到Html代码,后面的操作类似JQuery的API,有这类似的DOM操作形式。
还可以扩展爬虫的能力,分布式,多线程,异步,定时任务执行,总之,了解和核心使用方法,剩下的都是怎么玩儿的事儿了!
代码获取方式:
扫码识别
关注JFinal学院公众号
回复:“爬虫”两个字