java根据url爬取网页html内的所有链接地址代码
代码语言:java
所属分类:其他
代码描述:java根据url爬取网页html内的所有链接地址代码
下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; import java.net.*; import java.io.*; import java.util.regex.*; public class HelloWorld { public static void main(String []args) { Urls myurl=new Urls("<body","/body>"); myurl.getStartUrl("https://ask.bfw.wiki/question-3-0.html"); myurl.getUrlContent(); myurl.getContentArea(); myurl.getStringInUrl("http://www.baidu.com/"); myurl.getStringNotInUrl("google"); myurl.Urls(); } } /* 根据指定的规则,经过构造正则表达式获取网址 */ class Urls { pr.........完整代码请登录后点击上方下载按钮下载查看
网友评论0