java根据url爬取网页html内的所有链接地址代码
代码语言:java
所属分类:其他
代码描述:java根据url爬取网页html内的所有链接地址代码
下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.net.*;
import java.io.*;
import java.util.regex.*;
public class HelloWorld {
public static void main(String []args) {
Urls myurl=new Urls("<body","/body>");
myurl.getStartUrl("https://ask.bfw.wiki/question-3-0.html");
myurl.getUrlContent();
myurl.getContentArea();
myurl.getStringInUrl("http://www.baidu.com/");
myurl.getStringNotInUrl("google");
myurl.Urls();
}
}
/*
根据指定的规则,经过构造正则表达式获取网址
*/
class Urls
{
pr.........完整代码请登录后点击上方下载按钮下载查看
网友评论0