java根据url爬取网页html内的所有链接地址代码

代码语言:java

所属分类:其他

代码描述:java根据url爬取网页html内的所有链接地址代码

代码标签: java 爬虫 采集 网页 html 链接

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;



import java.net.*;
import java.io.*;
import java.util.regex.*;
public class HelloWorld {
    public static void main(String []args) {
         Urls myurl=new Urls("<body","/body>");
         myurl.getStartUrl("https://ask.bfw.wiki/question-3-0.html");
         myurl.getUrlContent();
         myurl.getContentArea();
         myurl.getStringInUrl("http://www.baidu.com/");
         myurl.getStringNotInUrl("google");
         myurl.Urls();
    }
}


/*
根据指定的规则,经过构造正则表达式获取网址
*/

 class  Urls
 {
    pr.........完整代码请登录后点击上方下载按钮下载查看

网友评论0