nodejs根据url爬取网页html并获取所有链接地址代码

代码语言:nodejs

所属分类:其他

代码描述:nodejs根据url爬取网页html并获取所有链接地址代码

代码标签: nodejs 爬取 html 网页 链接 地址

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

var http = require('http');

//定义函数
var getAHref = function(htmlstr) {
    var reg = /<a.+?href=('|")?([^'"]+)('|")?(?:\s+|>)/gim;
    var arr = [];
    while (tem = reg.exec(htmlstr)) {
        arr.push(tem[2]);
    }
    return arr;
}


var qHref = "http://ask.bfw.wiki/question-3-0.html"; //设置被查询的目标网址
var req = http.get(qHref, function(res) {
    var pageData = "&q.........完整代码请登录后点击上方下载按钮下载查看

网友评论0