python BeautifulSoup抓取任意url的文章获取干净的文章正文文本示例代码

代码语言:python

所属分类:web系统

代码描述:python BeautifulSoup抓取任意url的文章获取干净的文章正文文本示例代码

代码标签: python BeautifulSoup 抓取 任意 url 文章 获取 干净 文章 正文 文本

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

import requests
from bs4 import BeautifulSoup

def extract_article_with_beautifulsoup(url):
    try:
        response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
        response.raise_for_status()
        
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # 尝试找到文章的主要内容
        article_content = soup.find('article')
        
        if not article_content:
            # 尝试其他可能的容器
            article_content = soup.find('div', {.........完整代码请登录后点击上方下载按钮下载查看

网友评论0