python多线程同步并发获取多个url文章的干净文本正文示例代码

代码语言:python

所属分类:web系统

代码描述:python多线程同步并发获取多个url文章的干净文本正文示例代码,不采用串行方式,并行多线程成同步请求,速度快,最后汇总返回结果。

代码标签: python 多线程 同步 并发 获取 多个 url 文章 干净 文本 正文 示例 代码

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

import concurrent.futures
import requests
from bs4 import BeautifulSoup


#获取干净的正文文本
def extract_article_with_beautifulsoup(url):
    try:
        response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
        response.raise_for_status()
        
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # 尝试找到文章的主要内容
        article_content = soup.find('article')
        
        if not article_content:
            # 尝试其他可能的容器
            article_content = soup.find('div', {'class': 'post-content'}) or soup.find('div', {'class': 'content'})

        return article_content.get_text(strip=True) if article_content else "Article content not found"
    except requests.exceptions.RequestException as e:
        return f"Request error: {str(e)}"

# 定义一个函数来请求单个 URL 并返回内容
def fetch_url(url):
    try:
        respon.........完整代码请登录后点击上方下载按钮下载查看

网友评论0