python多线程同步并发获取多个url文章的干净文本正文示例代码
代码语言:python
所属分类:web系统
代码描述:python多线程同步并发获取多个url文章的干净文本正文示例代码,不采用串行方式,并行多线程成同步请求,速度快,最后汇总返回结果。
代码标签: python 多线程 同步 并发 获取 多个 url 文章 干净 文本 正文 示例 代码
下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开
import concurrent.futures import requests from bs4 import BeautifulSoup #获取干净的正文文本 def extract_article_with_beautifulsoup(url): try: response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) response.raise_for_status() soup = BeautifulSoup(response.content, 'html.parser') # 尝试找到文章的主要内容 article_content = soup.find('article') if not article_content: # 尝试其他可能的容器 article_content = soup.find('div', {'class': 'post-content'}) or soup.find('div', {'class': 'content'}) return article_content.get_text(strip=True) if article_content else "Article content not found" except requests.exceptions.RequestException as e: return f"Request error: {str(e)}" # 定义一个函数来请求单个 URL 并返回内容 def fetch_url(url): try: respon.........完整代码请登录后点击上方下载按钮下载查看
网友评论0