文章/答案/技术大牛

发布

问提取IMDb电影图像
EN

Stack Overflow用户

提问于 2021-03-24 08:40:02

回答 1查看 216关注 0票数 0

我目前正在做一个小项目，创建自己的IMDb搜索引擎版本使用推荐系统。我想在我的数据集中有img源代码供以后使用，我在尝试获取src链接时遇到了一些问题。我想要的是所有img src的列表，这样我就可以将其添加到我的数据集上。这就是我到目前为止所拥有的。

images = []
for i in ddf['link']:
    r = requests.get(i)
    soup = BeautifulSoup(r.content, "html.parser")
    link = soup.find(itemprop="image")
    if link is None:
        images.append(np.nan)
    else:
        images.append(link.attrs['src'])

我试着运行了大约5个小时，没有给出任何结果。如果我的代码中有任何错误，或者更好的获取错误的方法，请让我知道。

python

web-scraping

beautifulsoup

回答 1

Stack Overflow用户

发布于 2021-03-24 09:12:16

这里有一种方法，假设ddf‘’link‘由电影页面组成(例如，https://www.imdb.com/title/tt0120338/)。

如果电影页面有海报，则抓取该海报，或返回空值。

import requests
from bs4 import BeautifulSoup
import numpy as np

images = []
for i in ddf['link']:
    r = requests.get(i)
    soup = BeautifulSoup(r.content, "html.parser")
    try:
      image_url = page_html.find('div', class_='poster').img['src']
    except:
      image_url = np.nan
    images.append(image_url)

如果想要监视这个过程，可以使用print语句并清除输出。

例如，

import requests
from bs4 import BeautifulSoup
import numpy as np
from IPython.core.display import clear_output

images = []

for i in ddf['link']:
  r = requests.get(i)
  soup = BeautifulSoup(r.content, "html.parser")
  try:
    image_url = page_html.find('div', class_='poster').img['src']
  except:
    image_url = np.nan
  images.append(image_url)
  print(image_url)
  clear_output(wait=True)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66773196

复制

相似问题

问提取IMDb电影图像
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问提取IMDb电影图像EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问提取IMDb电影图像
EN