首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >提取IMDb电影图像

提取IMDb电影图像
EN

Stack Overflow用户
提问于 2021-03-24 08:40:02
回答 1查看 216关注 0票数 0

我目前正在做一个小项目,创建自己的IMDb搜索引擎版本使用推荐系统。我想在我的数据集中有img源代码供以后使用,我在尝试获取src链接时遇到了一些问题。我想要的是所有img src的列表,这样我就可以将其添加到我的数据集上。这就是我到目前为止所拥有的。

代码语言:javascript
复制
images = []
for i in ddf['link']:
    r = requests.get(i)
    soup = BeautifulSoup(r.content, "html.parser")
    link = soup.find(itemprop="image")
    if link is None:
        images.append(np.nan)
    else:
        images.append(link.attrs['src'])

我试着运行了大约5个小时,没有给出任何结果。如果我的代码中有任何错误,或者更好的获取错误的方法,请让我知道。

EN

回答 1

Stack Overflow用户

发布于 2021-03-24 09:12:16

这里有一种方法,假设ddf‘’link‘由电影页面组成(例如,https://www.imdb.com/title/tt0120338/)。

如果电影页面有海报,则抓取该海报,或返回空值。

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup
import numpy as np

images = []
for i in ddf['link']:
    r = requests.get(i)
    soup = BeautifulSoup(r.content, "html.parser")
    try:
      image_url = page_html.find('div', class_='poster').img['src']
    except:
      image_url = np.nan
    images.append(image_url)

如果想要监视这个过程,可以使用print语句并清除输出。

例如,

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup
import numpy as np
from IPython.core.display import clear_output

images = []

for i in ddf['link']:
  r = requests.get(i)
  soup = BeautifulSoup(r.content, "html.parser")
  try:
    image_url = page_html.find('div', class_='poster').img['src']
  except:
    image_url = np.nan
  images.append(image_url)
  print(image_url)
  clear_output(wait=True)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66773196

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档