我目前正在做一个小项目,创建自己的IMDb搜索引擎版本使用推荐系统。我想在我的数据集中有img源代码供以后使用,我在尝试获取src链接时遇到了一些问题。我想要的是所有img src的列表,这样我就可以将其添加到我的数据集上。这就是我到目前为止所拥有的。
images = []
for i in ddf['link']:
r = requests.get(i)
soup = BeautifulSoup(r.content, "html.parser")
link = soup.find(itemprop="image")
if link is None:
images.append(np.nan)
else:
images.append(link.attrs['src'])我试着运行了大约5个小时,没有给出任何结果。如果我的代码中有任何错误,或者更好的获取错误的方法,请让我知道。
发布于 2021-03-24 09:12:16
这里有一种方法,假设ddf‘’link‘由电影页面组成(例如,https://www.imdb.com/title/tt0120338/)。
如果电影页面有海报,则抓取该海报,或返回空值。
import requests
from bs4 import BeautifulSoup
import numpy as np
images = []
for i in ddf['link']:
r = requests.get(i)
soup = BeautifulSoup(r.content, "html.parser")
try:
image_url = page_html.find('div', class_='poster').img['src']
except:
image_url = np.nan
images.append(image_url)如果想要监视这个过程,可以使用print语句并清除输出。
例如,
import requests
from bs4 import BeautifulSoup
import numpy as np
from IPython.core.display import clear_output
images = []
for i in ddf['link']:
r = requests.get(i)
soup = BeautifulSoup(r.content, "html.parser")
try:
image_url = page_html.find('div', class_='poster').img['src']
except:
image_url = np.nan
images.append(image_url)
print(image_url)
clear_output(wait=True)https://stackoverflow.com/questions/66773196
复制相似问题