stackoveflow是个新手,所以我用漂亮的汤从“techcrunch.com”上的一篇文章中提取数据,用于一些独立的研究。我似乎很容易地提取了大部分数据,但在试图从社交网络图标上方的小气泡中获取数据时遇到了麻烦,这些气泡描绘了这篇文章在该媒体上的分享数量。
不管任何社交网络分享了多少,返回给我的....the值都是0。
from BeautifulSoup import BeautifulSoup
import urllib2
url="http://techcrunch.com/2015/10/11/the-other-ag-sector-problem-that-big-data-can-solve/"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
data=soup.find('div',{'class':'bubble total-facebook'})
print data.text结果是cmd -0(但facebook上的当前共享是171)...please帮助!
发布于 2015-10-14 15:37:02
这是因为这个数字是由Javascript动态加载的。如果你在浏览器中查看页面源代码,你会看到“气泡总数”类的div -facebook实际上保存了一个文本"0",这也是BeautifulSoup看到的。
支持javascript的无头浏览器可能会有所帮助。我想你可以参考这个问题:
https://stackoverflow.com/questions/33078762
复制相似问题