我有以下网页网页的源代码,我正试图从
<span class="reviewCount">
<a href="...Reviews-WHATIWANT-City..." target="_blank" onclick="XX;">1,361 reviews</a>
</span>编辑(用漂亮的汤):
为了提取这些信息,我使用漂亮的汤解析数据。我使用以下代码:
spans = soup.findAll('span', attrs={"class":u"reviewCount"})
for span in spans:
a = span.find('a')
print re.search('(?<=Reviews-)(.*?)(?=-City)', a.get('href'))但我得到了这个信息
<_sre.SRE_Match object at 0x7f84fce05300>
<_sre.SRE_Match object at 0x7f84fce05300>
<_sre.SRE_Match object at 0x7f84fce05300>
<_sre.SRE_Match object at 0x7f84fce05300>而不是“Reviews”和"-City“之间的字节。有人能帮我找到正确的语法吗?谢谢。
发布于 2016-01-08 17:24:59
re.search()返回一个“匹配”对象。如果有匹配,则需要获取保存组值:
spans = soup.find_all('span', attrs={"class":u"reviewCount"})
for span in spans:
a = span.find('a')
match = re.search(r'Reviews\-(.*?)\-City', a.get('href'))
if match:
print(match.group(1))https://stackoverflow.com/questions/34660281
复制相似问题