首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏python3

    beautiful soup爬虫初识

    Beautiful Soup的安装,简称bs4 pip3 install bs4 bs4解析器选择 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, "html.parser ul的标签内容 print(soup.ul) print('\n') # 使用bs4过滤器soup.find()的方法获取第一次出现的标签内容 print(soup.find('ul')) print ('\n') # 使用soup.find_all方法获取所有符合条件的标签列表,然后从列表中读取就行了 print(soup.find_all('ul'))  # 获取所有ul中所有内容 print( '\n') print(soup.find_all('ul')[0])  # 获取第一个ul中的所有内容 print('\n') print(soup.find_all('ul')[1])  # 获取第二个 soup.find_all(TagName,attr={'attName':'attValue'})将符合条件的内容全部放到列表里面 # 找a标签,class='price'的第一个内容 print(soup.find_all

    1K40发布于 2018-08-03
  • 来自专栏小麦苗的DB宝专栏

    Beautiful Soup (一)

    今天小婷儿给大家分享的是Beautiful Soup (一)。 Beautiful Soup (一) 一、Beautiful Soup库的理解 1、Beautiful Soup库可以说是对HTML进行解析、遍历、维护“标签树”的功能库 2、pip install bs4 7、soup.li.string #获得a标签内非属性字符串(NavigableString )注意: soup = BeautifulSoup(data,'lxml') t = soup.li.string t = soup.ul.find_all(text=True) print(type(t),t) t = soup.ul(text=True) print(type(t),t) soup.find_all 9)soup.ul.find_all soup.ul.find_all(text=True) #只有内容的列表 soup.ul.find_all() #带有li标签的列表 soup.find_all("

    1.1K30发布于 2019-09-29
  • 来自专栏祥的专栏

    安装Beautiful Soup

    Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。

    33120发布于 2020-03-10
  • 来自专栏Dimples开发记

    数据提取-Beautiful Soup

    Beautiful Soup的简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 Beautiful Soup 安装 Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import --没用-->

    # 4.1.1 获取标签 #以lxml方式解析 soup = BeautifulSoup(info, 'lxml') print(soup.title) ' float='left' #获取单个属性的值 print(soup.div.get('class')) print(soup.div['class']) print(soup.a['href']) ,但是如果不好好处理它,可能会对我们的文本处理造成意想不到的麻烦 if type(soup.strong.string)==Comment: print(soup.strong.prettify

    2K10编辑于 2022-12-21
  • 来自专栏Golang开发

    Python爬虫——Beautiful Soup

    Beautiful Soup Beautiful Soup是Python处理HTML或XML的解析库,使用Beautiful Soup需要安装Beautiful Soup库和lxml的库 Beautiful Soup官方下载地址 ? image.png Beautiful Soup的安装方式 pip install beautifulsoup4 from bs4 import BeautifulSoup soup = BeautifulSoup = BeautifulSoup(html,'lxml') print(soup.p.attrs) print(soup.p.attrs['name']) 获取内容 string获取节点的文本内容 from = BeautifulSoup(html,'lxml') print(soup.p.string) print(soup.head.string) find_all 通过节点查找内容 from bs4

    75620发布于 2019-05-28
  • 来自专栏Hank’s Blog

    7.01-beautiful_soup

    """ # 1.转类型 # 默认bs4会 调用你系统中lxml的解析库 警告提示 # 主动设置 bs4的解析库 soup = BeautifulSoup(html_doc, 'lxml') # 2.格式化输出 补全 result = soup.prettify() print(result)

    35210发布于 2020-09-17
  • 来自专栏Python技术专栏

    Beautiful Soup库解读

    Beautiful Soup简介Beautiful Soup是一个用于解析HTML和XML文档的库,它能够构建解析树,使得用户可以方便地浏览文档的结构。 1.1 安装Beautiful Soup首先,你需要安装Beautiful Soup库。 基本用法2.1 创建Beautiful Soup对象要使用Beautiful Soup解析文档,首先需要创建一个Beautiful Soup对象。 soup.body: 获取文档的主体。soup.p: 获取第一个段落元素。 pythonCopy codeprint(soup.title)print(soup.body)print(soup.p)2.3 搜索元素Beautiful Soup提供了多种方法来搜索文档中的元素,最常用的是

    5.4K00编辑于 2024-01-30
  • 来自专栏mythsman的个人博客

    Beautiful Soup库的基本介绍

    现在的beautiful soup库已经是第4.2版本了,所以我们通常叫他bs4。bs4作为一个库,其实是有很多的用法的。

    """ from bs4 import BeautifulSoup #导入模块 soup = BeautifulSoup(html_doc,“lxml”) #生成对象soup(这里不加第二个参数有时候会报 # <title>The Dormouse's story</title> print soup.title.name # u'title' print soup.title.string # u'The Dormouse's story' print soup.title.parent.name # u'head' print soup.p #

    < b>The Dormouse's story

    print soup.p['class'] # u'title' print soup.a # <a class="sister" href

    50510编辑于 2022-11-14
  • 来自专栏Hank’s Blog

    7.01-beautiful_soup2

    """ # 1.转类型 bs4.BeautifulSoup' soup = BeautifulSoup(html_doc, 'lxml') # print(type(soup)) # 解析数据 # Tag 标签对象 bs4.element.Tag' result = soup.head # 注释的内容 类型 'bs4.element.Comment' result = soup.p.string print(type(result)) result = soup.a # 内容 Navigablestring 'bs4.element.NavigableString result = soup.a.string # 属性 result = soup.a['href']

    42420发布于 2020-09-17
  • 来自专栏Hank’s Blog

    7.01-beautiful_soup3

    第一个标签对象 result = soup.find(name="p") result = soup.find(attrs={"class": "title"}) result = soup.find ) result = soup.find_all('a') result = soup.find_all("a", limit=1)[0] result = soup.find_all(attrs={" result = soup.select('.sister') result = soup.select('#one') result = soup.select('head title') result = soup.select('title,.title') result = soup.select('a[id="link3"]') # 标签包裹的内容---list result = soup.select ('.title')[0].get_text() # 标签的属性 # result = soup.select('#link1')[0].get('href') print(result)

    45120发布于 2020-09-17
  • 来自专栏乐百川的学习频道

    使用 Beautiful Soup 解析网页内容

    安装Beautiful Soup Beautiful Soup是一个Python的HTML解析框架,我们可以利用它方便的处理HTML和XML文档。 Beautiful Soup有3和4两个版本,目前3已经停止开发。所以我们当然还是学习最新的Beautiful Soup 4. 首先第一件事情就是利用pip安装Beautiful Soup。 pip install beautifulsoup4 稍等片刻之后Beautiful Soup就安装好了。这样,我们就可以开始使用它了。 如果需要详细文档的话可以参考Beautiful Soup中文文档,这是难得的不是机翻的文档。 解析文档 获取文档 Beautiful Soup只是一个HTML解析库,所以我们如果想解析网上的内容,第一件事情就是把它下载下来。对于不同的网站,可能会对请求进行过滤。

    3.8K90发布于 2018-01-08
  • 来自专栏Python爬虫逆向教程

    Python爬虫 Beautiful Soup库详解

    列出了 Beautiful Soup 支持的解析器。 (soup.title)) print(soup.title.string) print(soup.head) print(soup.p) 运行结果: <title>The Dormouse's story = BeautifulSoup(html, 'lxml') print(soup.head.title) print(type(soup.head.title)) print(soup.head.title.string ) print(soup.a.next_sibling.string) print('Parent:') print(type(soup.a.parents)) print(list(soup.a.parents = BeautifulSoup(html, 'lxml') print(soup.find(name='ul')) print(type(soup.find(name='ul'))) print(soup.find

    86510编辑于 2024-02-08
  • 来自专栏极客猴

    内容提取神器 beautiful Soup 的用法

    1 BeautifulSoup 简介 引用 BeautifulSoup 官网的说明: Beautiful Soup is a Python library for pulling data out of soup.prettify()函数的作用是打印整个 html 文件的 dom 树,例如上面执行结果如下: ? 不过也有特殊的,soup 对象的 name 是 [document] ? attrs attrs 属性是 Tag 对象所包含的属性值,它是一个字典类型。 ?

    1.8K30发布于 2018-08-16
  • 来自专栏企鹅号快讯

    网页解析之Beautiful Soup库运用

    今日分享:Beautiful Soup库简单应用 一句话来理解 Beautiful Soup库就是:它是解析遍历维护标签树的功能库。 #以上的这一句代码就是运用BeautifulSoup类了,括号中的 html 是要解析的对象,不难看出其就是response响应的文本内容,而括号中的 html.parser 是Beautiful Soup 库中自带的解析html的方法工具,上面代码中的soup(大神都称它为美丽汤)其实质也就是源代码,即源代码==标签树==美丽汤。 以上是BeautifulSoup类的引用;同时呢Beautiful Soup库也包含以下一些基本元素:Tag 标签,最基本的信息组织单元,分别用和标明开头和结尾;Name 标签的名字, … 的名字是'p 小技巧补充: 如果运行了以上的 soup ,你会发现输出的内容非常混乱,小编要说的是bs4中的一个方法,它能够让代码友好的输出,对标签树的包含关系一目了然 >>> print(soup.prettify

    1.8K70发布于 2018-02-05
  • 来自专栏前端数据可视化

    『Python工具篇』Beautiful Soup 解析网页内容

    我也会以前端的角度去讲解 Beautiful Soup。 ) print(soup.li.text) 此时打印的内容是"雷猴"。 # 省略部分代码 print(soup.a.attrs['href']) print(soup.a.attrs['id']) print(soup.a.attrs['class']) 输出: https ') print(soup.ol.li) 输出结果:

  • 鲨鱼辣椒
  • 通过 soup.ol.li 选择了
      里面的
    1. 。 : {soup.h3.previous_sibling}") print(f"next siblings: {list(enumerate(soup.h3.next_siblings))}") print

    1.7K10编辑于 2024-04-11
  • 来自专栏GopherCoder

    专栏:005:Beautiful Soup 的使用

    """ Soup = BeautifulSoup(html_doc,'lxml',from_encoding='utf-8') # 规格化输出:带缩进的输出 print(Soup.prettify ()) # 还是上面的文本 Soup = BeautifulSoup(html_doc, 'lxml', from_encoding='utf-8') # 获取标签、标签名字,标签内容 print(Soup.title ) # 输出:<title>The Dormouse's story</title> print(Soup.title.name) # 输出:title print(Soup.title.string) # 输出:The Dormouse's story # 获取属性 print(Soup.p["class"]) # 输出:['title'] # 获取特定的全部标签 print(Soup.find_all ('a')) # 返回一个list print(Soup.a) print(Soup.find_all('a')) # output <a class="sister" href="http://example.com

    1K30发布于 2018-06-06
  • 来自专栏数据STUDIO

    网络爬虫 | Beautiful Soup解析数据模块

    """ soup = BeautifulSoup(html,features='lxml')#对html进行解析,完成初始化 print(soup.prettify())#字符串按标准缩进格式输出

    >>> soup.p.name #节点的名字 'p' >>> soup.title.name # 节点的名字 'title' >>> soup.p.attrs ' >>> soup.p['name'] # 获得属性值,"attrs"可以省略 'dromouse' >>> soup.body.p.b # 通过"." >>> soup.p.next_sibling '\n' >>> p = soup.p.next_sibling.next_sibling >>> p

    soup.select('p')[0].attrs['value'] 获取所有p节点中第一个节点内value属性对应的值(两种方式) soup.select('p')[0].get_text()soup.select

    96450发布于 2021-06-24
  • 来自专栏机器学习/数据可视化

    一文入门Beautiful Soup4

    一文入门Beautiful Soup4 本文中主要介绍的BeautifulSoup4,从简介、安装、解析器使用、语法介绍、遍历文档树、搜索文档树等进行了介绍,能够快速地入门。 官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。 你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

    1.6K21发布于 2020-10-30
  • 来自专栏数据云团

    Python-数据解析-Beautiful Soup-下

    Python-数据解析-Beautiful Soup-中 ? # 查找标签 soup.select("title") ② 通过类名查找 写 CSS 时,需要在类名的前面加上 “.”。 # 查找类名为 active 的标签 soup.select(".active") ③ 通过 id 名查找 在写 CSS 时,需要在 id 名称的前面加上 “#”。 # 在 标签 p 中,查找 id 值等于 sumbit 的内容 soup.select("p #sumbit") 可以使用 “>” 将标签与子标签分隔,从而找到某个标签下的直接子标签。 soup = BeautifulSoup(html_doc, 'lxml') # 获取节点的内容 for element in soup.select("a"): print(element.get_text

    80930发布于 2019-07-18
  • 来自专栏数据云团

    Python-数据解析-Beautiful Soup-上

    # 根据字符串 html_doc 创建一个 BeautifulSoup 对象 from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc, '

    98320发布于 2019-07-18
  • 第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页
    点击加载更多
    领券