首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >xml文件中不相关的损坏记录,同时将其读取为spark DF

xml文件中不相关的损坏记录,同时将其读取为spark DF
EN

Stack Overflow用户
提问于 2020-08-21 18:06:55
回答 1查看 199关注 0票数 0

我正在尝试在spark中将xml文件读取为DF。

XML文件:

代码语言:javascript
复制
<cool>
<incollection mdate="2002-01-03" key="books/acm/kim95/Blakeley95">
<author>Jos&eacute; A. Blakeley</author>
<title>OQL[C++]: Extending C++ with an Object Query Capability.</title>
<pages>69-88</pages>
<booktitle>Modern Database Systems</booktitle>
<url>db/books/collections/kim95.html#Blakeley95</url>
<year>1995</year>
</incollection>
</cool>

代码:

代码语言:javascript
复制
val corrupt_records_handled_DF=spark.read.format("xml").option("rootTag","cool").option("rowTag","incollection").load("/usr/local/inputs/temp.xml")

我把它当做腐败记录。

Spark版本: 2.4.6包: com.databricks:spark-xml_2.11:0.9.0

输出:

代码语言:javascript
复制
scala> val corrupt_records_handled_DF=spark.read.format("xml").option("rootTag","cool").option("rowTag","incollection").load("/usr/local/inputs/temp.xml")
corrupt_records_handled_DF: org.apache.spark.sql.DataFrame = [_corrupt_record: string]

+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|_corrupt_record                                                                                                                                                                                                                                                                                                                                |
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|<incollection mdate="2002-01-03" key="books/acm/kim95/Blakeley95">
<author>Jos&eacute; A. Blakeley</author>
<title>OQL[C++]: Extending C++ with an Object Query Capability.</title>
<pages>69-88</pages>
<booktitle>Modern Database Systems</booktitle>
<url>db/books/collections/kim95.html#Blakeley95</url>
<year>1995</year>
</incollection>|
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

你们能帮我吗?

EN

回答 1

Stack Overflow用户

发布于 2021-07-17 02:44:46

您的问题就在这里。在xml文件中,对于空节点,您必须写入或注意,在IntelliJ中,当您打开此xml文件时,可以用红色突出显示此错误。

赫查姆

票数 -2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63520789

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档