我需要导入维基百科转储(mysql表,解压的文件需要大约50 to )到Hadoop(hbase)。现在,我首先将dump加载到mysql中,然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间--大约4-7天。是否可以将mysql转储直接加载到hadoop中(通过转储文件解析器或其他类似工具)?
问题1:例如,我有一个html文档,只有一个元素<p id="1"> </p> iside <body></body>。当浏览器对html文档进行分析时,它开始在BOM树中构建DOM树,并且我的段落元素被转换成一个p对象,该对象被放置在DOM树的确定位置--window.document.lastChild(I havegot the html object).lastChile(I have got the html object).