首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Spark学习技巧

    重要 | mr使用hcatalog读写hive表

    hcatalog帮我们解决了这个问题,有了它我们不用关心hive中数据的存储格式。详细信息请仔细阅读本文。 本文主要是讲mapreduce使用HCatalog读写hive表。 hcatalog使得hive的元数据可以很好的被其它hadoop工具使用,比如pig,mr和hive。 HCatalog的表为用户提供了(HDFS)中数据的关系视图,并确保用户不必担心他们的数据存储在何处或采用何种格式,因此用户无需知道数据是否以RCFile格式存储, 文本文件或sequence 文件。 HCatalog提供HCatInputFormat / HCatOutputFormat,使MapReduce用户能够在Hive的数据仓库中读/写数据。 它允许用户只读取他们需要的表和列的分区。

    1.5K20发布于 2018-08-20
  • 来自专栏扎心了老铁

    Hadoop通过HCatalog编写Mapreduce任务访问hive库中schema数据

    org.apache.hadoop.conf.Configuration; import org.apache.hadoop.util.ToolRunner; import org.apache.hive.hcatalog.mapreduce.HCatInputFormat org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hive.hcatalog.data.HCatRecord ; import org.apache.hive.hcatalog.data.schema.HCatSchema; import org.apache.hive.hcatalog.mapreduce.HCatInputFormat import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hive.hcatalog.data.schema.HCatSchema ; import org.apache.hive.hcatalog.mapreduce.HCatInputFormat; import org.slf4j.Logger; import org.slf4j.LoggerFactory

    1.7K50发布于 2018-03-05
  • 来自专栏大数据成长之路

    运行Sqoop出现hcatalog does not exist!...accumulo does not exist!解决方案

    有一段时间没用sqoop了,今天打开进行测试的时候,发现命令行总是出现下面这样的警示信息: Warning: /opt/module/sqoop/bin/…/…/hcatalog does not exist HCatalog jobs will fail. Please set HCAT_HOME to the root of your HCatalog installation.

    3.3K30发布于 2021-01-27
  • 来自专栏开源心路

    kylin安装---安装系列十一

    hbase+hive+spark基础上搭建 hive 配置环境变量添加如下:/etc/profile和 ~/.bash_profile export HCAT_HOME=$HIVE_HOME/hcatalog HIVE_CONF=$HIVE_HOME/conf export hive_dependency=/itcast/hive/conf:/itcast/hive/lib/*:/itcast/hive/hcatalog /share/hcatalog/hive-hcatalog-pig-adapter-1.1.0-cdh5.5.1.jar:/itcast/hive/hcatalog/share/hcatalog/hive-hcatalog-core -1.1.0-cdh5.5.1.jar:/itcast/hive/hcatalog/share/hcatalog/hive-hcatalog-server-extensions-1.1.0-cdh5.5.1 .jar:/itcast/hive/hcatalog/share/hcatalog/hive-hcatalog-streaming-1.1.0-cdh5.5.1.jar:/itcast/hive/lib

    1.1K20编辑于 2023-06-29
  • 来自专栏大数据学习笔记

    Hadoop基础教程-第13章 源码编译(13.4 Hive2.1.1源码编译)

    SUCCESS [ 20.985 s] [INFO] Hive HCatalog ...................................... SUCCESS [ 48.139 s] [INFO] Hive HCatalog Core ................................. SUCCESS [ 5.561 s] [INFO] Hive HCatalog Pig Adapter .......................... SUCCESS [ 4.961 s] [INFO] Hive HCatalog Server Extensions .................... SUCCESS [ 25.777 s] [INFO] Hive HCatalog Webhcat Java Client ..................

    1.2K90发布于 2018-01-02
  • 来自专栏最新最全的大数据技术体系

    Sqoop Job报错日志

    hcatalog环境变量没配 /export/servers/hive-1.1.0-cdh5.14.0/hcatalog/ export HCAT_HOME=/export/servers/hive-1.1.0 -cdh5.14.0/hcatalog/ export PATH=$PATH:$HCAT_HOME/bin

    88730发布于 2021-04-09
  • 来自专栏Hugo博客

    Sqoop工具导入数据到Hive小记

    经过几番测试后发现,Sqoop默认导入的数据格式为TXTFILE,所以当建表时使用TXTFILE存储格式就能正常的导入数据,但这不是我们所想要的,又查看了一下文档,发现其在1.4.5版本后提供了一个hcatalog dim_calendar --split-by ek_cal_id --compress --fields-terminated-by "," --lines-terminated-by "\n" --hcatalog-database default --hcatalog-table dim_calendar --map-column-hive cal_date=DATE,ts=TIMESTAMP --hcatalog-storage-stanza 如下: 1 2 WARN hcat.SqoopHCatUtilities: Column cal_date had to be cast to a less precise type DATE in hcatalog WARN hcat.SqoopHCatUtilities: Column ts had to be cast to a less precise type TIMESTAMP in hcatalog

    48600编辑于 2024-11-20
  • 来自专栏全栈程序员必看

    第八章:sqoop数据迁移工具

    /hcatalog does not exist! HCatalog jobs will fail. /hcatalog does not exist! HCatalog jobs will fail. /hcatalog does not exist! HCatalog jobs will fail. /hcatalog does not exist! HCatalog jobs will fail. /hcatalog does not exist! HCatalog jobs will fail.

    1.4K30编辑于 2022-08-05
  • 来自专栏Hadoop实操

    Sqoop抽取Hive Parquet表数据到MySQL异常分析

    compute.internal:3306/test_db \ --username testuser \ --password password \ --table mytest_parquet \ --hcatalog-database default \ --hcatalog-table mytest_parquet --num-mappers 1 参数说明: --table:MySQL库中的表名 --hcatalog-database :Hive中的库名 --hcatalog-table:Hive库中的表名,需要抽数的表 --num-mappers:执行作业的Map数 2.修改后执行抽数作业 [6w1zlu101s.jpeg] 作业执行成功 已知的问题,参考SQOOP-2907: https://issues.apache.org/jira/browse/SQOOP-2907 该jira目前并没有修复,如果要实现该功能,需要参考第二章的做法,使用hcatalog

    4.4K80发布于 2018-03-29
  • 来自专栏Hadoop实操

    0659-6.2.0-Hive处理JSON格式数据

    test1 ( one boolean, three array<string>, two double, four string ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe 2.建表并导入数据 CREATE TABLE test2 ( myfield string, ts string) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe 首先使用方式上本文档介绍的JsonSerDe在Hive中建表时的方式是create table xxx(col1 string,col2 string) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe',Apache自带的JsonSerDe这个类在hive-hcatalog-core-2.1.1 .jar中,这个包在CDH的目录/opt/cloudera/parcels/CDH/lib/hive-hcatalog/share/hcatalog/下,在建表时可以直接使用;在功能上经过测试Apache

    4.6K21发布于 2019-06-26
  • 来自专栏开源心路

    开源数据交换(client)

    库名称 hiveTableEmpty 是否清空目标表数据,默认不清空(false) hiveSQL hive sql hiveColumn 起始,目标,元数据的列字段 hMetastoreHost Hcatalog host hMetastorePort Hcatalog port hiveFilter Hcatalog 过滤条件 hivePartition 分区,json ,示例({“time”:“2019”} hiveTableNames 起始源和目标源都是Hive,表名称数组 hiveDatabases 起始源和目标源都是Hive,库名称数组 hMetastoreHosts 起始源和目标源都是Hive,Hcatalog host数组 hMetastorePorts 起始源和目标源都是Hive,Hcatalog port数组 Mysql 参数 含义 url jdbc url tableName 表名称 username 7.推荐HCatalog。 8.Hive jdbc 性能不好,不建议用java引擎,用Spark/Flink。

    93120编辑于 2023-06-30
  • 来自专栏Hadoop实操

    0507-Hive查询json格式表执行MapReduce任务错误问题分析和解决

    2、问题原因 对json格式的表执行查询时,若需要对该表的json文件进行解析,则需要依赖类org.apache.hive.hcatalog.data.JsonSerDe;查询全表时,不需要对进行解析, ", teacher map<string,string> comment "授课老师信息" ) comment "学生课程信息" row format serde 'org.apache.hive.hcatalog.data.JsonSerDe 4 问题解决 1、方法一:在每个节点创建软链接 ln -s /opt/cloudera/parcels/CDH/jars/hive-hcatalog-core-1.1.0-cdh5.13.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn/lib/hive-hcatalog-core-1.1.0-cdh5.13.1.jar 此方法需要在每个nodemanager

    1.2K10发布于 2019-11-28
  • 来自专栏软件开发-青出于蓝

    Hadoop之check the logs or run fsck in order to identify the missing blocks

    2a7f098ecb5a/hive-exec-2.1.1.jar blk_1073857295 /tmp/xxx/b9a11fe8-306a-42cc-b49f-2a7f098ecb5a/hive- hcatalog-core /tmp/xxx/b9a11fe8-306a-42cc-b49f-2a7f098ecb5a/hive-hcatalog-core-3.0.0.jar: CORRUPT blockpool BP-604784226 -10.42.1.102-1577681916881 block blk_1073857295 /tmp/xxx/b9a11fe8-306a-42cc-b49f-2a7f098ecb5a/hive-hcatalog-core

    2.7K30发布于 2020-03-26
  • 来自专栏大数据生态

    「EMR 开发指南」之 Sqoop 常见问题处理

    import --connect jdbc:mysql://172.0.0.1:3306/dy \--username root --password XXX \--table test \--create-hcatalog-table \--hcatalog-database dy \--hcatalog-table test_orc \--hcatalog-storage-stanza "stored as orcfile location 'cosn://sqoop-dy-1258469122/hive/warehouse/test_orc'" \-m 1参数详解:--create-hcatalog-table:orc表如果不存在,即创建 ;--hcatalog-storage-stanza:orc表存储参数,这里指定了存储格式为orc,指定了warehouse路径为cos路径。 注:由于orc表不同于普通hive表,orc表只能用hcatalog参数。

    1.4K40编辑于 2024-03-01
  • 来自专栏实时计算

    Atlas 2.1.0 实践(3)—— Atlas集成HIve

    then export HIVE_AUX_JARS_PATH=${HIVE_AUX_JARS_PATH} elif [ -d "/usr/hdp/current/hive-webhcat/share/hcatalog " ]; then export HIVE_AUX_JARS_PATH=/usr/hdp/current/hive-webhcat/share/hcatalog fi 如果给HIVE_AUX_JARS_PATH 设值,则/usr/hdp/current/hive-webhcat/share/hcatalog就会被忽略掉。 hive只能读取一个HIVE_AUX_JARS_PATH 在一个地方集中放置我们的共享jar包,然后在/usr/hdp/current/hive-webhcat/share/hcatalog下面建立一相应的软连接就可以 hive ln -s /usr/lib/share-lib/elasticsearch-hadoop-2.1.0.Beta4.jar /usr/hdp/current/hive-webhcat/share/hcatalog

    2K20发布于 2021-01-29
  • 来自专栏岑玉海

    ambari删除脚本

    oozie-client.noarch yum remove -y gweb.noarch yum remove -y snappy-devel.x86_64 yum remove -y hcatalog.noarch hbase-conf rm -rf hadoop-log rm -rf hadoop-lib rm -rf hadoop-default rm -rf oozie-conf rm -rf hcatalog-conf userdel sqoop userdel puppet #5.删除文件夹 rm -rf /hadoop rm -rf /etc/hadoop rm -rf /etc/hbase rm -rf /etc/hcatalog log/oozie rm -rf /var/log/zookeeper rm -rf /usr/lib/hadoop rm -rf /usr/lib/hbase rm -rf /usr/lib/hcatalog

    1.4K80发布于 2018-03-01
  • 来自专栏Java成神之路

    kylin_异常_02_java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf 解决办法

    /developer/apache-hive-1.1.0-bin export HIVE_CONF_DIR=${HIVE_HOME}/conf export HCAT_HOME=$HIVE_HOME/hcatalog developer/apache-kylin-2.3.0-bin export hive_dependency=$HIVE_HOME/conf:$HIVE_HOME/lib/*:$HCAT_HOME/share/hcatalog /hive-hcatalog-core-1.1.0.jar #Path # 1. big data export PATH=$KYLIN_HOME/bin:$PATH export PATH=$HIVE_HOME

    3K20发布于 2018-08-10
  • 来自专栏Hadoop实操

    在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析

    compute.internal:3306/test_db \ --username testuser \ --password password \ --table mytest_parquet \ --hcatalog-database default \ --hcatalog-table mytest_parquet --num-mappers 1 异常信息如下,提示:代码块部分可以左右滑动查看噢 2017-12-28 11:17: compute.internal:3306/test_db \ --username testuser \ --password password \ --table mytest_parquet \ --hcatalog-database default \ --hcatalog-table mytest_parquet \ --num-mappers 1 [fi16rjy8oa.jpeg] 创建Ssh Action的Oozie

    2.4K40发布于 2018-03-29
  • 来自专栏迁移内容

    通过Flume简单实现Kafka与Hive对接(Json格式)

    三者之间的关系 a.sources.source_from_kafka.channels=mem_channel a.sinks.hive_sink.channel=mem_channel 5、将/hive/hcatalog /share/hcatalog/hive-hcatalog-streaming-x.x.x.jar拷贝到/flume/lib/下 此外还需要注意/hive/lib/guava-xx.x-jre.jar下与

    1.2K41编辑于 2022-12-01
  • 来自专栏加米谷大数据

    容易搞混大数据分析学习的工具

    HCatalog HCatalog允许用户查看存储在所有Hadoop集群中的数据,甚至允许用户使用像Hive和Pig这样的工具进行数据处理,而不必知道数据集在哪里。 HCatalog是元数据管理工具,也是Apache Hadoop的共享服务。 Oozie Oozie是最好的工作流处理系统之一,它允许您定义跨多种语言编写或编程的各种作业。

    86520发布于 2019-01-09
领券