这是我的表格:
create table test (
id string,
name string,
age string,
modified string)这是我的数据:
id name age modifed
1 a 10 2011-11-11 11:11:11
1 a 11 2012-11-11 12:00:00
2 b 20 2012-12-10 10:11:12
2 b 20 2012-12-10 10:11:12
2 b 20 2012-12-12 10:11:12
2 b 20 2012-12-15 10:11:12我想要获得最新的记录(包括每一列的id,name,age,modified)按id分组,如上面的数据,正确的结果是:
1 a 11 2012-11-11 12:00:00
2 b 20 2012-12-15 10:11:12我在配置单元中使用下面的查询,它在sql http://sqlfiddle.com/#!2/bfbd5/42中工作正常,但在配置单元中却不能正常工作。
select * from test where (id, modified) in(select id, max(modified) from test group by id)我使用的是0.13版本的hive。
发布于 2015-07-24 05:43:35
配置单元仅允许在IN子查询中有一列。尝试左半联接:
SELECT *
FROM test a
LEFT SEMI JOIN
(select id, max(modified) as modified from test) b
ON (a.modified = b.modified and a.id=b.id);不过,看起来你可以很容易地用一个直接的查询得到正确的答案。选择两列中的最大值,并确保按没有聚合函数的列进行分组。
select id
, name
, max(age) as age
, max(modified) as modified
from test
group by id, name;https://stackoverflow.com/questions/31590599
复制相似问题