解决方案背景:我们有设备将遥测数据立即发送到事件中心,并将其存储为AVRO文件。对于冷路径,我们计划将数据(存储3年数据所需的总存储量为80 TB)存储到Azure数据湖Gen2中。我们需要从这个数据存储中查询数据集,使用过滤器、时间跨度等运行查询,从我们提供数据的Web API到Azure中的一个角度web应用程序。
在我们的Web项目中,当数据以JSON格式存储在Azure data中时,我们可以使用查询加速特性使用C#和SQL语法来查询数据。然而,为了最小化存储大小和更好的查询性能,建议在将数据存储到Azure data中时使用Parquet文件格式。
Q1:挑战是,相同的.NET SDK (Azure.Storage.Files.DataLake)在查询数据时不支持Parquet文件格式?
我还检查了“阿帕奇星火的.NET”在.NET中的大数据处理,但是它运行在需要安装的JRE和其他组件上,只有我能找到的例子是控制台应用程序。而不是部署在Azure中的Web。
Q2:有人知道这件事吗?
Q3:有点主观,但是是否有其他方法从Azure中使用熟悉的.NET Web存储和获取大数据?
发布于 2020-10-10 15:02:55
您可以将Parquet.NET视为在.NET中查询Parquet文件的一个选项。
您还可以评估查询加速、Azure数据资源管理器或Synapse分析按需SQL (示例语法)。
发布于 2020-10-15 12:50:49
https://learn.microsoft.com/en-us/azure/synapse-analytics/sql/query-parquet-files
这给出了如何使用SQL查询parquet文件。
https://stackoverflow.com/questions/64282581
复制相似问题