Druid 集群方式部署 —— Hadoop 连接配置

honeymoose · August 5, 2021, 8:09pm

如果你希望从 Hadoop 集群中加载数据，那么你需要对你的 Druid 集群进行下面的一些配置：

更新 conf/druid/cluster/middleManager/runtime.properties 文件中的 druid.indexer.task.hadoopWorkingPath 配置选项。
将 HDFS 配置路径文件更新到一个你期望使用的临时文件存储路径。druid.indexer.task.hadoopWorkingPath=/tmp/druid-indexing 为通常的配置。
将你的 Hadoop XMLs配置文件（core-site.xml, hdfs-site.xml, yarn-site.xml, mapred-site.xml）放到你的 Druid 进程中。
你可以将 conf/druid/cluster/_common/core-site.xml, conf/druid/cluster/_common/hdfs-site.xml 拷贝到 conf/druid/cluster/_common 目录中。

请注意，你不需要为了从 Hadoop 中载入数据而使用 HDFS 深度存储。

例如，如果您的集群在 Amazon Web Services 上运行，即使已经使用 Hadoop 或 Elastic MapReduce 加载数据，我们也建议使用 S3 进行深度存储。

druid-vs-hadoop

更多信息可以看基于Hadoop的数据摄取部分的文档。