如果你希望从 Hadoop 集群中加载数据,那么你需要对你的 Druid 集群进行下面的一些配置:
- 更新
conf/druid/cluster/middleManager/runtime.properties
文件中的druid.indexer.task.hadoopWorkingPath
配置选项。
将 HDFS 配置路径文件更新到一个你期望使用的临时文件存储路径。druid.indexer.task.hadoopWorkingPath=/tmp/druid-indexing
为通常的配置。 - 将你的 Hadoop XMLs配置文件(core-site.xml, hdfs-site.xml, yarn-site.xml, mapred-site.xml)放到你的 Druid 进程中。
你可以将conf/druid/cluster/_common/core-site.xml
,conf/druid/cluster/_common/hdfs-site.xml
拷贝到conf/druid/cluster/_common
目录中。
请注意,你不需要为了从 Hadoop 中载入数据而使用 HDFS 深度存储。
例如,如果您的集群在 Amazon Web Services 上运行,即使已经使用 Hadoop 或 Elastic MapReduce 加载数据,我们也建议使用 S3 进行深度存储。
更多信息可以看基于Hadoop的数据摄取部分的文档。