时和可用内存就是很好的

hasinam2206 · Post by **hasinam2206** » Sun Dec 22, 2024 4:35 am

注意：免当你需要时，按需求提供合适规模的基础设施的想法，从我听说的那一刻起就引起了我的好奇。

那是我接触 AWS Lambda 函数的时候。

AWS Lambda 服务的设计决定了某些限制。执行超例子。就我而言，这些最常见的限制使 Lambda 函数不适合完成任务。

尽管如此，Lambda 服务背后的想法还是台湾号码很聪明、普遍适用且有用的。其中两个对我来说特别有趣……

按需提供基础设施，因为如果基础设施不被使用，那么它就没有存在的必要。为了强调这一原则，如果基础设施闲置，就没有必要为其付费。

按需扩展，因为有时需要更强的计算能力。

现在，开始将 AWS EMR 作为我们的超级 Lambda……

需要高计算能力的数据处理并不便宜。需要处理的数据越多，存储、扫描和从中推断任何有意义的东西的成本就越高。AWS EMR（Elastic Mapreduce）是我最常用于解决此类问题的工具之一。

我可以告诉你，使用它的成本会很快增加。

关于 AWS EMR
AWS EMR 服务提供计算机集群并为我们提供其计算能力。这也可以告诉我们 EMR 的正确用例是什么。这是一个非常宽泛的定义……当传统数据查询/处理工具无法在合理的时间内给出结果时，它可能是一种选择。

例如，针对 MySQL 触发的 SQL 查询将在十二小时内提供结果。

Apache Spark 应用程序或 Apache Hive 查询都可以在 AWS EMR 上运行，可能是更好的选择。

单个 EMR 集群由几个组件组成：

emr 集群图
主节点（或最多三个主节点）主节点管理集群并运行集群资源管理器。正如 AWS 文档所述，它还“运行 HDFS NameNode 服务、跟踪提交到集群的作业状态并监控实例组的运行状况”。

核心节点核心节点作为 HDFS 的一部分执行计算任务并协调数据存储。它们由主节点管理。只能有一个核心节点实例组。

任务节点任务节点是集群计算能力的基础，只执行计算任务，最多可以有48个任务节点实例组，每个任务节点实例组选择统一的实例类型。

最小的 EMR 集群将有一个主节点和两个核心节点。合理的主节点可以是 m5.xlarge 类型的实例。核心节点可以是 r5.xlarge 类型的实例。