那是我接触 AWS Lambda 函数的时候。
AWS Lambda 服务的设计决定了某些限制。执行超例子。就我而言,这些最常见的限制使 Lambda 函数不适合完成任务。
尽管如此,Lambda 服务背后的想法还是 台湾号码 很聪明、普遍适用且有用的。其中两个对我来说特别有趣……
按需提供基础设施,因为如果基础设施不被使用,那么它就没有存在的必要。为了强调这一原则,如果基础设施闲置,就没有必要为其付费。

按需扩展,因为有时需要更强的计算能力。
现在,开始将 AWS EMR 作为我们的超级 Lambda……
需要高计算能力的数据处理并不便宜。需要处理的数据越多,存储、扫描和从中推断任何有意义的东西的成本就越高。AWS EMR(Elastic Mapreduce)是我最常用于解决此类问题的工具之一。
我可以告诉你,使用它的成本会很快增加。
关于 AWS EMR
AWS EMR 服务提供计算机集群并为我们提供其计算能力。这也可以告诉我们 EMR 的正确用例是什么。这是一个非常宽泛的定义……当传统数据查询/处理工具无法在合理的时间内给出结果时,它可能是一种选择。
例如,针对 MySQL 触发的 SQL 查询将在十二小时内提供结果。
Apache Spark 应用程序或 Apache Hive 查询都可以在 AWS EMR 上运行,可能是更好的选择。
单个 EMR 集群由几个组件组成:
emr 集群图
主节点(或最多三个主节点) 主节点管理集群并运行集群资源管理器。正如 AWS 文档所述,它还“运行 HDFS NameNode 服务、跟踪提交到集群的作业状态并监控实例组的运行状况”。
核心节点 核心节点作为 HDFS 的一部分执行计算任务并协调数据存储。它们由主节点管理。只能有一个核心节点实例组。
任务节点 任务节点是集群计算能力的基础,只执行计算任务,最多可以有48个任务节点实例组,每个任务节点实例组选择统一的实例类型。
最小的 EMR 集群将有一个主节点和两个核心节点。合理的主节点可以是 m5.xlarge 类型的实例。核心节点可以是 r5.xlarge 类型的实例。