Spark?性能慢
2024-02-15 17:10:37
在无人仓储物流配送场景中,Spark可能会因数据量大而导致性能下降。这时尝试通过分片、压缩等方式减小数据量。
合理分配计算资源是提升Spark性能的重要手段。通过增加Executor数量或者增大Executor内存来提高行度和存储能力。
编写高效的Spark代码是非常关键的。避免使用Shuffle操作,尽量使用广播变量等。
使用R树或者K-D树来进行空间查询。
通过将数据本地化,减少跨节点的数据传输。
将些复杂的运算提前在生成RDD之前完成。
MLlib,它提供了许多优化过的算法,帮助提高性能。
使用图数据库,更好地支持复杂的关系查询。
Flink或Storm,它们在数据产生时就进行处理,而不等待所有数据都到达。