当前位置:首页 > 报告详情

Apache Flink 中的流处理和批处理融合.pdf

上传人: 竿*** 编号:981512 2025-11-29 34页 1.17MB

1、HDFSStorageComputing EngineControl PlaneSupportingToolingsDataModelingDataMetricsLoggingAlertingTestingReleasingData freshnessScalabilityThroughputCostStabilityOperabilityData ApplicationsHDFSStorageComputing EngineControl PlaneSupportingToolingsDataModelingDataYARNMetricsLoggingAlertingTestingRelea

2、singData ApplicationsHDFSStorageComputing EngineControl PlaneSupportingToolingsDataModelingDataYARNMetricsLoggingAlertingTestingReleasingData ApplicationsHDFSStorageComputing EngineControl PlaneSupportingToolingsDataModelingDataYARNMetricsLoggingAlertingTestingReleasingData ApplicationsHDFSStorageCo

3、mputing EngineControl PlaneSupportingToolingsDataModelingDataYARNMetricsLoggingAlertingTestingReleasingData ApplicationsHDFSStorageComputing EngineControl PlaneSupportToolingsDataModelingDataYARNMetricsLoggingAlertingTestingReleasingData ApplicationsOnline ApplicationKafkaStreaming Feature Generatio

4、nHDFSETLFeature StoreBatch Feature GenerationThe features are generated in nearline.Batch backfill jobs are needed occasionally to apply the same computing logic on the historical data.E.g.new features onboarding,error correction.HDFSYARNOnline ApplicationStreaming And Batch Feature GenerationThe fe

5、atures are generated in nearline.Batch backfill jobs are needed occasionally to apply the same computing logic on the historical data.E.g.new features onboarding,error correction.Unified StorageUser Activity EventsFeaturesUser Activity EventsFeaturesOne FormatK-V,Queue,Range ScanMigration CostLearni

6、ng CostMaintenance CostDevelopment CostExecution CostData Infra Cost ModelStream and Batch UnificationA“new”design paradigmNo need to distinguish between streaming and batchMetricsLoggingAlertingStorageComputing EngineControl PlainSupportingToolingsDataModelingDataTestingReleasingData ApplicationsA“

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要围绕大数据处理和存储技术展开,重点介绍了HDFS存储、计算引擎、控制平面、支持工具、数据建模、指标、日志、警报、测试和发布等环节。以下是关键点: 1. **数据处理**: - 流处理和批处理结合,无需区分,统一处理。 - 特征生成在近线进行,偶尔需要批量回填作业处理历史数据。 2. **存储和成本**: - 用户活动事件特征统一存储,格式统一为K-V、队列、范围扫描。 - 迁移成本、学习成本、维护成本、开发成本、执行成本和数据基础设施成本模型。 3. **流处理与批处理**: - 流处理和批处理在调度、shuffle、状态后端、连接器等方面有相同体验。 - 批处理被视为流处理的一种特殊情况。 4. **执行语义**: - 流处理具有无限、无序、动态的特点,而批处理是有限、有序、静态的。 - 流处理需要处理时间戳、水印、重传、检查点等。 5. **调度和失败恢复**: - 流处理中,所有任务必须同时运行,而批处理可以按拓扑顺序逐个执行。 - 流处理使用基于间隔的检查点,而批处理通常禁用检查点。 - 失败恢复在shuffle边界进行,批处理只需重新运行任务。
"HDFS存储如何提升数据处理效率?" 统一设计范式揭秘!" 性能优化秘籍!"
客服
商务合作
小程序
服务号
折叠