GCPData Service
Dataproc
GCP 的 Dataproc 可帮助团队大数据与分析平台,支持批处理、交互式分析与数据湖构建。
- 与对象存储深度集成
- 弹性集群与作业调度
- 支持多种开源生态
规格参数
参数项 | 默认值 | 说明 |
---|---|---|
计算框架 | Apache Spark 3.x | 用于批处理、SQL 与流式计算任务。 |
核心节点数量 | 3 | 可根据作业并发和 SLA 调整集群规模。 |
自动扩缩容 | 启用 | 按队列任务量动态扩缩计算资源。 |
交付动作
- Dataproc
Master/Worker 架构按需伸缩,支持按作业计费。
- 数据湖集成
默认挂载对象存储作为数据湖与结果输出。
- Notebook & 作业入口
提供交互式 Notebook、批处理作业与调度编排。
计算节点
~$520每月
核心与任务节点 24x7 运行的费用。
存储与快照
~$85每月
作业结果及日志在对象存储的占用。
数据传输
~$40每月
ETL 与跨区域同步产生的带宽。
- Master 节点 DNS
- emr-master.internal
提交作业与 SSH 登录入口。 - 数据湖路径
- s3://analytics-raw/
默认数据输入输出位置。 - Spark History Server
- https://emr-history.example.com
用于审计与调试历史任务。