当前位置:首页 > 报告详情

2. Clickhouse玩转每天千亿数据-趣头条.pdf

上传人: li 编号:29687 2021-02-07 14页 1.10MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了趣头条在使用ClickHouse处理每天千亿数据时遇到的问题及解决方案。趣头条的集群现状是100+台32核128G的机器,部分复杂查询能在30秒内完成。但在实际应用中遇到了如下问题: 1. 内存限制,导致大查询出现内存不足; 2. 存储限制,随着数据增长,磁盘空间不足; 3. CPU限制,对于一些大表处理速度受限; 4. ClickHouse的数据目录不支持多数据盘,单块盘大小限制大; 5. 查询性能问题,如order by操作耗时,多分区merge速度慢等; 6. ClickHouse-server进程挂掉,原因是默认不限制内存使用; 7. 内存限制问题,大SQL查询可能会超出内存限制; 8. Zookeeper相关问题,如snapshot文件过大,导致同步超时,压力过大等。 针对以上问题,作者提出了一系列解决方案,包括增加内存、优化存储、调整索引顺序、增大background_pool_size、配置max_memory_usage_for_all_queries、使用Replicated*MergeTree引擎等。
如何优化ClickHouse处理千亿级数据的效率? 如何合理配置ZooKeeper和ClickHouse集群,以提高大数据处理的效率? 在实时数据处理中,如何有效解决内存和存储限制问题?
客服
商务合作
小程序
服务号
折叠