1、G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2025 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2025 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2025 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2025 上 海 站腾腾讯讯云云T TD DA AI I:用用A AI I治治理理好好数数据据库库让让A AI I用用好好数数据据姓 名:余欣纬时 间:2025/10/18G O P S 全 球 运 维 大 会 暨 研
2、运 数 智 化 技 术 峰 会 2025 上 海 站个人简介余欣纬腾讯云数据库产品专家余欣纬,腾讯云数据库产品专家,从事数据库领域相关研发/产品工作8年,在多个国内头部公司担任数据库领域的核心研发/产品工作,在数据传输、AI for DB等方向具有丰富经验。现负责腾讯云数据库AI服务产品工作,持续夯实面向智能体的上下文底座,为客户提供场景化交付结果的数据库智能体。G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2025 上 海 站从一个现网故障说起CPU负载峰值:1 10 00 0%数据库锁等待:3 30 0+秒秒业务有损时间:1 1小小时时关关键键指指标标0
3、00 0:0 00 0 -0 08 8:0 00 0新新S SQ QL L上上线线执执行行,但但未未使使用用现现有有索索引引,逐逐行行扫扫描描数数千千万万条条记记录录的的核核心心大大表表持持续续全全表表扫扫描描上上午午 0 08 8:0 00 0大大量量用用户户提提交交转转账账指指令令,数数据据库库锁锁等等待待时时间间攀攀升升至至3 30 0+秒秒,C CP PU U打打满满引引发发故故障障业业务务高高峰峰期期上上午午 0 08 8:3 30 0业业务务收收到到大大量量接接口口超超时时告告警警,客客户户无无法法提提交交转转账账,交交易易相相关关功功能能完完全全故故障障系系统统告告警警爆爆发发
4、上上午午 0 09 9:0 00 0启启动动服服务务熔熔断断降降级级,运运维维团团队队紧紧急急止止损损,服服务务逐逐步步恢恢复复。事事后后定定位位根根因因,添添加加索索引引后后重重新新上上线线紧紧急急响响应应事事故故影影响响核心业务大表写操作完全阻塞,导致CPU打满核心转账功能受到影响,造成重大客情问题若处置不及时,极可能引发更大范围系统瘫痪难难在在哪哪里里问题难点:风险后置导致ORM框架生成的SQL语句不直观,SQL风险难以识别和处理SELECT*FROM device_tbl WHERE status=0 ORDER BY uid LIMIT?OFFSET?;导致缺索引的SQL语句产生慢查
5、询,导致数据库CPU打满、引发故障G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2025 上 海 站风险SQL治理:从先上线、后发现到事前治理T TD DA AI I方方案案:早早发发现现、易易修修复复风风险险等等级级风风险险类类别别优优化化建建议议代码块&调用链SQL集合代码建模SQL抽取自研模型诊断优化提交代码编写/修改代码测试上线Review审计日志引起现网问题找到风险SQLT TD DA AI I方方案案:早早发发现现、易易修修复复G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2025 上 海 站TDAI Databa
6、se DevOps:懂代码也懂数据库T TD DA AI I D Da at ta ab ba as se e D De ev vO Op ps s围围绕绕风风险险S SQ QL L治治理理的的一一站站式式解解决决方方案案SQL事前风险预测智能体DDL变更风险评估智能体事事前前拦拦截截高负载止损值守智能体事事中中兜兜底底懂懂代代码码懂懂数数据据库库ORM语法理解代码建模Code2SQL负载根因分析DDL风险评估SQL诊断优化G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2025 上 海 站TDAI Data Insight:人找数据升级为数据找人运营人员分析平