1、证券研究报告金融工程金工专题报告 东吴证券研究所东吴证券研究所 1/41 请务必阅读正文之后的免责声明部分请务必阅读正文之后的免责声明部分 金工专题报告 20260615 深度学习系列之三:深度学习系列之三:AI 因子挖掘的双路径实因子挖掘的双路径实践与践与Skill沉淀沉淀从表达式搜索到从表达式搜索到Agent化化研究流程研究流程 2026 年年 06 月月 15 日日 证券分析师证券分析师 于明明于明明 执业证书:S0600525120002 证券分析师证券分析师 周金铭周金铭 执业证书:S0600526020002 相关研究相关研究 深度学习系列之一:AI 重塑量化,基于大语言模型驱动的
2、因子改进与情绪 Alpha 挖掘 2026-01-10 深度学习系列之二:绝对收益视角下的技术形态专家模型选股择时与多资产轮动的统一框架 2026-03-24 Table_Tag Table_Summary 本研究围绕本研究围绕 AI 因子研究中的因子研究中的“搜索能力搜索能力”与与“沉淀能力沉淀能力”展开:一方面将展开:一方面将大语言模型的金融逻辑推理能力引入遗传编程搜索,另一方面让大语言大语言模型的金融逻辑推理能力引入遗传编程搜索,另一方面让大语言模型在代码空间中生成因子并自主沉淀工具函数,最终进一步封装为可模型在代码空间中生成因子并自主沉淀工具函数,最终进一步封装为可复用的选股因子迭代复
3、用的选股因子迭代 Skill。传统量价因子研究通常依赖研究员人工提出假设、编写表达式并反复回测,研究效率和搜索广度均受到限制;而单纯依靠大语言模型直接生成因子,又面临推理成本较高、批量探索能力不足、历史反馈难以沉淀等问题。本文尝试从两个维度解决上述矛盾:第一,在表达式空间中引入 LLM 增强遗传编程,用大语言模型提供金融逻辑和子表达式基因,用遗传算法完成高强度搜索;第二,在函数空间中让 LLM 直接生成可运行的 Pandas/Numpy 因子函数,并通过历史反馈和工具函数库持续迭代。两条路线分别对应“可控表达式搜索”和“开放函数式生成”,共同目标并不是让 AI 机械地产生更多公式,而是让 AI
4、 参与因子研究的完整链条:提出假设、生成信号、接受评测、吸收反馈,并将可复用经验沉淀下来。LLM 增强遗传编程路线实现了大语言模型金融逻辑与遗传算法搜索能增强遗传编程路线实现了大语言模型金融逻辑与遗传算法搜索能力的结合,在表达式空间中生成了力的结合,在表达式空间中生成了 87 个候选量价因子。个候选量价因子。传统遗传编程可以在大规模表达式空间中快速搜索,但容易生成缺乏金融解释、结构复杂且过拟合风险较高的因子;LLM 直接写因子具备较强逻辑性,但难以低成本完成大规模批量探索。本文通过 LLM 提取子表达式基因、构建表达式树搜索空间、分岛进化、周期性 LLM 注入和低相关筛选等机制,将两者优势结合
5、起来。实证结果显示,87 个候选表达式因子全区间|RankIC|均值约为 6.98%,全区间|ICIR|均值约为 0.79,测试集|RankIC|均值约为 6.93%,表现较为稳定。相关性层面,约 81.6%的因子对内部相关性低于 0.70,约 91.2%的因子对低于 0.75;与 20 日反转、20 日波动率和 20 日平均换手率等传统量价因子相比,也保留了较明显差异。进一步相对 Alpha158MLP 进行双残差增量 IC 检验,87 个因子的平均增量 IC 约为 2.53%,说明其在常见量价综合信息之外仍能提供边际解释 力。LOWPOS_SHARPE_COV、CANDLE_SHADOW_
6、P3和RETCHG_MINUS_GAP 等代表因子表明,该路线能够在保持表达式可复现性的同时,挖掘出具有较清晰金融逻辑的量价结构。函数式因子挖掘路线进一步打开了因子表达空间,使函数式因子挖掘路线进一步打开了因子表达空间,使 AI 能够以完整能够以完整Python 函数形式刻画更细颗粒度的交易行为机制。函数形式刻画更细颗粒度的交易行为机制。与固定表达式树不同,函数式路线允许 LLM 分步骤描述金融假设:先拆分隔夜与日内收益,再识别量能体制;先判断近期高低点是否形成,再区分极值背后的成交质量;先观察隔夜跳空方向,再判断盘中资金是否确认。基于该路线,本文最终得到 80 个函数式因子,RankIC 均