1、 中国人工智能系列白皮书中国人工智能系列白皮书 人工智能驱动的生命科学人工智能驱动的生命科学 中国人工智能学会中国人工智能学会 二二二四年七月二四年七月 中国人工智能系列白皮书 中国人工智能系列白皮书编委会中国人工智能系列白皮书编委会 主 任:戴琼海 执行主任:王国胤 副 主 任:陈 杰 何 友 刘成林 刘 宏 孙富春 王恩东 王文博 赵春江 周志华 郑庆华 委 员:班晓娟 曹 鹏 陈 纯 陈松灿 邓伟文 董振江 杜军平 付宜利 古天龙 桂卫华 何 清 胡国平 黄河燕 季向阳 贾英民 焦李成 李 斌 刘 民 刘庆峰 刘增良 鲁华祥 马华东 苗夺谦 潘 纲 朴松昊 钱 锋 乔俊飞 孙长银 孙茂松
2、 陶建华 王卫宁 王熙照 王 轩 王蕴红 吾守尔斯拉木 吴晓蓓 杨放春 于 剑 岳 东 张小川 张学工 张 毅 章 毅 周国栋 周鸿祎 周建设 周 杰 祝烈煌 庄越挺 中国人工智能系列白皮书中国人工智能系列白皮书-人工智能驱动的生命科学人工智能驱动的生命科学编写组编写组 张世华 张学工 陈盛泉 李婷婷 刘红蕾 刘振栋 刘治平 王太峰 张 岳 郑旭彬 中国人工智能系列白皮书 1 目 录 第 1 章 单细胞转录组预训练基础模型.1 1.1 单细胞基础模型概述.1 1.2 单细胞基础模型构建.2 1.2.1 大规模单细胞数据集.2 1.2.2 单细胞数据编码嵌入表示.3 1.2.3 预训练任务建模.
3、5 1.3 单细胞基础模型应用.8 1.3.1 基因嵌入表示和细胞嵌入表示.8 1.3.2 单细胞类型注释.10 1.3.3 单细胞数据生成.10 1.3.4 推断调控网络.11 1.3.5 空间组学应用.11 1.3.6 其他任务.11 1.4 展望.12 参考文献.13 第 2 章 人工智能赋能细胞异质性刻画.17 2.1 概述.17 2.2 基于无监督学习的细胞异质性刻画.18 2.2.1 基于无监督机器学习的细胞异质性刻画方法.18 2.2.2 基于无监督深度学习的细胞异质性刻画方法.20 2.3 基于弱监督学习的细胞异质性刻画.22 2.3.1 刻画转录组数据细胞异质性的弱监督学习方
4、法.24 2.3.2 刻画表观组数据细胞异质性的弱监督学习方法.24 2.3.3 刻画空间转录组细胞异质性的弱监督学习方法.25 2.4 基于有监督学习的细胞异质性刻画.25 中国人工智能系列白皮书 2 2.4.1 基于细胞间相似度的有监督学习方法.26 2.4.2 基于机器学习的有监督学习方法.27 2.4.3 基于深度学习的有监督学习方法.28 参考文献.31 第 3 章 人工智能赋能疾病诊疗.39 3.1 引言.39 3.2 关键技术和应用.40 3.2.1 机器学习与深度学习.40 3.2.2 自然语言处理技术.41 3.2.3 医疗图像分析技术.42 3.2.4 知识图谱与数据整合技
5、术.43 3.2.5 生命科学领域的基础模型.44 3.3 展望.47 参考文献.49 第 4 章 人工智能助力医疗文本处理.54 4.1 医疗大数据简介及分类.54 4.2 医疗文本自然语言处理.55 4.3 文本表示学习.56 4.4 知识图谱.58 4.5 大语言模型在医疗文本中的应用.60 参考文献.62 第 5 章 人工智能助力 RNA 结构预测.67 5.1 背景.67 5.2 研究现状.77 5.3 机器学习与深度学习.83 5.3.1 卷积神经网络.83 5.3.2 三维卷积神经网络.87 中国人工智能系列白皮书 3 5.3.3 基于 ResNet 的三维卷积神经网络.88 参
6、考文献.91 第 6 章 人工智能识别组学生物标志物.101 6.1 背景.101 6.2 常见的单组学方法.101 6.2.1 过滤式.102 6.2.2 包裹式.102 6.2.3 嵌入式.103 6.3 从网络中发展生物标志物.103 6.4 单组学研究的局限性.105 6.5 多组学的研究的优势.105 6.6 多组学数据的整合策略.106 6.6.1 前融合.107 6.6.2 中融合.109 6.6.3 后融合.110 6.7 临床中的应用.112 6.8 总结.113 参考文献.114 第 7 章 蛋白质语言大模型的前沿探索和展望.118 7.1 从通用语言大模型到蛋白质语言大模