《国家数据局:2025年“数据要素×”大赛全国总决赛获奖项目案例集——科技创新赛道.pdf》由会员分享,可在线阅读,更多相关《国家数据局:2025年“数据要素×”大赛全国总决赛获奖项目案例集——科技创新赛道.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、1科技创新赛道一等奖科学数据汇青藏,乘数效应聚发展高质量高原数据的获取与应用,是承接国家“东数西算”战略、驱动青藏高原生态文明高地建设与高质量发展的关键引擎,在带动西藏数字经济产值增长中发挥重要作用。针对高原极端环境下数据“获取难、传输难、共享难”的痛点,依托中国科学院青藏高原研究所建设的国家青藏高原科学数据中心联合西藏大学,聚焦“地球第三极”,构建了系统化、标准化与智能化的科研数据治理体系,以汇聚、治理、服务举措,促进高原数据获取、传输、共享,构筑全球最大青藏数据库,实现“数据在西藏、服务在全国”。图 1 总体成效2一是以“数据+平台”为基础,集成极端环境多维综合数据。一方面研发卫星物联网观
2、测终端、广域高清综合智能仿生鹰眼等观测设备,实现极端环境观测数据的自动采集与实时传输。另一方面通过科技计划项目数据汇交、野外台站、科研论文数据仓储、历史数据追溯等综合方式集成青藏高原地区科学数据资源。此外,构建国际论文关联数据仓储、智能汇交评审系统、全生命周期动态安全评估机制,全面践行“FAIR 原则”(FAIR 原则是科学数据管理领域的核心准则,要求数据具备可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)四大特性,旨在提升数据共享效率与科研协作价值。)。二是构建数据要素化新范式,提升数据治理能力。采用立体感知替代单
3、点观测,构建“空天地”一体化监测网络,结合自主研发智能鹰技术,实现全域数据实时获取与传输。推动数据要素协同共治,建立“项目数据出版”闭环管理机制、总中心分中心协同的数据汇交机制以及国内国际双循环合作机制。AI 融合填补数据空白,利用深度学习融合多源异构数据,生成长时序、高分辨率数据产品,解决传统数据产品精度不足问题。三是建立智能数据生产模式,推动特色数据产品应用。构建“多源观测+AI 智能融合+数据同化”的智能生产模式,建设七大类开源分析方法库(GitHub 托管),利用人工智能新方法,实现高质量、长时序特色数据产品的应用。应用于雅下水电、川藏铁路等重大工程,支撑国家清洁能源潜力估算与基地选址
4、,实现光资源商业数据库的国3产化替代,打破国外垄断,服务 30 余个电站与 5200 个光伏项目。四是提供“开放共享+增值服务”,促进产业数据交易。在商业模式上,探索“免费基础数据引流+增值服务产品收费+项目定制化服务”模式,通过数据引用确权激励共享。通过国家青藏高原科学数据中心门户提供开放共享服务,不仅与华为、航天宏图等企业开展商业合作,提供定制化数据产品与服务,还在谷歌学术等国际平台建立索引。4二等奖VenusPod-融合 AI 与超大规模蛋白质数据,赋能生物制造研发范式变革生物制造研发领域长期存在痛点,如传统蛋白质设计依赖专家经验试错、周期长、成功率低,以及现有 AI 模型受限于数据规模
5、(如 ESM-C 仅 21 亿条)等。上海交通大学构建了全球最大蛋白质数据集 VenusPod,打造 AI 蛋白质设计引擎,从“大海捞针”转变为精准设计,激活蛋白质数据要素的潜在价值,推动生物医药与合成生物学产业降本增效。一是汇聚深海与盐湖极端环境高价值数据,保持数据持续更新。一方面,数据集汇聚了全球公共数据库(UniProt、NCBI 等)数据,以及 MEER 计划深海微生物、国内盐湖耐极端环境微生物宏基因组数据,涵盖 150 亿条蛋白质序列,其中 65 亿条带有温度、pH 值、压强等关键环境标签数据。另一方面,采用“开源清洗+自有采集+实验反哺”方式,依托“奋斗者”号及盐湖测序采集特有数据
6、,通过 Venus-Auto 自动化湿实验平台,将验证后的高精度数据实时回流至数据库,实现数据持续更新。二是以模型为基础,促进实验数据精准预测。基于 Transformer架构预训练 VenusPLM 基础模型,面对不同的下游应用场景进行模型微调,融合干湿实验数据,通过清洗、降重、结构化处理,将海量序列转化为“模板挖酶”和“反应挖酶”的精准预测能力。三是广泛应用于生物医药场景,实现经济社会双重收益。模型5应用于生物医药(抗体稳定性优化)、体外诊断(高灵敏酶改造)、合成生物学(耐高温/酸碱酶开发)等场景。在经济效益上,已服务30 余家企业,帮助多家合作企业缩短研发周期 50%以上,如某体外诊断原