《Data Camp:2021年数据趋势和预测:数据流畅之年(英文版)(12页).pdf》由会员分享,可在线阅读,更多相关《Data Camp:2021年数据趋势和预测:数据流畅之年(英文版)(12页).pdf(12页珍藏版)》请在三个皮匠报告上搜索。
随着企业寻求数据基础设施现代化,仅在过去三年中,对数据基础设施初创公司的投资额就翻了一番多(a16z)。因此,我们在数据工程堆栈中看到了大量工具的出现。这些工具帮助组织接收原始数据,接收和转换它们,将它们存储在一个集中的位置,并以描述性和预测性分析的形式生成输出。目前,数据工程堆栈是分散的,许多工具在数据基础设施的不同元素上竞争。在接下来的一年多时间里,我们将看到数据工程堆栈中各种工具的整合和标准化。这与云应用、元数据管理工具和集中式数据治理平台一起,意味着组织将在各种最终用户之间提供可发现、可靠、兼容和可操作的数据。然而,机器学习的大部分价值将由现有的技术和方法驱动。根据Kaggle的机器学习和数据科学2020年调查,生产中最常用的机器学习技术是相对简单的算法,如线性或逻辑回归,决策树或随机森林。然而,要在规模上获得机器学习的好处,挑战在于如何在组织内部实现机器学习。在过去的一年里,监测生产模型的重要性得到了体现,因为大流行导致消费者行为的转变,从根本上改变了数据输入生产模型的情况(麦肯锡)。在未来一年或更长的时间里,组织将集中精力大规模部署机器学习。这将包括在数据基础设施中无缝集成机器学习模型,开发MLOps功能和管理模型以监控生产中的模型,并创建更紧密的人机反馈回路,从而使更多的数据使用者与机器学习模型交互以做出数据驱动的决策。