当前位置:首页 > 报告详情

非结构化数据在MaxCompute上的处理(18页).pdf

上传人: 云闲 编号:91471 2021-01-01 18页 2.76MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
阿里云数据事业部的高级专家讨论了在MaxCompute平台上处理非结构化数据的挑战和解决方案。MaxCompute是阿里云的核心分布式计算平台,每天处理数百万级别的作业,其中85%以上是分布式SQL作业。然而,面对每天产生的80%以上的非结构化数据,如视频、音频、图像和文本文件等,MaxCompute 2.0致力于打造一个大数据生态,实现计算与数据的互联互通。 MaxCompute 2.0的非结构化数据处理框架旨在实现与其他云数据存储服务如OSS和TableStore的互联互通。通过使用外部表(External Table),可以描述外部数据的存储方式和处理方法,使得非结构化数据处理后可以直接参与下游的SQL关系运算。此外,MaxCompute 2.0还提供了一套解决方案,以处理各种特殊数据格式,如语音、图像和视频等。 MaxCompute 2.0框架能够分析指定OSS地址上的所有文件,将数据拆分成子集分配给不同计算节点并行处理,同时对常见数据格式提供内置处理方法。用户可以通过SDK实现特殊数据的解析和处理。例如,SpeechExtractor用于分析语音文件,计算平均语句的信噪比,并与文件ID一起作为抽取出的信息返回。 总之,MaxCompute 2.0的非结构化数据处理框架建立在成熟可靠的分布式计算平台之上,实现了计算与数据的互联互通,为处理各类非结构化数据提供了强大的支持和丰富的可能性。
"MaxCompute 2.0如何处理非结构化数据?" "如何利用MaxCompute 2.0实现数据的无边界处理?" "MaxCompute 2.0如何打造大数据生态?"
客服
商务合作
小程序
服务号
折叠