1、主讲人:江天目录背景介绍TsFile 的诞生背景文件结构TsFile 的文件结构格式对比TsFile 与其他文件格式的对比接口生态TsFile 的多语言接口以及生态支持应用实例TsFile 的具体应用场景01TsFile 的诞生背景背景介绍数据处理链路:端上采集、边缘汇聚、云中处理!#$%&(!#$%#&MQTT/HTTP工业物联网网关TCP IPv4 IPv6网络层链路层近距离通信lRFIDlZigBeelBluetooth远距离蜂窝通信lGSM(2G)lGDMA(3G)lLTE 4G/5G远距离非蜂窝通信lNB-IoTlLoRalsigfox有线通信lMBuslEthernetlUPB应用
2、层工业云.端上采集边缘汇聚端边云物理层云中处理查询预测统计分析批处理资源分配资源调度传什么怎么传海量时序数据带来全方位挑战汇聚难 数据重复处理 资源消耗过大 入库吞吐有限分析难 千万级序列 TB 级数据搜索 挖掘工具单一 抽取效率低下传输难 网络流量消耗大 离线网络环境 上传链路复杂难点1:数据传输流量消耗大,网络成本高解析上传数据采集数据库消息队列数据库数据入库数据入库场站集团总部数据读取原始数据分析应用数据计算广域网低带宽局域网高带宽难点2:数据重复处理,在云端形成瓶颈解析上传数据采集数据库消息队列数据库数据入库数据入库场站n集团总部数据读取原始数据分析应用数据计算重复解析、缓存、编码、整
3、理场站1.难点3:海量数据管理,分析效率低解析上传数据采集数据库消息队列数据库数据入库数据入库场站集团总部数据读取原始数据分析应用数据计算多次重复高度并发TsFile:极速打通端到云数据同步网络带宽节省 90%接收端CPU 消耗节省 95%铸轧宝山厂集团云平台青山厂武钢厂包装铝箔炼钢热轧冷轧能环钢管炼铁 TsFile 传输替换原始报文传输,节省网络带宽 90%文件无需二次处理即可入云,节省接收端 CPU 95%02文件结构TsFile 的文件结构整体结构与物理映射时序数据摘要值域时域时间列值列摘要值域时域时间列值列.摘要值域时域时间列值列摘要值域时域时间列值列设备ABC时间测点1测点2测点3测
4、点4TsFile文件格式示意(3个设备,4个测点)元数据索引区设备索引指标索引指标索引指标索引.时间测点值直接定位时间范围设备ABC设备A直接过滤异常值文件级元信息列式存储精细化压缩详细结构设备 ID大 Page=高压缩小 Page=快速点查询B树B树最新值、最旧值最小值、最大值.内存受限下的流式查询03格式对比TsFile 与其他文件格式的对比对比 Parquet&ORCParquetTsFile具有物理意义没有物理意义对比 Parquet&ORC对比 HDF5代码行数写入查询TsFile3124HDF54732 易用性 对于单设备的数据读写任务 性能 应用于存储真实航班数据写入吞吐率(行/
5、秒)文件大小(MB)TsFile5,160,145(1.1)3.61(0.27)HDF54,640,988(1)13.38(1)对比 HDF5对比维度TsFileHDF5压缩能力高(编码+压缩)低(仅通用压缩)查询过滤能力强(时间+设备过滤)弱(全量查询)数据模型简洁(针对时序数据特化)复杂(可以表示复杂类型)总体对比04接口生态TsFile 的多语言接口以及生态支持TsFile 支持多种编程语言高级操作系统Apache 生态体系简易操作系统嵌入式系统机器学习系统IoTDB数据定义写入查询 版本定位多语言协同下的端边云架构端边云TsFile 支持多种编程语言 一一对应的同构接口 降低迁移成本核
6、心写入接口核心查询接口C+实现提供极致性能内存占用写入吞吐系统需求:常见处理器,内存需求 2MB 以上(与测点数相关)操作系统:linux(kernel 3.10及以上)动态库glibc版本:glibc-2.17及以上TsFile 支持与多种大数据应用进行连接DataSetDataStreamDataFrameDataSource05应用实例TsFile 的具体应用场景航空航天:离线互联互通解决方案数据回收data地面服务器落地后全量数据快速接入存储飞行科目起飞落地TsFile 导入离线数据转换为 TsFile,并