《朱曦炽-ChatBI:价值与挑战并存 - 20250414_最终版_现场版.pdf》由会员分享,可在线阅读,更多相关《朱曦炽-ChatBI:价值与挑战并存 - 20250414_最终版_现场版.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人介绍 亿问ChatBI创始人 复旦大学软件工程本科,国际经济与贸易第二专业。CFA三级通过。连续创业者 高中开始学习编程。个人可以单枪匹马使用任何语言开发出市面上任何软件系统。About the speaker朱曦炽AI时代的企业决策困局n数据爆炸时代,企业面临数据富足,洞察贫穷的现状n传统BI的三大桎梏:高门槛、长周期、被动响应演讲内容如果决策者能像聊天一样获取商业洞察,会怎样?演讲内容亿问ChatBI界面演示企业构建一个ChatBI系统面临的挑战成本问题成本问题考虑到数据安全,私有化部署一个大语言模型的成本在百万级别数据理解的准确性、稳定性数据理解的准确性、稳定性稳定地理解自然语言并
2、给出正确数据的能力是否是否满足生产环境中的复杂定制需求满足生产环境中的复杂定制需求对复杂生产场景,没有提前训练的情况下,如何快速响应特殊规则多表关联、同时支持数百张表多表关联、同时支持数百张表企业内部往往有成百上千张表实时性和性能实时性和性能大型模型需要显著的计算资源和处理时间,响应速度成为个巨大的挑战六个难点数据隐私和安全性数据隐私和安全性(权限权限)在大模型非私有化的情况下,LLM的云基础设施和API调可能成为敏感数据安全的薄弱环节ChatBI落地的核心难点1ChatBI的三个核心参数语义理解成功率有百分之多少的语义能够理解稳定性问同样的一句话一万次结果是否稳定响应速度 从用户提问那一刻开
3、始多久能够得到结果32一般需要85%以上在BI场景,不是100%就是0%平均用户可以接受的返回速度在4秒以内市面上主流的技术路线市面上主流的技术路线Text2SQL:自然语言直接转化成SQL特点:将表结构以及一些提示词传入大语言模型,大语言模型直接转成SQL进行执行缺点缺点:规则控制力规则控制力弱弱如权限、财年、以及一些特殊业务规则。优点优点:做出一个做出一个DemoDemo非常非常容易容易在不需要过多的开发的情况下,单表准确率可以高达95%以上优点优点:泛化能力泛化能力强强无需预先配置很多同义词,大语言模型语言泛化、理解能力强缺点缺点:仅限于仅限于DemoDemo级别级别一旦进入商用落地,在
4、复杂的数据环境中,准确率急剧下降优点VS缺点Text2API:自然语言转化成BI/指标库的API特点:依托于现有的BI/指标库系统,大语言模型直接转成SQL进行执行缺点缺点:提问提问必须相对比较简单必须相对比较简单这种方案更适合用在输入输出结构上较简单(决定了 API 更简洁),但是内部数据处理与分析逻辑较复杂的任务优点优点:开发开发快速快速对于已经有BI、指标库的厂商来说,开发更加便捷迅速。优点优点:权限和规则权限和规则可控可控可以把内部的复杂性对大模型屏蔽,从而减少对输出稳定性的影响缺点缺点:受限于指标库的受限于指标库的表达能力表达能力很多指标库的问答必须有指标、无法对维度进行问答。无法嵌
5、套,跨表优点VS缺点Text2DSL:自然语言转化成中间语言再转化成SQL特点:加入一层中间层,中间层用来表达用户的查询需求。缺点缺点:让大语言模型精确生成让大语言模型精确生成DSLDSL很难很难大部份的DSL解决方案都非常简单,类似填槽。能表达的语义基本上是单表语义。一旦复杂,大语言模型就很难生成。优点优点:易于转化成任意易于转化成任意语言语言可以转化成SQL、API调用甚至是URL、文字、图片、视频优点优点:权限和规则控制权限和规则控制灵活灵活可以在DSL产生后,根据DSL的结果添加任何权限和规则特点缺点缺点:研发研发精力投入大精力投入大需要设计一门DSL,并且和大模型做到结合。有非常多的
6、调试工作优点VS缺点现状:目前靠大语言模型做语义理解无法商用幻觉问题l不可控的SQL/DSLl领域适应性差l多表准确度急剧下降成本问题l推理开销高l微调与维护成本l私有化成本高其他问题l实时性瓶颈l长上下文处理亿问ChatBI研发时的参数要求90%+100%500毫秒无上限亿问ChatBI是如何做到的?放弃Transformer,仅保留WordEmbedding采用知识图谱,自研图计算算法(Alisa)来实现语义理解自研了一个数据语义层(SemanticDB),让系统真正理解