《张少博-基于CodeGeeX的AI Coding实践与探索.pdf》由会员分享,可在线阅读,更多相关《张少博-基于CodeGeeX的AI Coding实践与探索.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、张少博 智谱AI CodeGeeX高级算法工程师2017年硕士毕业于德州大学软件工程专业,毕业后一直从事于NLP相关的研究,专注于模型训练及应用落地。于2023年加入智谱AI,负责CodeGeeX代码模型、Embedding模型训练,并主导了CodeGeeX项目级智能问答、联网搜索等功能落地。目前在CodeGeeX团队负责前沿算法研发,旨在推进大模型技术在代码领域的创新与应用。演讲主题:基于CodeGeeX的AI Coding实践与探索基于CodeGeeX的AI Coding实践与探索智谱AI 张少博1 AI Coding的前世今生2 CodeGeeX功能简介3 项目级问答的探索实践AI Co
2、ding的前世今生P PA AR RT T 1 1硅硅谷谷技技术术圈圈招招聘聘案案例例聘聘请请两两名名程程序序员员创创建建最最小小可可行行性性产产品品(MMV VP P)姓姓名名A Al le ex xH Ha ammi id d编编程程经经验验1 19 9年年4 4年年一一周周进进度度完完成成7 7%完完成成9 95 5%完完成成时时间间1 10 0周周2 2周周成成本本 开开发发:$4 45 5,0 00 00 0 测测试试:$1 11 1,0 00 00 0 托托管管:$2 20 0 薪薪水水:$2 2,4 46 60 0 GGP PT T-4 4:$2 21 11 1 C Co op
3、pi il lo ot t:$2 20 0 B Bu ub bb bl le e:$1 13 34 4编编程程范范式式的的演演变变演绎合成(deductive synthesis)归纳合成(inductive synthesis)代代码码生生成成新新阶阶段段:大大模模型型时时代代下下,自自动动生生成成复复杂杂的的、准准确确的的代代码码成成为为可可能能1945阿兰 图灵构思的自动计算引擎中,就提到了一些机械化的指令可以让计算机自己生成1972使用逻辑编程语言(如Prolog)将需求描述成逻辑表达式,让计算机自动推理得到解答2020Transformer架构首次运用到代码生成中AlphaCodeC
4、odeGenStarCoderCodeGeeX2 20 02 24 4DevinChatDevAutoDev1957FORTRAN编译器被认为是一种自动代码生成系统,根据高级编程语言,自动生成机器码2022深度学习首次运用到代码生成中,将程序当作文本,用神经网络进行端到端的生成20152021Codex,第一个百亿规模预训练代码生成模型,用无监督学习方式在大量代码语料上训练2023交互式生成ChatGPTChatGLM.编编程程范范式式的的演演变变任务程序员代码编译器结果任务代码编译器结果自然语言/代码大模型项目信息程序员任务代码编译器结果大模型根据输出结果改进代码传传统统编编程程过过程程AI
5、自自动动编编程程过过程程AI辅辅助助编编程程过过程程C Co od de eGGe ee eX X功功能能简简介介P PA AR RT T 2 2从开源模型到智能编程助手2022.9CodeGeeX 12023.7CodeGeeX 22024.1CodeGeeX 32024.7CodeGeeX 42022.92022.122023.112024.42023.11从从开开源源模模型型到到智智能能编编程程助助手手基基于于G GL LMM大大模模型型基基座座具具备备自自然然语语言言理理解解能能力力书书籍籍、教教程程、博博客客构构筑筑语语言言到到代代码码的的桥桥梁梁开开源源代代码码仓仓库库增增强强代代
6、码码理理解解能能力力专专项项场场景景任任务务代代码码补补全全、智智能能问问答答等等从从开开源源模模型型到到智智能能编编程程助助手手B Bi ig gC Co od de eB Be en nc ch h评评测测结结果果从从开开源源模模型型到到智智能能编编程程助助手手2023 开发者生态系统现状-Jetbrains从开源模型到智能编程助手 2024年7月,发布最新一代CodeGeeX4系列模型,大幅增强代码领域各项能力。使用单一模型,即可支持代码补全、代码生成、代码解释、代码注释、工具调用 具备项目级问答、联网搜索、编写提交信息等全面能力,覆盖了编程开发的各种场景。https:/ 2019趋势榜