CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型,在20多种编程语言的代码语料库(>8500亿Token)上经过历时两个月预训练得到。CodeGeeX采用华为MindSpore框架实现,在鹏城实验室的“鹏城云脑ll”平台上训练而成。
CodeGeeX支持Python、C++、Java、JavaScript和Go等十多种主流编程语言的代码生成,且具有较高精度。通过输入自然语言或者代码片段,为模型指定任务,即可让模型生成代码实现对应功能。
此外,CodeGeeX还支持不同语言代码之间的相互翻译,输入一段代码后,可以使用另一种语言写出功能相同的代码。