【JS】我在阿里云做前端代码智能化

Z时代
2024-01-10
分类：技术分享

作为一个整天以代码为伴的码农，避免不了会接触到各种代码提示工具，但是呢，用久了之后会发现他们都有个共同点，那就是模型巨大，动辄几百兆；并且模型大必然需要更多的计算，同样会导致电脑内存占用高，风扇呼呼的转，时间久了逐渐会发现电脑存储不够用了，电脑变卡了等等问题。
那么，有没有一款轻量化的代码提示插件？或者说，如何实现一款轻量化的代码提示插件呢？
下面我会从模型选择、模型实现、模型优化三个方面来介绍我们在代码智能提示方面的一些实践。

模型选择

如何衡量一个模型的效果是好还是不好呢？
我们首先建立了基本的模型衡量体系，见下图。
【JS】我在阿里云做前端代码智能化

我们会从推荐的准确性、完整性、连续性、性能、个性化以及智能性六个维度去综合评价一个模型的优劣。之后，我们会进一步完善这个体系，使之能够系统完整的评测模型的效果。

实践中，我们选取了 GPT-2模型和基于markov的n-gram统计模型进行对比。
对比发现，GPT-2模型在准确性和完整性方面表现优异，但是在性能方面，由于模型较大，推荐一次耗时较久，（这里我们试了最少参数的版本，训练之后模型在500M左右，推荐一次大概需要10S ），由于暂时没找到模型压缩的方法，只能暂时放弃。
另一个n-gram模型，在测试后发现，它在持续推荐和性能方面表现优异，模型大小仅有40M，但也并非完美，在准确性和完整性方面表现的不是很好。
在实践中，我们发现，推荐耗时在毫秒级别能够使用户顺畅无阻碍的编写下去，多于1s，则会让用户的输入产生停顿。基于此我们暂时选取n-gram作为我们的推荐模型。

模型实现

下面介绍一下n-gram模型的基本原理以及我们的实现。
首先，n-gram模型基于马尔可夫链的假设，即：当前这个词出现的概率仅仅跟前面几个有限的词相关。以最简单的n=2为例，即下一个词出现的概率仅跟之前一个词相关，基于这个思想，我们将大量代码进行切分，这样我们得到了很多的二元组，这里可以使用单词的出现次数代表概率。这样，我们根据一个词就可以得到一个不同概率分布的推荐列表，然后每次都以当前词进行推荐，就可以产生持续不断的推荐了。切分的效果参考这张图

【JS】我在阿里云做前端代码智能化