从量化开始衡量开发者工作量

发布时间：2022-04-29 19:22:46 来源：互联网

当前，对研发人员进行量化的绩效考核，是业界难题。软件用户很难了解程序员的开发工作，而每个程序员个体其实也缺乏全局信息以及对每个人贡献的了解。那么，谁又能来决定价值收益的分配呢？

一种思路是通过提交次数（NOC，Number of Commits）或代码行数（LOC，Line of Commits），比如 GitHub 就是通过提交次数给项目的开发者排名，这种方式操作简单，但是只能衡量代码的数量，无法准确衡量代码价值，而且这个统计方式会被代码的空行、注释、个人习惯等干扰。

另一种思路是使用 OKR 等通用管理工具，对项目和业务结果进行考核，结果导向，缺点是考核方式不够精细、研发过程可见度低、高度依赖团队成员的主观判断。

开源社区价值难以分配

事实上，除了项目创始人和极少数核心开发者可以通过开源项目获得一些利益以外，大部分开发者对于项目的贡献程度难以度量，这导致了开源项目所产生的价值难以分配到这部分人手中，这些利益包括社区获得的捐赠、项目商业化经营所得等。

与歌曲、电影、书籍等发行物的原创作者拥有明确的收益分成比例不同，大部分由团队研发的软件（无论是开源软件还是商业软件）很难将其收益分配给所有参与该软件研发的人员。清华大学计算机科学与技术博士、前微软研究院研究员任晶磊指出，造成这一现状的原因可以用经济学中的两个概念来解释，即信息不对称与契约成本。

如何合理衡量开发者的贡献？

从上世纪八九十年代开始，人们常常用代码行数 LOC 来衡量开发者在一个软件项目中的贡献，这种衡量方式无论在开源社区还是商业公司中都曾被广泛采用，甚至延续至今。

直到2018年，思码逸CEO和CTO在软件工程领域顶级国际学术会议FSE- 软件工程基础国际会议2018上发表了《关于量化代码贡献的开发价值》的论文，测量代码的相对重要性，代表了该领域的最新进展。12月，思码逸CTO在伯克利发表《Quantifying the Development Value of Code Contribution》；通过团队的努力，衡量开发者修改代码的工作量的指标“代码当量”也从此诞生了，与代码行数（LOC）、提交个数（NOC）等简单指标相比，基于抽象语法树（AST）计算的代码当量能更准确地反应修改代码的工作量。

以思码逸Merico研发团队推出的一种新的量化指标“代码当量”为例，“代码当量（ELOC）”可以用来替代 LOC。

ELOC 不是统计源代码层面的信息，而是评估源代码编译成的抽象语法树的复杂度。这样自然避免了源代码中注释、空行、换行等噪音。同时，对代码抽象语法树中的编辑类型、节点类型、函数内重复代码进行了加权计算，能够更加合理地反映代码工作量。

代码当量的基础计算过程如下：

1.分别将修改前的代码和修改后的代码解析为抽象语法树（AST）。

•使用tree diff算法计算将修改前的AST转换成修改后的AST的编辑脚本（Edit Script）。编辑脚本里包括四种对树的编辑操作：插入、删除、移动、更新。

•对于被编辑的抽象语法树节点，根据它的节点类型和编辑操作类型，分别进行加权计算。

•最后，对所有被编辑的节点的加权结果进行求和，即为这次修改的代码当量。

算法图示

下图简单演示了这个过程如何从代码的修改计算出代码当量的数值。