分析了46亿个GitHub事件,这款神器值得一试

强大的开源项目分析工具OSSInsight

作为在开源社区工作的人会经常使用到GitHub数据。关注开源项目的健康状况以及开源世界中的新事物非常有利于我们的工作。最近,一个使用Docusaurus、Apache ECharts、GH Archive、GHTorrent和TiDB构建的强大而有趣的调研工具OSS Insight进入了大家的视野。它使用了46 亿个 GitHub事件数据来建立了这个站点,以便多维度深入探究一个或一组开源项目,从而获得有用的见解。

(本文图片均来源于官网https://ossinsight.io/)

然而,46亿简直是一个天文数字。由盖亚太空观测站观测到的最丰富的银河系星图,只包括不到20亿颗星星。那么46亿GitHub事件的视图到底是什么样子的?在如此巨大的数据量中能发现什么秘密和价值?

本文上手尝试了一下,了解到OSS Insight主要提供两大功能,一是具体字段的分析结果,二是GitHub资料库的自定义分析工具。

特定技术领域的分析

OSS Insight提供了开源软件中流行的六个特定技术领域的分析结果,可以探索不同技术领域的趋势,找出哪些资料库最受欢迎,哪些资料库的Pull Requests/Issues 最多等。更重要的是,它还能为你提供实时的见解可供参考。

强大的自定义分析
在分析你感兴趣的软件库时,一个可视化的综合工具会非常有帮助。

在搜索栏或导航栏输入/选择任何一个数据库,它将引导你进入详细的分析页面。除了概览之外,我们还将从提交、拉动请求、问题和人这四个维度来分析资源库。通过许多实时更新的动态的、有趣的图表,你将对这个资源库有一个深入的了解。

如果你想把自己的资源库和其他资源库进行比较,只需添加另一个资源库库的名字,就能立即得到一个对比的结果,经过简单的处理,它可以成为一个独特的比较分析报告。

可比较任何两个GitHub项目

下面让我们以Kubernetes(K8s)和Docker的Moby资源库为例,从人气和编码活力方面对这两个资源库进行比较。

1. 人气

为了比较两个资源库的受欢迎程度,我们使用了多个指标,包括Star的数量,Star随时间的增长趋势,以及追星族的地理和就业分布。

Star的数量
下面的折线图显示了K8s和Moby每年累积的Star数量。根据该图,Moby在2019年底之前一直领先于K8s。2017年后,Moby的星数增长放缓,而K8s则保持了稳定的增长速度。
分析了46亿个GitHub事件,这款神器值得一试_第1张图片
追随者的地理分布
下面的地图显示了 Moby 和 K8s 追随者的地理分布。 他们的追随者分散在世界各地,其中大多数来自美国、欧洲和中国。
分析了46亿个GitHub事件,这款神器值得一试_第2张图片
追随者就业的公司分布
下面的图表显示了K8s(红色)和Moby(深蓝色)的追随者的就业情况。他们都在各行各业工作,其中大多数来自领先的网络公司,如谷歌、腾讯和微软。不同的是,K8s追随者的前两名公司是来自美国的谷歌和微软,而Moby的前两名追星族是来自中国的腾讯和阿里巴巴。
分析了46亿个GitHub事件,这款神器值得一试_第3张图片

2. 编码活力

为了比较两个GitHub项目的编码活力,我们使用了许多指标,包括拉动请求(PRs)的增长趋势,每月PRs、提交和推送的数量,以及开发人员贡献时间的热图。

提交和推送的数量
下面的柱状图显示了K8s(顶部)和Moby(底部)成立后每个月的提交和推送数量。一般来说,K8s比Moby有更多的推送和提交,它们的数量在2020年之前稳定增长,之后有所放缓。Moby的月推送量和提交量在2015年至2017年间有小幅增长,2018年后几乎没有增长。
分析了46亿个GitHub事件,这款神器值得一试_第4张图片
PRs的数量
下面的图表显示了两个软件库的月度和累积的PR数量。如你所见,K8s自成立以来一直收到稳定和持续的PR贡献,其累积的PR数量也在稳步增长。Moby在2017年底之前的PR投稿很活跃,但之后就开始下降了。它的累计PR数量在2017年达到了一个高点,此后一直保持这个状态。
分析了46亿个GitHub事件,这款神器值得一试_第5张图片
开发人员的贡献时间
下面的热图显示了开发者对K8s(左边)和Moby(右边)的贡献时间。每个方块代表一天中的一个小时。颜色越深,说明该时间段内的贡献越多。K8s比Moby有更多的深色部分,而且K8s的贡献几乎是一天24小时,一周7天。K8s肯定比Moby有更多的动态编码活动。
分析了46亿个GitHub事件,这款神器值得一试_第6张图片
综合来看,这些指标表明,虽然K8s和Moby在全球各行业都很受欢迎,但K8s的编码活动比Moby更有活力。K8s的受欢迎程度和编码活力在不断提高,而Moby在这两方面都在不断下降。

流行度和编码活力只是比较资源库的两个维度。如果你想发现更多的见解或比较你感兴趣的其他项目,请随时访问比较页面,自己去探索。

当然,你也可以深入探索任何一个其他GitHub项目,获得关于它们的最新见解。关键指标和相应的变化可以以视觉化的方式呈现出全部的面貌。

重要的开源数据榜单

OSSInsight.io不仅仅是探索或比较数据库。它为你提供过往的或者实时的以及自定义的开源数据。这里将分享一些开源数据库和编程语言的一些关键的数据。

1. 数据库流行度榜单

历史悠久的Elasticsearch是最受喜爱的数据库
下图分别展示了过去十年开源数据库每年累计获得的star数及其增长趋势。Elasticsearch是最早的开源数据库之一。它是最受喜爱的数据库,有64554颗星,其次是Redis和Prometheus。从2011年到2016年,Elasticseasrch和Redis在榜首位置不分伯仲,直到2017年后Elasticsearch处于明显领先的地位。
分析了46亿个GitHub事件,这款神器值得一试_第7张图片

questdb:在2021年经历了人气热潮的数据库Top1
下图显示了仅在 2021 年,Star数量同比增长率最高的 10 个开源数据库,questdb在2021因人气激增而位列第一。
分析了46亿个GitHub事件,这款神器值得一试_第8张图片

clickhouse:2021年的年度新宠Top1
下图显示了在2021年获得最多Star的顶级开源数据库,深受大家欢迎的clickhouse数据库名列第一。
分析了46亿个GitHub事件,这款神器值得一试_第9张图片

中国是开源数据库的头号粉丝
下面的地图描述了数据追随者的地理分布。中国拥有最多的开源数据库追随者,有11,171名数据库存储库的追随者,是开源数据库的头号粉丝。其次是美国和欧洲。
分析了46亿个GitHub事件,这款神器值得一试_第10张图片

2. 数据库贡献者榜单

美国、中国、欧洲与印度是数据库贡献的中流砥柱
下图显示了 2021 年向开源数据库推送提交、解决问题或提交拉取请求的开发人员的地理分布。这张地图上的色点越大越深,分布的数据库贡献者越多。贡献者最多的分别为美国、中国以及欧洲地区。
分析了46亿个GitHub事件,这款神器值得一试_第11张图片

2021年elastic引领了数据库贡献值
下图显示了 2021 年向开源数据库推送提交、解决问题或提交拉取请求的开发人员分布的公司。elastic的开发人员遥遥领先于其他公司。
分析了46亿个GitHub事件,这款神器值得一试_第12张图片

3. 数据库编程语言榜单

Rust:最活跃的编程语言
Rust首次发布于2012年,10年来一直是领先的编程语言之一。在撰写本文时,它拥有最活跃的资源库,总共有103,047个PR。
分析了46亿个GitHub事件,这款神器值得一试_第13张图片
Go:新宠和增长最快的编程语言
根据OSSInsight.io的数据,10种编程语言在开源社区中占主导地位。Go是最受欢迎的,有108,317颗星,其次是Node和TypeScript。Go也是人气增长最快的语言。
分析了46亿个GitHub事件,这款神器值得一试_第14张图片
以上就是强大的开源项目分析工具OSSInsight的介绍了,感兴趣的朋友可以自行前去尝试。

参考资料:https://ossinsight.io/blog/explore-deep-in-4.6-billion-github-events#coding-vitality

https://ossinsight.io/database/deep-insight-into-open-source-databases#database-programming-languages

https://ossinsight.io/about/

你可能感兴趣的