成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

開源
在這篇分析報告中,我們將使用2017年度截止至當前時間(2017年10月)為止,GitHub上所有公開的推送事件的數據。對于每個GitHub用戶,我們將盡可能地猜測其所屬的公司。此外,我們僅查看那些今年得到了至少20個星標的倉庫。

在這篇分析報告中,我們將使用2017年度截止至當前時間(2017年10月)為止,GitHub上所有公開的推送事件的數據。對于每個GitHub用戶,我們將盡可能地猜測其所屬的公司。此外,我們僅查看那些今年得到了至少20個星標的倉庫。

以下是我的報告結果,你也可以在我的交互式 Data Studio 報告上進一步加工。

***云服務商的比較

2017 年它們在 GitHub 上的表現:

  • 微軟看起來約有 1300 名員工積極地推送代碼到 GitHub 上的 825 個***倉庫。
  • 谷歌顯示出約有 900 名員工在 GitHub 上活躍,他們推送代碼到大約 1100 個***倉庫。
  • 亞馬遜似乎只有 134 名員工活躍在 GitHub 上,他們推送代碼到僅僅 158 個***項目上。
  • 不是所有的項目都一樣:在超過 25% 的倉庫上谷歌員工要比微軟員工貢獻的多,而那些倉庫得到了更多的星標(53 萬對比 26 萬)。亞馬遜的倉庫 2017 年合計才得到了 2.7 萬個星標。

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

紅帽、IBM、Pivotal、英特爾和 Facebook

如果說亞馬遜看起來被微軟和谷歌遠遠拋在了身后,那么這之間還有哪些公司呢?根據這個排名來看,紅帽、Pivotal 和英特爾在 GitHub 上做出了巨大貢獻:

注意,下表中合并了所有的 IBM 地區域名(各個地區會展示在其后的表格中)。

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

Facebook 和 IBM(美)在 GitHub 上的活躍用戶數同亞馬遜差不多,但是它們所貢獻的項目得到了更多的星標(特別是 Facebook):

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

接下來是阿里巴巴、Uber 和 Wix:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

以及 GitHub 自己、Apache 和騰訊:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

百度、蘋果和 Mozilla:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

(LCTT 譯注:很高興看到國內的***互聯網公司阿里巴巴、騰訊和百度在這里排名前列!)

甲骨文、斯坦福大學、麻省理工、Shopify、MongoDb、伯克利大學、VmWare、Netflix、Salesforce 和 Gsa.gov:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

LinkedIn、Broad Institute、Palantir、雅虎、MapBox、Unity3d、Automattic(WordPress 的開發商)、Sandia、Travis-ci 和 Spotify:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

Chromium、UMich、Zalando、Esri、IBM (英)、SAP、EPAM、Telerik、UK Cabinet Office 和 Stripe:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

Cern、Odoo、Kitware、Suse、Yandex、IBM (加)、Adobe、AirBnB、Chef 和 The Guardian:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

Arm、Macports、Docker、Nuxeo、NVidia、Yelp、Elastic、NYU、WSO2、Mesosphere 和 Inria:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

Puppet、斯坦福(計算機科學)、DatadogHQ、Epfl、NTT Data 和 Lawrence Livermore Lab:

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

我的分析方法

我是怎樣將 GitHub 用戶關聯到其公司的

在 GitHub 上判定每個用戶所屬的公司并不容易,但是我們可以使用其推送事件的提交消息中展示的郵件地址域名來判斷。

  • 同樣的郵件地址可以出現在幾個用戶身上,所以我僅考慮那些對此期間獲得了超過 20 個星標的項目進行推送的用戶。
  • 我僅統計了在此期間推送超過 3 次的 GitHub 用戶。
  • 用戶推送代碼到 GitHub 上可以在其推送中顯示許多不同的郵件地址,這部分是由 GIt 工作機制決定的。為了判定每個用戶的組織,我會查找那些在推送中出現更頻繁的郵件地址。
  • 不是每個用戶都在 GitHub 上使用其組織的郵件。有許多人使用 gmail.com、users.noreply.github.com 和其它郵件托管商的郵件地址。有時候這是為了保持匿名和保護其公司郵箱,但是如果我不能定位其公司域名,這些用戶我就不會統計。抱歉。
  • 有時候員工會更換所任職的公司。我會將他們分配給其推送最多的公司。

我的查詢語句

  1. #standardSQL 
  2. WITH 
  3. period AS ( 
  4.   SELECT * 
  5.   FROM `githubarchive.month.2017*` a 
  6. ), 
  7. repo_stars AS ( 
  8.   SELECT repo.id, COUNT(DISTINCT actor.login) stars, APPROX_TOP_COUNT(repo.name, 1)[OFFSET(0)].value repo_name  
  9.   FROM period 
  10.   WHERE type='WatchEvent' 
  11.   GROUP BY 1 
  12.   HAVING stars>20 
  13. ),  
  14. pushers_guess_emails_and_top_projects AS ( 
  15.   SELECT * 
  16.     # , REGEXP_EXTRACT(email, r'@(.*)') domain 
  17.     , REGEXP_REPLACE(REGEXP_EXTRACT(email, r'@(.*)'), r'.*.ibm.com''ibm.com') domain 
  18.   FROM ( 
  19.     SELECT actor.id 
  20.       , APPROX_TOP_COUNT(actor.login,1)[OFFSET(0)].value login 
  21.       , APPROX_TOP_COUNT(JSON_EXTRACT_SCALAR(payload, '$.commits[0].author.email'),1)[OFFSET(0)].value email 
  22.       , COUNT(*) c 
  23.       , ARRAY_AGG(DISTINCT TO_JSON_STRING(STRUCT(b.repo_name,stars))) repos 
  24.     FROM period a 
  25.     JOIN repo_stars b 
  26.     ON a.repo.id=b.id 
  27.     WHERE type='PushEvent' 
  28.     GROUP BY  1 
  29.     HAVING c>3 
  30.   ) 
  31. SELECT * FROM ( 
  32.   SELECT domain 
  33.     , githubers 
  34.     , (SELECT COUNT(DISTINCT repo) FROM UNNEST(repos) repo) repos_contributed_to 
  35.     , ARRAY( 
  36.         SELECT AS STRUCT JSON_EXTRACT_SCALAR(repo, '$.repo_name') repo_name 
  37.         , CAST(JSON_EXTRACT_SCALAR(repo, '$.stars'AS INT64) stars 
  38.         , COUNT(*) githubers_from_domain FROM UNNEST(repos) repo  
  39.         GROUP BY 1, 2  
  40.         HAVING githubers_from_domain>1  
  41.         ORDER BY stars DESC LIMIT 3 
  42.       ) top 
  43.     , (SELECT SUM(CAST(JSON_EXTRACT_SCALAR(repo, '$.stars'AS INT64)) FROM (SELECT DISTINCT repo FROM UNNEST(repos) repo)) sum_stars_projects_contributed_to 
  44.   FROM ( 
  45.     SELECT domain, COUNT(*) githubers, ARRAY_CONCAT_AGG(ARRAY(SELECT * FROM UNNEST(repos) repo)) repos 
  46.     FROM pushers_guess_emails_and_top_projects 
  47.     #WHERE domain IN UNNEST(SPLIT('google.com|microsoft.com|amazon.com''|')) 
  48.     WHERE domain NOT IN UNNEST(SPLIT('gmail.com|users.noreply.github.com|qq.com|hotmail.com|163.com|me.com|googlemail.com|outlook.com|yahoo.com|web.de|iki.fi|foxmail.com|yandex.ru''|')) # email hosters 
  49.     GROUP BY 1 
  50.     HAVING githubers > 30 
  51.   ) 
  52.   WHERE (SELECT MAX(githubers_from_domain) FROM (SELECT repo, COUNT(*) githubers_from_domain FROM UNNEST(repos) repo  GROUP BY repo))>4 # second filter email hosters 
  53. ORDER BY githubers DESC 

FAQ

有的公司有 1500 個倉庫,為什么只統計了 200 個?有的倉庫有 7000 個星標,為什么只顯示 1500 個?

我進行了過濾。我只統計了 2017 年的星標。舉個例子說,Apache 在 GitHub 上有超過 1500 個倉庫,但是今年只有 205 個項目得到了超過 20 個星標。

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

這表明了開源的發展形勢么?

注意,這個對 GitHub 的分析沒有包括像 Android、Chromium、GNU、Mozilla 等***社區,也沒有包括 Apache 基金會或 Eclipse 基金會,還有一些其它項目選擇在 GitHub 之外開展起活動。

這對于我的組織不公平

我只能統計我所看到的數據。歡迎對我的統計的前提提出意見,以及對我的統計方法給出改進方法。如果有能用的查詢語句就更好了。

舉個例子,要看看當我合并了 IBM 的各個地區域名到其***域時排名發生了什么變化,可以用一條 SQL 語句解決:

  1. SELECT *, REGEXP_REPLACE(REGEXP_EXTRACT(email, r'@(.*)'), r'.*.ibm.com', 'ibm.com') domain 

 

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

2017年哪個公司對開源貢獻最多?讓我們用GitHub的數據分析下

當合并了其地區域名后, IBM 的相對位置明顯上升了。

回音

關于“ GitHub 2017 年***貢獻者”的一些思考

接下來

我以前犯過錯誤,而且以后也可能再次出錯。請查看所有的原始數據,并質疑我的前提假設——看看你能得到什么結論是很有趣的。

  • 用一下交互式 Data Studio 報告

感謝 Ilya Grigorik 保留的 GitHub Archive 提供了這么多年的 GitHub 數據!

責任編輯:未麗燕 來源: Linux中國
相關推薦

2021-10-09 12:10:38

索尼Linux基金會開源

2024-01-29 18:04:24

前端框架TypeScript

2017-12-08 12:44:44

GithubiOS機器學習

2018-08-15 09:16:40

2019-08-05 13:35:10

數據分析Python分析工具

2019-12-10 09:14:12

數據分析初創公司大數據

2020-12-01 22:35:12

數據分析初創公司數據

2021-08-09 09:39:59

Docker部署鏡像

2016-11-22 23:44:56

2017-03-20 10:22:58

大數據

2018-12-06 08:19:27

數據分析初創公司智能技術

2013-01-09 09:57:34

大數據分析大數據Actuate

2017-03-06 17:04:54

數據分析智能數據張冬梅

2017-03-22 22:52:52

大數據分析預測報告

2009-05-11 15:53:39

開源LinuxUbuntu

2021-08-05 05:02:04

DPU數據中心Pensando

2022-12-13 11:13:34

數據傳感器

2022-07-10 23:15:46

Go語言內存

2014-04-15 10:11:05

Github開源

2017-07-28 09:00:59

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美片网站免费 | 人人干人人舔 | 中文字幕国产 | 亚洲国产精品99久久久久久久久 | 成人免费看片网 | www.久久久.com | 欧美在线国产精品 | 欧美日韩精品免费观看 | 在线一区二区三区 | 亚洲v日韩v综合v精品v | 亚洲第一在线 | 国产精品久久久爽爽爽麻豆色哟哟 | 欧美日韩精品一区二区天天拍 | 久久久久国产精品一区二区 | 91九色在线观看 | 色综合视频| 亚洲国产成人在线观看 | 国产精品久久久久久久久久久免费看 | 国产一区视频在线 | 欧美性tv| 在线伊人网 | 国产成人99久久亚洲综合精品 | 大象视频一区二区 | 青青草网站在线观看 | 精品视频国产 | 国产精品日韩高清伦字幕搜索 | 亚洲精品av在线 | 色约约视频 | 奇米超碰在线 | 国产精品久久久久久久久久免费看 | 2019天天操 | 欧美一区二区三区精品免费 | 久久久久久国产精品免费免费 | 欧美video | 日韩精品在线免费观看 | 国产精品久久久久久吹潮 | 国产精品激情 | 国产在线观看不卡一区二区三区 | 一级毛片视频 | 欧美日韩亚洲系列 | 99久久精品免费 |