
弥合差距:加速环境开源
回顾我的旅程,探索开放数字基础设施如何帮助我们保护自然世界。
从机器人技术到气候
四年周期——无论是总统任期、国际足联世界杯还是闰年——都可能意义重大。开放可持续技术项目启动至今已有四年。当时,我在过去五年建立的大部分研发团队已被DHL/Streetscooter解雇。为了回馈机器人技术社区,我们发布了“Awesome Robotic Tooling”列表,其中列出了我们制造的各种自动和电动卡车的最佳工具。但是,如何继续走我多年来热爱的自由和协作创新之路呢?我决定转变我的职业生涯,专注于开放技术对长期积极影响的潜力。

令我惊讶的是,还没有人编制关于气候变化和可持续性方面的开源软件(OSS)的全面概述。当然,有一些关于各种可持续性主题的列表,但其中大多数没有更新,或者只代表了这个OSS生态系统的一小部分。
感谢疫情、我的失业以及朋友们的支持,团队在2021年9月发布了早期成果。反馈非常热烈。我们意识到几乎没有人真正理解开源可以为应对气候变化和保护自然世界做些什么。也没有人谈论开源已经发挥的关键作用。时至今日,开放可持续技术仍然是世界领先的项目之一,它以科学的方式分析和倡导开放方法如何加速可持续转型。一个没有资金支持、只有少数志愿者的社区项目能够做到这一点,既令人震惊又令人鼓舞。

理解开源中的自然动态
通常,OSS生态系统是从用户角度创建的,基于正在使用的基础设施,或者作为更大的技术框架或编程语言的一部分。很少有人尝试根据常见的现实世界应用和问题来映射OSS生态系统。我经常听到有人说我们的方法很疯狂,而且考虑到该领域项目的数量,技术上不可行。由于我也开始攻读大气科学博士学位,因此我能够利用我的研究继续在全球范围内为乐趣策划该领域的强大研究项目。
当关注开始消退,并且大多数支持贡献者开始从事其他项目时,需要一种有效的方法来决定一个项目是否值得列入清单。气候和可持续性项目面临的挑战是从噪音中筛选出相关项目。哪个项目可以被重用,并为其他OSS项目和开发人员创造附加值?因此,我没有评判项目及其源代码的质量,而是专注于外部使用指标,例如下载量和项目外部用户提出的问题。
我的学习、以前的工作经验和各种词汇表帮助我找到了相关的关键词。例如,云是气候预测中最困难的方面之一,但几乎不可能找到相关的项目,因为它们被埋没在大量的云计算之下。海洋、海、环境、大气、电池和碳等术语也是如此。
“OSS社区很难围绕相关主题聚集,因为他们找不到彼此,并且被迫一遍又一遍地重复造轮子。我仍然相信,OSS可持续性的主要问题是缺乏一个全面的搜索引擎,以帮助您找到适合您用例的(活跃且有文档记录的)项目。”
项目启动一年后,我开始失去动力。令人遗憾的是,看到该领域有多少项目在发布后没有得到进一步发展,即使您看到他们多么努力地建立社区。我估计,我审查过的数千个存储库中,超过95%现在处于非活动状态。由于所采用的多样化技术和方法,该领域的研究非常令人兴奋,但也突显了许多环境挑战的紧迫性。让我坚持下去的是我能够为自己和他人创造的独特见解。OSS在气候和生物多样性方面具有巨大的、未开发的潜力。这种潜力不仅限于科学研究,还扩展到商业实践和可持续未来的系统性变革。
关于环境模型、数据和声明的开放性是真正可持续发展努力的最重要指标。环境可持续发展的本质要求这种开放性:我们的星球太复杂了,无法用黑匣子来解释。解释、规划和预测需要一种开放迭代的方式,以长期改进假设和模型。

初步见解
数据库已经显示出明显的趋势,例如缺乏公司和营利组织。同样清楚的是,在可追溯的数字对正常业务不利的情况下,OSS和开放科学发挥的作用微乎其微,即使软件和高质量的数字非常重要。到目前为止,这些特别包括碳补偿、与企业“气候中和”、企业排放、可持续投资和碳捕获相关的任何内容。作为这项“差距”分析的一部分,很明显,目前没有现有的开源气候模型,能够提供可验证的科学数据来反驳气候变化导致长期环境破坏的说法。然而,有各种规模较小的和较大的模型,以及它们的支持数据,都加强了这种令人震惊的趋势。
我开始撰写关于这些发现的博客文章,例如关于可持续投资中缺乏OSS,以及这与协作可持续性评级缺乏可重复性有何关系。令我惊讶的是,这些文章触及了全球数十万人。在看到使用OSS进行创新和创造气候行动是多么容易之后,我继续发表演讲和撰写文章来激励他人。即便如此,我仍然不明白为什么“开源之道”在气候和可持续发展社区中如此不被理解、推广和传播。准确和透明地量化一项技术的可持续性可以帮助减轻政治操纵和游说造成的不确定性。仅仅要求相关人士为生物燃料或碳捕获等技术提供开放模型和开放科学,就可以结束这些领域中的虚假信息。
首次生态系统分析
在大约一年的时候,Eirini Malliaraki联系我,报告说她获得了Subak的资助,以帮助分析迄今为止发现的项目。如果没有她的帮助和重燃的动力,这个项目可能已经被放弃了。我们两人互相支持,共同撰写了关于《开源可持续发展生态系统》的第一份报告,Josh Hopkins稍后也加入了进来。

幸运的是,在项目开始时,我们决定专注于Git存储库。这使我们能够使用Git平台的API检索有关项目和组织的元数据。我们还发现,一般的开源生态系统分析是一个令人着迷的新科学领域。引入一个新的健康指标,例如“发展分布评分”,使我们能够对社区有一个初步的印象。就像在自然生态系统中一样,我们可以研究类似的量,例如主题的多样性、组织结构、全球分布以及如何“保存”这些项目。
在一次展示我们发现的会议上,我遇到了Ecosyste.ms的Andrew Nesbitt。在他的帮助下,分析跃升到了一个新的水平。来自几乎所有软件包管理器的下载量以及基于项目DOI(数字对象标识符)的引用被添加到元数据中。使用DOI将开源存储库链接到文章和论文,DOI适用于越来越多的科学项目,这大大增加了可用数据的数量。引用可以用来衡量一个项目的相关性。更多的自动化和各种方法(如嵌入)挖掘出了数百个额外的项目。除了对生态系统进行一些在线营销之外,我们还开始为收集的项目构建一些额外的服务,例如ClimateTriage.com,以帮助开发人员贡献力量并加入开放气候社区。
维持运营的挑战
然而,随着超过1000个组织和2000个项目,寻找新项目变得越来越困难。对许多人来说,该项目变成了我个人的项目,我发现很难恢复最初存在的社区意识和共同责任感。
团队调查了是否可以根据多年来收集的关键词发现新的开放获取科学出版物。我们还调查了如何将自然语言处理(NLP)和大型语言模型(LLM)等方法应用于我们的数据集。
障碍是什么?我们无法为这项工作或我们的大部分其他工作找到资金。坦白说:这很大程度上是我的错,因为我早期避免建立资金来源和法律组织。随着该项目的受欢迎程度飙升至生态系统中的第四位,拥有超过2000颗星,我对在需要时获得资金感到乐观。
由于该领域几乎所有的“awesome”列表都在多年前放弃了,我们需要一个策略来维护现有的列表,因为越来越多的人开始依赖我们的见解和数据。否则,我们将会在任务中失败,留下一个由OSS项目组成的集群空间,项目之间几乎没有协作,因为他们根本不了解彼此。

未来步骤
为了将开放可持续技术提升到新的水平,我们的社区正在率先探索各种后续项目。这些项目包括创建一个基金,作为开源生态系统的附加服务。为健康指标较低的关键项目及其依赖项分配资金,可以帮助维护我们未来的一些最重要的基础设施。基于项目元数据分配资金将大大减少基金会努力应对的行政管理费用。依靠各种项目指标将使资金的分配方式和原因更加透明。
团队还在考虑创建一个关于新发布的环境OSS项目的新闻提要,基于多年来发现的关键词。Andrew提出了一个想法,即使用我们的关键词搜索所有新的开放获取论文,以查找软件和数据存储库。
话虽如此,该项目未来的发展道路尚不清晰。由于它依赖于我的个人资源和志愿者,因此不可能制定详细的路线图。很大程度上取决于我们构建的未来原型是否能够取得成功,并在社区成员之间建立牢固的联系。幸运的是,该项目较低的运营成本将使我们能够持续努力,无限期地继续构建这个OSS气候和可持续性分析和目录。一个自由的社区提供了许多优势,因为我们可以创新和表达自己,而没有股东等限制。多年来,我对此深有体会。
参与进来
我坚信,开源是气候变化难题中最重要的一块拼图。虽然无法证明,但为了将环境问题融入我们以数字驱动的经济体中,我们需要可追溯的软件、数据和模型。没有这些,可持续性仍然只是一个概念。认识到开源在该领域的潜力对于弥合这一差距至关重要。
您有兴趣帮忙吗?只需参加我们的公共研讨会之一或捐赠给我们的Open Collective。您还可以在ClimateTriage.com上找到一个列出“Good First Issues”的项目,该项目欢迎新的贡献者。
2 条评论
评论已关闭。