Trust in Data Science

Collaboration, Translation, and Accountability in Corporate Data Science Projects

吴诗涛 2024-03-31

Samir Passi and Steven J. Jackson. 2018. Trust in Data Science: Collaboration, Translation, and Accountability in Corporate Data Science Projects. Proc. ACM Hum.-Comput. Interact. 2, CSCW, Article 136 (November 2018), 28 pages. https://doi.org/10.1145/3274405

论文概述

这篇论文主要探讨企业中数据科学项目的信任问题。作者 Samir Passi 参与 DeepNetwork 的数据科学项目,并担任了其中两个商业项目的首席数据科学家。此外,他开展田野调查,采访数据科学家、项目经理、产品经理、业务分析师以及公司高管,通过采访数据结合亲身经历作为论文的实践支撑。

论文发现,企业中数据科学项目中信任的建立是深度协作的成果,为在不确定的世界中务实地行动提供支持。文中提到了解决信任问题的主要机制:

  1. 算法见证(algorithmic witnessing):通过技术手段评估模型性能。
  2. 责任审议(deliberative accountability):通过多个领域专家的多个视角协作评估模型。

作者建议,未来的数据科学教育应包含协作、翻译等方面的内容,以便数据科学家更能有效地参与团队合作。

术语

论文内容

Introduction

Trust, Objectivity, and Justification

Research Site, Methods, and Findings

Case 1 | Churn Prediction

Case 2 | Special Finding

Discussion

阅读感受

作为开启论文阅读后的第一篇文献,这篇论文最先吸引我的是它采用田野调查,而不是目前很流行的实证模型进行论证。另外,在企业的数据部门实习+工作小半年,尝试做了模型产品,让我有经历支撑我去阅读它。

企业中各部门的场景不同,关注内容也不同,因此翻译和协作至关重要,比如业务部门想评估客户的付款意愿度等级,对于数据部门来说可能是预测付款概率的问题。

在模型评审会上,我们会报告模型性能指标,如准确率、召回率等等,不同产品、不同业务关注的模型性能指标不同。我们还会报告模型特征、特征权重等内容,以帮助业务人员判断模型是否与业务逻辑相符。论文中也指出:当业务中的重要指标没有出现在模型中,即反直觉出现时,可能是新的知识出现。

结论部分,作者回到开放科学,认为日常数据科学工作流程的大部分内容都需要文档记录。确实如此,数据分析报告、模型结果一般被认为是最终需要的内容,但是数据分析、建模的过程往往充满各种琐碎的细节和决策的依据,这些内容是数据分析报告和模型不可或缺的一部分,但在最终的结果中往往被遗漏。因此 RMarkdownQuarto 的出现顺应大势,它们让分析建模的过程可选择性地展示出来,提高数据科学过程的透明度,有利于提高可信度。

在未来研究中,作者提到数据科学纳入到企业实践中的方式和立场因组织而异,比如:

  1. 数据科学被认为是组织知识的资产,是因为其分析能力,还是因为市场竞争的需要?
  2. 如果事情不顺利,数据科学团队成员会承担很大的损失,还是允许他们进行实验并犯错误?
  3. 在数据科学项目中,谁有最后决定权——数据科学家、项目经理、业务分析师还是业务执行人员?
  4. 数据科学家是否跨越业务垂直领域工作,还是被分配到特定的业务领域?

这不仅是数据科学的问题,也是企业管理的问题,等待俺的后续阅读、观察和思考。