目前你正面临怎样的挑战?一位曾经的研究学者分享了自己的经历:他竟然在一家没有任何数据的公司中应聘成为首席数据科学家。
这样的情形听起来令人忍俊不禁。没有数据,数据科学家的存在就失去了意义。这并非个别现象,本文将探讨那些志向远大的数据科学家(以及未来的雇主)应了解的关键内容。
什么是数据工程?
如果说数据科学是让数据变得有用的学科,那么可以理解为数据工程是让数据成为可用资源的技术。数据工程师们是幕后基础设施的建设者,他们搭建起支持数据存储与传输的系统,使得海量数据能够与数据科学工具兼容并高效运行。
与数据科学家主要专注于数据分析不同,数据工程师更倾向于构建和维护支撑整个系统的基础架构。他们负责数据管道的管理,而数据科学家则负责数据的分析与应用。

图源:hackeRnoon
数据工程的主要工作方式包括:
- 大规模存储(数据库)与数据传输(数据管道)
- 确保支持企业运营的数据流畅通
- 为数据科学提供可靠的数据集
没有数据,你就无法进行有效的数据科学研究。如果你被一家没有数据和数据工程团队的机构聘为数据科学总监,你可能会变成一名临时的“数据工程师”。
数据工程工作中的难点在哪里?
采购食材是简单的事情,如果你只为自己做晚餐,操作无需复杂,但当规模扩大到需要处理数十吨的冰淇淋时,难度就会大大增加——如何获取、存储并保持冰淇淋的原有品质?
类似地,数据工程在处理小规模数据时相对容易,但一旦面对庞大的数据量,比如千万亿字节的文件,便会变得极为复杂。规模的扩大使得数据工程成为一门复杂的工程学科。
值得注意的是,掌握这两个学科中的一项并不意味着你对另一项就了如指掌。
如果你试图同时学习两者,可能会陷入“全能”幻想,认为数据专家必须精通所有与数据相关的知识。实际上,数据领域的知识极为广泛,没有人可以全部掌握。行业中,专注于某一领域的人才才是最宝贵的资源。
因此,理解自己属于哪一类人,明确职责分工,合作共赢,比盲目成为“全才”更为重要。
这是否意味着学习新技能是值得的?答案是肯定的,但也要根据个人兴趣与需求而定。数据工程与数据科学截然不同,如果你是数据科学家,没有经过数据工程的系统训练,那么从零开始学习也是必要的。
这也许正是你成长的契机——只要保持开放的心态。建立一个高效的数据工程团队可能需要数年的时间。当然,学习新技能是件好事,但也可能导致你原有的“数据科学肌肉”逐渐退化。
打个比方,你是一名精通英日双语的翻译,但被雇佣为“译者”,结果却需要将普通话翻译成斯瓦希里语,而你对此一无所知。虽然成为多语种翻译令人振奋,但实际操作中,可能需要先利用基础培训逐步提升,合理利用资源。
换句话说,如果一家企业没有数据或数据工程师团队,接受首席数据科学家的职位,意味着你需要花费多年时间建立团队,自己也可能无法熟练成为一名数据工程师。
最终,当你看到自己搭建的团队逐渐成熟,能够应对复杂的神经网络或贝叶斯定理推理时,你会感到非常自豪。届时,你或许只需袖手旁观,让团队成员完成具体任务。
一些实用建议:
- 明确你的职责范围:在接受数据科学总监职位前,首先要问:“谁负责提供研究所需的数据?”如果答案是你自己,那么你要清楚这意味着什么。
- 牢记你是客户:数据科学依赖于数据工程团队,确保他们将你视为关键客户。如果他们觉得你只是个“数据收藏者”,那么合作关系会很困难。你需要让他们认识到你的价值。
- 保持全局视野:虽然你是数据工程团队的重要客户,但也要知道,你可能不是唯一的对象。企业的数据运转通常是自动化的,盲目以为一切都围绕你转是不明智的。
- 问责制:在引入大量新数据前,与数据工程师协商,让他们对合作结果负责。这样,团队才能健康发展,合作也会更加顺畅。
