最近,一份关于AI创业公司最佳开发工具的指南引起了广泛关注。

除了备受欢迎的开发环境Jupyter外,Deepnote也开始崭露头角。

这个由小团队打造的Deepnote,已经吸引了部分公司开始使用,甚至有可能向「Jupyter Notebook」发起挑战。

许多网友表示对此工具充满好奇,纷纷表示想要体验一下。


这也促使Deepnote的开发者主动前来解答用户的疑问。

那么,这份指南具体涵盖了哪些内容?还有哪些其他有趣的开发工具呢?
调研结果
本次调查由轻量级工具集成网站neptune.AI进行,采访了41家AI初创公司。

以下是调查结果:
软件开发环境
在IDE方面,Jupyter Lab及其NB扩展(少数使用Deepnote)、Colab、PyCharm和VS Code是最常用的选择(R用户多选RStudio)。大多数团队使用GitHub,Python是主要语言,部分团队使用R,此外Clojure也榜上有名。
对于环境和基础设施的设置,用户分享了以下建议:
AWS被认为是理想的部署平台(SiMple report)。Anaconda是进行ML实验的首选工具,因其能够将代码、计算结果、解释性文本和多媒体资源整合在一个文档中(Scanta)。Redis在内存数据存储中占主导地位,因为其支持多种抽象数据结构(Scanta)。Snowflake和Amazon S3常用于数据存储(HypeRgiant)。Spark-PySpark是进行大数据分配作业的简单API(HotelMize)。
机器学习框架
机器学习框架的选择同样重要,各团队的选择各有不同。

Pandas是处理表格数据时使用频率最高的工具。
SigMa PolaRis的CEO表示,Pandas在与外部开发者合作时极为有效,数据以数据框架形式存在,使得协作更加顺畅。
在可视化工具方面,Matplotlib和Plotly是团队的首选。还有公司推荐Dash,它基于Plotly构建的交互式仪表盘更具用户友好性。
对于标准机器学习问题,Scikit-learn和XGBoost是最常用的工具,尤其是Scikit-learn。
iSchoolConnect公司指出,Scikit-learn是机器学习研究人员和工程师的常用工具箱,极为方便。
在深度学习框架方面,PyTorch和TensorFlow+Keras受到青睐。
在特定领域,NLP常用Hugging Face、Spacy和Gensim,计算机视觉方面则离不开OpenCV。
MLOps
MLOps被视为机器学习领域的DevOps,涵盖了将模型集成并部署到生产系统所需的所有工具。
这包括模型的部署、访问和性能跟踪,以及实时管理和测试。
每个团队根据自身需求使用不同的工具。

调查结果显示:
编排工具包括Kubeflow、Airflow、Amazon SageMaker和Azure;模型包装和服务使用Kubeflow、MLflow和Amazon SageMaker;模型训练到推理的优化使用pytest-benchmark和MLPerf;实验管理则倾向使用MLflow、Comet和Neptune。
总体来看,许多团队使用Jupyter进行探索,使用PyCharm或VS Code进行开发。
他们普遍喜欢GitHub,Python语言的使用最为广泛。
在深度学习框架中,TensorFlow、Keras和PyTorch是首选。
值得一提的是,越来越多的人开始使用高级PyTorch训练框架,如Lightning、Ignite、Catalyst、FastAI和Skorch。
在可视化探索方面,团队使用Matplotlib、Plotly、Altair和Hiplot。
对于实验追踪,常用的开源软件包有TensorBoard、MLflow和Sacred。
