互联网资讯 / 人工智能 · 2023年11月1日 0

顶级开发工具指南及Jupyter的关键发现

最近,一份关于AI创业公司最佳开发工具的指南引起了广泛关注。

顶级开发工具指南及Jupyter的关键发现

除了备受欢迎的开发环境Jupyter外,Deepnote也开始崭露头角。

顶级开发工具指南及Jupyter的关键发现

这个由小团队打造的Deepnote,已经吸引了部分公司开始使用,甚至有可能向「Jupyter Notebook」发起挑战。

顶级开发工具指南及Jupyter的关键发现

许多网友表示对此工具充满好奇,纷纷表示想要体验一下。

顶级开发工具指南及Jupyter的关键发现

顶级开发工具指南及Jupyter的关键发现

这也促使Deepnote的开发者主动前来解答用户的疑问。

顶级开发工具指南及Jupyter的关键发现

那么,这份指南具体涵盖了哪些内容?还有哪些其他有趣的开发工具呢?

调研结果

本次调查由轻量级工具集成网站neptune.AI进行,采访了41家AI初创公司。

顶级开发工具指南及Jupyter的关键发现

以下是调查结果:

软件开发环境

在IDE方面,Jupyter Lab及其NB扩展(少数使用Deepnote)、Colab、PyCharm和VS Code是最常用的选择(R用户多选RStudio)。大多数团队使用GitHub,Python是主要语言,部分团队使用R,此外Clojure也榜上有名。

对于环境和基础设施的设置,用户分享了以下建议:

AWS被认为是理想的部署平台(SiMple report)。Anaconda是进行ML实验的首选工具,因其能够将代码、计算结果、解释性文本和多媒体资源整合在一个文档中(Scanta)。Redis在内存数据存储中占主导地位,因为其支持多种抽象数据结构(Scanta)。Snowflake和Amazon S3常用于数据存储(HypeRgiant)。Spark-PySpark是进行大数据分配作业的简单API(HotelMize)。

机器学习框架

机器学习框架的选择同样重要,各团队的选择各有不同。

顶级开发工具指南及Jupyter的关键发现

Pandas是处理表格数据时使用频率最高的工具。

SigMa PolaRis的CEO表示,Pandas在与外部开发者合作时极为有效,数据以数据框架形式存在,使得协作更加顺畅。

在可视化工具方面,Matplotlib和Plotly是团队的首选。还有公司推荐Dash,它基于Plotly构建的交互式仪表盘更具用户友好性。

对于标准机器学习问题,Scikit-learn和XGBoost是最常用的工具,尤其是Scikit-learn。

iSchoolConnect公司指出,Scikit-learn是机器学习研究人员和工程师的常用工具箱,极为方便。

在深度学习框架方面,PyTorch和TensorFlow+Keras受到青睐。

在特定领域,NLP常用Hugging Face、Spacy和Gensim,计算机视觉方面则离不开OpenCV。

MLOps

MLOps被视为机器学习领域的DevOps,涵盖了将模型集成并部署到生产系统所需的所有工具。

这包括模型的部署、访问和性能跟踪,以及实时管理和测试。

每个团队根据自身需求使用不同的工具。

顶级开发工具指南及Jupyter的关键发现

调查结果显示:

编排工具包括Kubeflow、Airflow、Amazon SageMaker和Azure;模型包装和服务使用Kubeflow、MLflow和Amazon SageMaker;模型训练到推理的优化使用pytest-benchmark和MLPerf;实验管理则倾向使用MLflow、Comet和Neptune。

总体来看,许多团队使用Jupyter进行探索,使用PyCharm或VS Code进行开发。

他们普遍喜欢GitHub,Python语言的使用最为广泛。

在深度学习框架中,TensorFlow、Keras和PyTorch是首选。

值得一提的是,越来越多的人开始使用高级PyTorch训练框架,如Lightning、Ignite、Catalyst、FastAI和Skorch。

在可视化探索方面,团队使用Matplotlib、Plotly、Altair和Hiplot。

对于实验追踪,常用的开源软件包有TensorBoard、MLflow和Sacred。