当前位置: 首页 > news >正文

现在给别人做网站还赚钱吗哈尔滨的网络科技开发公司

现在给别人做网站还赚钱吗,哈尔滨的网络科技开发公司,网站建设西班牙语,去黄山旅游攻略和费用我在2021年底开始使用Polars和DuckDB。我立刻意识到这些库很快就会成为数据科学生态系统的核心。自那时起,这些库的受欢迎程度呈指数级增长。 在这篇文章中,我做出了一些关于未来几年数据科学领域的发展方向和原因的预测。 这篇文章旨在检验我的预测能力…

我在2021年底开始使用Polars和DuckDB。我立刻意识到这些库很快就会成为数据科学生态系统的核心。自那时起,这些库的受欢迎程度呈指数级增长。

在这篇文章中,我做出了一些关于未来几年数据科学领域的发展方向和原因的预测。

这篇文章旨在检验我的预测能力。但我也写这篇文章是为了引发关于关键趋势的讨论,并帮助数据科学家思考他们在未来几年应该发展的技能。

注意事项

  1. 这篇文章是从一个传统上以Pandas进行探索性数据分析,然后将分析结果以无服务器函数形式进行生产化的工作者的角度出发。生产阶段可能涉及机器学习模型,但也可能是一组定义好的规则和正则表达式。
  2. 我的经验也包括作为研究科学家在集群上运行大规模分析,而不涉及任何无服务器生产阶段。

预测一:Polars 和 DuckDB 将取代 Pandas 作为表格数据的核心工具

随着性能上相比 Pandas 的巨大飞跃,Polars 和 DuckDB 将成为 Python 中数据分析的标准工具。这一转变已经从那些感受到最大性能压力的用户开始,但随着它们周围生态系统的发展,它们将成为标准。

然而,这些工具的优势并不仅仅在于它们计算速度有多快。Polars 的表达式语法比 Pandas 中相应的语法更适合描述数据转换。这两个库都应用了自动查询优化,避免了 Pandas 代码越来越繁琐的手动优化。它们还都处理了并行化和大于内存的数据,而无需其他无数依赖项。

我认为 Polars 和 DuckDB 将成为双寡头,而不是其中之一取代 Pandas 成为垄断者。尽管这两个库的功能有很多重叠,但有些人会想要一个像 DuckDB 这样的工具,它拥有更多关系型数据库的陷阱,而有些人则不会。

预测二:Arrow 将成为数据科学生态系统的核心技术

Apache Arrow 是一种用于表示内存中数据的格式。Arrow 的设计是语言无关的,并且许多语言中都出现了实现这种格式的库。

Polars 是直接基于名为 Arrow2 的 Rust Arrow 库构建的。DuckDB 并不是基于 Arrow 构建的,但它可以从 Arrow 数据中进行零拷贝读取。

Arrow 将取代 Numpy 数组在数据科学生态系统中表格数据的核心地位。这意味着可视化、机器学习和其他库将接受 Arrow 对象作为输入。由于 Arrow 允许零拷贝数据交换,这些库将能够直接从数据框中直接摄取数据,而无需像现在这样进行大量浪费性的数据复制。

随着 Arrow 使得进程间通信更加容易,我们还将看到数据科学工具的融合,例如在 Python 脚本中拟合 R 模型。

在这方面,变革的步伐比 Polars 和 DuckDB 的采用要慢一些。然而,变革的步伐正在加快。例如,XGBoost 模型现在接受 Arrow 表作为输入,而 Huggingface 的 Datasets 库则使用 Arrow 作为其本地缓存系统。

预测三:Rust 化的趋势

在数据科学蓬勃发展的十年里,我所在领域的日常工作主要由像 Python 这样的动态语言或像 R 和 Julia 这样使用即时编译的语言主导。虽然像 C 和 C++ 这样的编译型语言被用于 Python 扩展或 DuckDB 的内部,但很少有数据科学家直接使用它们。

我预测 Rust 将成为数据科学家常用的第一种预编译语言(而不会取代 Python 和 R 作为主要语言)。Rust 在数据科学家中的普及将受到 Polars 的推动,用户会发现从使用 Python 切换到 Rust API 的门槛相对较低——比从 Pandas 切换到 C 的门槛要低得多!

我们还将看到更多基于 Rust 构建的库,这些库将提供 Python 和 R 的 API。特别是,我认为我们将看到一个广泛使用的、用 Rust 编写并基于 Apache Arrow 的 Scikit-Learn 替代品。

在过去的几个月里,我在 Polars 的工作中明显感受到了 Rust 的优势。相比 Python,Rust 在性能上的提升是巨大的,并且并行化得到了可靠的管理。然而,Rust 周围的现代工具系统,如用于管理依赖项的 Cargo,使得 Rust 对于 Python 开发者来说比旧语言更容易接受。我之所以决定将精力集中在 Polars 而不是 DuckDB 上,其中一个因素就是我对学习 Rust 的热情远超过学习 C++。

关于GPU

我最近将Polars描述为地球上最快的数据科学工具。然而,一位受访者正确地指出,基于GPU的库(如cuDF)更快。但是,使用GPU的额外成本很高,包括GPU本身的成本以及管理额外云实例的成本。

GPU在数据处理方面的流行度将继续增长,但在未来几年内不会成为标准方法。随着Polars和DuckDB通过内置并行化和矢量化指令更高效地利用多核CPU,只有高级用户才会觉得使用GPU的成本效益是合理的。

http://www.yayakq.cn/news/552194/

相关文章:

  • 郑州网站排名优化外包泰国做企业网站
  • 做信息网站需要什么windows设置wordpress
  • 建设大型门户网站惠州网站建设教程
  • 如何查看一个网站的所有二级域名网站建设具体项目及价格
  • 路由器上建网站wordpress添加模板文件
  • 网站公司必须帮备案建设银行官方网站诚聘英才频道
  • 做温泉机的企业网站wordpress阅读量
  • 如何免费搭建自己的网站福州网站的优化
  • 三网合一网站建设公司百度关键词策划和seo的优化
  • 包头企业微网站开发硬件开发工程师需要掌握的专业知识
  • 英文网站建设 潍坊阳泉住房和城乡建设部网站
  • 天水市城市建设投资集团网站自己做网站并让别人访问
  • 做网站怎么返回首页国内气膜馆建造商
  • 教育培训机构招生网站建设新手学wordpress
  • 自己做头像的网站非流光建站网站和维护需要会什么
  • 衡阳高端网站建设2019网站怎么做
  • 建站之星管理中心Wordpress部署静态index
  • 教育网站建设多少钱利用虚拟主机建设企业网站
  • 代练中介网站有得做吗个人发布信息的免费平台
  • 网站建设需要找工信部吗网站建设板块免费下载
  • 永久域名免费注册网站如何建立国际网站
  • mysql 网站 数据库阜宁城乡建设局网站
  • 做网站的得花多少钱网站建设实训意义
  • wordpress 网站建设中医院的网络推广方案
  • 企业网站托管方案内容建立网站的几个步骤
  • 网站管理人员队伍建设说明材料股权融资
  • 韶关营销网站开发联系方式app研发费用一般多少钱
  • 站长源码论坛如何做家居网站
  • 厦门建站服务v9做的网站被攻击链接吧跳转
  • 个人做民宿需要建立网站吗2024电商哪个平台好做