linux_china技术雷达linux_china技术雷达

DataFrame

framework
采用

DataFrame(tabular data)是一种数据结构,它将数据组织成一个由行和列组成的二维表,与电子表格非常相似。 DataFrame 是现代数据分析中最常用的数据结构之一,因为它们是一种灵活且直观的数据存储和处理方式。

一个简单的类比是,DataFrame 就像一个带有命名列的电子表格。然而,它们之间的区别在于,电子表格位于一台计算机上的一个特定位置, 而 DataFrame 可以跨越数千台计算机。通过这种方式,DataFrame 可以使用分布式计算集群对大数据进行分析。

术语

  • Series: 1-dimensional data structure(same data type) pl.Series("a", [1, 2, 3, 4, 5])
  • DataFrame: 2-dimensional data structure that is backed by a Series

DataFrame & Friends

  • Pandas: a fast, powerful, flexible and easy to use open source data analysis and manipulation tool
  • Polars: DataFrames for the new era
  • Kotlin DataFrame: typesafe in-memory structured data processing for JVM
  • DFLib: In-memory Java DataFrame library
  • dataframe-ec: a data frame based on the Eclipse Collections framework

References