DataFrame
framework采用
DataFrame(tabular data)是一种数据结构,它将数据组织成一个由行和列组成的二维表,与电子表格非常相似。 DataFrame 是现代数据分析中最常用的数据结构之一,因为它们是一种灵活且直观的数据存储和处理方式。
一个简单的类比是,DataFrame 就像一个带有命名列的电子表格。然而,它们之间的区别在于,电子表格位于一台计算机上的一个特定位置, 而 DataFrame 可以跨越数千台计算机。通过这种方式,DataFrame 可以使用分布式计算集群对大数据进行分析。
术语
- Series: 1-dimensional data structure(same data type)
pl.Series("a", [1, 2, 3, 4, 5]) - DataFrame: 2-dimensional data structure that is backed by a Series
DataFrame & Friends
- Pandas: a fast, powerful, flexible and easy to use open source data analysis and manipulation tool
- Polars: DataFrames for the new era
- Kotlin DataFrame: typesafe in-memory structured data processing for JVM
- DFLib: In-memory Java DataFrame library
- dataframe-ec: a data frame based on the Eclipse Collections framework
References
- Pandas Cheat Sheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
- Polars Cheat Sheet: https://franzdiebold.github.io/polars-cheat-sheet/Polars_cheat_sheet.pdf
- Cheatsheet for Pandas to Polars: https://www.rhosignal.com/posts/polars-pandas-cheatsheet/