试用
Apache DataFusion是一个用Rust编写的分布式计算引擎,它提供了一个SQL查询接口,可以让你在数据湖中运行SQL查询。 Java在大数据领域非常流行,但是Rust在这个领域也有很多潜力,DataFusion就是一个很好的例子。
DataFusion查询速度非常快,并提供了可扩展的查询引擎,用于在Rust中构建高质量的数据中心系统,使用Apache Arrow内存格式。 还提供Python绑定。DataFusion提供SQL和Dataframe API,出色的性能,内置对CSV、Parquet、JSON和Avro的支持,广泛的定制功能以及强大的社区支持。
DataFusion对数据分析的作用,可以理解为LLVM对编程语言的支持,如下:

Apache DataFusion & Friends
- Apache Arrow: https://arrow.apache.org/
- Apache Parquet: https://parquet.apache.org/
- DataBend:built in Rust, is an open-source cloud data warehouse that serves as a cost-effective alternative to Snowflake https://github.com/datafuselabs/databend
- Velox: unified execution engine from Facebook - https://velox-lib.io/
- Arroyo: cloud-native stream processing - https://www.arroyo.dev/
- qv: quickly view your data(CSV, DeltaLake, Parquet, Avro...) https://github.com/timvw/qv
References
- Apache DataFusion: https://arrow.apache.org/datafusion/
- DataFusion CLI: https://arrow.apache.org/datafusion/user-guide/cli/index.html
- How does DataFusion Compare with DuckDB/Polars/Velox/DataBend? https://datafusion.apache.org/user-guide/faq.html#how-does-datafusion-compare-with-xyz