Metadata
data采用
元数据Metadata经常被描述为关于数据的数据(data about data), 通常用于描述数据的特征、内容、结构、格式等结构化信息, 特别是在分布式的网络环境中。元数据可以帮助用户/机器更好地理解数据,提高数据的可发现性、可访问性、可理解性和可信度。
元数据的一个很好的例子是图书馆中的编目系统,它记录了作者、标题、主题和资源在书架上的位置等,可以非常方便地进行检索并查找到该书籍。
有了元数据,我们可以更好地管理数据,更好地利用数据,更好地保护数据,更好地共享数据,更好地发现数据,更好地理解数据。
在日常开发中,我们经常会涉及到元数据,典型的就是XML的xsd,JSON的schema,OpenAPI Schema, Kafka Avro等等。 如果你要和其他系统、公司有数据通讯和交互的需求,那么建议首选要想好Metadata.
在公司内部的话,如果有条件的话,可以考虑搭建一个Schema Registry,也不麻烦,如你选择Apicurio Registry。
Metadata & Friends
- Dublin Core: https://www.dublincore.org/
- Schema.org: https://schema.org/
- Apache Atlas: https://atlas.apache.org/
- DataHub: Open Source Metadata Platform - https://datahubproject.io/
- OpenMetadata: https://open-metadata.org/
- OpenDataDiscovery: https://opendatadiscovery.org/
- Marquez: https://marquezproject.ai/
- Amundsen: Open source data discovery and metadata engine
- Magda: A federated, open-source data catalog for all your big data and small data
- Hackolade: polyglot Data Modeling, Metadata-as-Code
- Apicurio Registry: https://www.apicur.io/registry/
References
- What Is a Data Catalog? https://www.alation.com/blog/what-is-a-data-catalog/
- What is a data catalog? https://www.ibm.com/topics/data-catalog