데이터 품질 (Data Quality)
데이터 품질은 모든 '데이터 상품'의 기반이 됩니다. 그렇기에 데이터 관련 주요 Stake Holders들(데이터분석가, 데이터사이언티스트, 데이터엔지니어 등)에게는 매우 중요한 부분입니다.
또한, 데이터 거버넌스의 목적이 '데이터에 대한 신뢰성 확보'라는 점을 볼 때에도, 데이터 거버넌스의 중심적인 부분에 '데이터 품질 관리'가 차지하고 있다는 사실을 알 수 있습니다.
이 글에서는 빅데이터 이전에도 다뤄지던 개념인 데이터 품질의 발전사와 그 내용을 살펴보고, 빅데이터 환경에서 사용되는 (파악 가능한) 도구들을 살펴보겠습니다.
Reference
www.vldb.org/pvldb/vol11/p1781-schelter.pdf
github.com/great-expectations/great_expectations
engineering.linkedin.com/blog/2020/data-sentinel-automating-data-validation
databricks.com/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems
www.datacouncil.ai/talks/anomaly-detection-for-data-quality-and-metric-shifts-at-netflix
learning.oreilly.com/library/view/competing-with-high/9781118416495/
learning.oreilly.com/library/view/the-practitioners-guide/9780123737175/
en.wikipedia.org/wiki/Quality_management
www.linkedin.com/video/live/urn:li:ugcPost:6727264410420736000/
www.data.go.kr/ugs/selectPublicDataQlityView.do
www.samsungsds.com/kr/insights/1232752_4627.html
www.comworld.co.kr/news/articleView.html?idxno=50031
asq.org/quality-progress/search#q=Data%20Quality%20Statistics
https://www.amazon.com/Data-Quality-Dimensions-Measurement-Management-ebook/dp/B07QMNT6HM