728x90
24.12.06
원문 : https://yozm.wishket.com/magazine/detail/1070/
- 요약 :
- 데이터는 다양한 분야에서 활용되기 때문에 그 가치가 시대에 따라 점점 올라가고 있지만, 무조건 많은 양의 데이터를 수집하는 것이 반드시 좋은 것은 아니다.
- 양질의 데이터란 데이터가 명확하고 깔끔하여 해석이 용이한 데이터를 말한다.
- 저품질 데이터는 활용 가치가 떨어지고 분석에 사용하려면 가공과 보완이 필요하기 때문에 데이터 수집 단계에서 고품질의 데이터를 수집할 수 있도록 하는 것이 중요하다.
- 양질의 데이터를 판단하는 방법: 절대적인 정의는 없음. 그러나 분석을 하기 쉬운 데이터인가? 결과를 명확하게 알 수 있는 데이터인가? 라는 질문으로 바꾸어 생각할 것.
- 데이터의 수가 충분히 많다. : 표본이 모집단을 대표하지 못할 때 데이터의 양이 중요해진다.
- 통계적인 분석시에는 최소한 500개 이상, 머신러닝 분야에서는 변수의 수에 100을 곱한 것보다 많은 양의 데이터가 있는 것이 바람직함 → 통계적 유의미성
- 데이터 자체의 오류가 적다.
- 관계형데이터베이스 형식을 잘 지키고 있다.
- 수치형 데이터 형식을 많이 보유하고 있다.
- 활용 목적에 적합하다.
- 데이터의 수가 충분히 많다. : 표본이 모집단을 대표하지 못할 때 데이터의 양이 중요해진다.
- 주요 포인트 :
- 데이터 분석을 통한 결과가 유의미하고 신뢰성 있는 결과로 만들기 위해 양질의 데이터를 많이 수집하는 것이 중요하다.
- 특히 같이 사람보다 빠르고 신속하게 처리하는 것이 장점인 AI, 머신러닝에서는 고품질의 데이터베이스는 필수적인 요소이다.
728x90
'내일배움캠프 > 아티클스터디' 카테고리의 다른 글
[아티클스터디]데이터 속 거짓말 발견하기 (1) | 2024.12.19 |
---|---|
[아티클스터디] 직관적인 데이터 시각화 만들기 (0) | 2024.12.12 |
[데이터분석]데이터 분석가는 어떤 일을 하나요? (1) | 2024.11.26 |
[아티클스터디]마케터에게 데이터분석이란? 꼭 필요할까? (4) | 2024.11.08 |
[아티클스터디]SQL 질문 잘 하는 방법 (0) | 2024.11.08 |