내일배움캠프/아티클스터디

[아티클스터디]양질의 데이터를 판별하는 5가지 방법 : 1.데이터 양은 충분한가?

dydatablog 2024. 12. 6. 14:13
728x90

24.12.06

원문 : https://yozm.wishket.com/magazine/detail/1070/

 

양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가? | 요즘IT

양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로

yozm.wishket.com

  • 요약 :
    • 데이터는 다양한 분야에서 활용되기 때문에 그 가치가 시대에 따라 점점 올라가고 있지만, 무조건 많은 양의 데이터를 수집하는 것이 반드시 좋은 것은 아니다.
    • 양질의 데이터란 데이터가 명확하고 깔끔하여 해석이 용이한 데이터를 말한다.
    • 저품질 데이터는 활용 가치가 떨어지고 분석에 사용하려면 가공과 보완이 필요하기 때문에 데이터 수집 단계에서 고품질의 데이터를 수집할 수 있도록 하는 것이 중요하다.
    • 양질의 데이터를 판단하는 방법: 절대적인 정의는 없음. 그러나 분석을 하기 쉬운 데이터인가? 결과를 명확하게 알 수 있는 데이터인가? 라는 질문으로 바꾸어 생각할 것.
      1. 데이터의 수가 충분히 많다. : 표본이 모집단을 대표하지 못할 때 데이터의 양이 중요해진다.
        1. 통계적인 분석시에는 최소한 500개 이상, 머신러닝 분야에서는 변수의 수에 100을 곱한 것보다 많은 양의 데이터가 있는 것이 바람직함 → 통계적 유의미성
      2. 데이터 자체의 오류가 적다.
      3. 관계형데이터베이스 형식을 잘 지키고 있다.
      4. 수치형 데이터 형식을 많이 보유하고 있다.
      5. 활용 목적에 적합하다.
  • 주요 포인트 :
    • 데이터 분석을 통한 결과가 유의미하고 신뢰성 있는 결과로 만들기 위해 양질의 데이터를 많이 수집하는 것이 중요하다.
    • 특히 같이 사람보다 빠르고 신속하게 처리하는 것이 장점인 AI, 머신러닝에서는 고품질의 데이터베이스는 필수적인 요소이다.
728x90