데이터의 이해

 

01. 데이터와 정보

존재적특성 그대로의 객관적인 사실 (가공되지 않은 자료) 수학 80점, 영어 100점
당위적 특성 추론, 예측, 전망, 추정을 위한 정보의 근거가 될 수 있는 것 평균 90점

 

 

02. 데이터의 유형

 

정성적 데이터 언어, 문자 등 기준이 명확하지 않은 데이터 문자 덱스트, 언어 문자
정량적 데이터 수치, 도형, 기호 등 처럼 집합으로 표현 가능한 기준이 명확한 데이터 30cm, 정육면체, 3시 방향 등

 

정형데이터 정형화된 틀이 있고 연산이 가능 CSV, 엑셀 스프레드 시트 등
비정형 데이터 정형화된 틀이 없고 연산이 불가능 소셜 데이터 , 댓글, 영상, 음성 등
반정형 데이터 형태는 있지만 연산이 불가능 (데이터를 설명하는 메타데이터 포함) HTML, XML, JSON, 센서 데이터 등

 

암묵지 학습과 체험을 통해 개인에게 습득되어있지만
겉으로 드러나지 않는 상태의 지식
① 공통화 : 암묵지 지식을 다른 사람에게 알려줌
② 표출화 : 
암묵지 지식을 매뉴얼이나 문서로 전환
③ 연결화 : 교재, 매뉴얼에 새로운 지식 추가
④ 내면화 : 
만들어진 교재, 매뉴얼에서 타인의 암묵지 터득
형식지 암묵지가 문서나 매뉴얼처럼 외부로 표출되어
여러 사람이 공유할 수 있는 지식

 

DIKW 피라미드
WISDOM :지식의 축적과 아이디어가 결합된 창의적 산물
KOWLEDGE : 패턴을 통해 예측
INFORMATION : 데이터를 통해 패턴 인식
DATA : 있는 그대로의 사실

 

03. 데이터 단위 : (2^10)  KB < MB < GB < TB < FB < YB (peta < Exa < Zetta < Yotta)

 

04. 데이터 베이스 (DB) : 일정 구조에 맞게 조직화된 데이터의 집합 

스키마 인스턴스 메타데이터 인덱스
DB의 구조와 제약 조건에 관한 전반적 명세
(외부스키마, 개념스키마, 내부 스키마)
데이터 개체를 구성하는 속성에
대한 데이터 타입 값
데이터를 설명하는 데이터,
데이터 구조를 설명하고
검색하는데 활용
정렬, 탐색을 위한
데이터의 이름

 

  • 일반적 특징 
통합된 데이터
(Integrated data)
저장된 데이터
(Stored data)
공용 데이터
(Shared data)
변화하는 데이터
(Operation data = 운영데이터)
동일한 내용의 데이터가
중복되어있지 않음
컴퓨터 매체가 접근할 수 있는
저장매체에 저장
여러 사용자가 데이터베이스의
데이터를 공동으로 이용 가능.
대용량화 / 복잡한 구조
삽입, 수정, 삭제를 통해 항상
최신의 정확한 데이터를 유지

 

  • DBMS (DB를 관리, 접근환경 제공하는 소프트웨어)
관계형 데이터베이스 (RDB) NoSQL
데이터를 행과 열로 이루어진 테이블에 저장하며 하나의 열은 하나의 속성을 나타내고 같은 속성의 값만 가질 수 있음.
구조적으로는 엑셀과 유사하며 정형 데이터를 다루는데 특화
비관계형. 기존 RDB의 SQL을 보완 및 개선한 비관계형 DB.
비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이함.

 

  • SQL (Structured Query Language) =  데이터베이스에 접근할 수 있는 하부언어. 
정의언어 DDL 조작언어 DML 제어언어 DCL
CREATE, ALTER, DROP SELECT, INSERT, DELETE, UPDATE COMMIT, ROLLBACK, GRANT, REVOKE

 

  • 설계절차
1. 요구조건 분석 2. 개념적 설계
: 개념적 스키마 생성
3. 논리적 설계
: 개념적 ERD를 활용한 논리적 모델링
4. 물리적 설계
: 저장구조 설계

 

  • 활용
    • 기업 활용 데이터 베이스
OLTP(Online transaction processing)  OLAP(Online Analytical processing) 
정보의 수집, 공유를 위해 영역별로 구축되던
단순 자동화(데이터 수시로 갱신) 중심의 시스템 (=거래 단위에 초점)
분석이 중심이 되는 시스템 구축으로 변화
다차원 데이터를 대화식으로 분석
CRM SCM ERP RTE
고객과 관련 자료의 분석, 마케팅 활용 공급망 연결 최적화 기업 경영 자원을 효율화 최신 정보로 빠른 의사결정 지원
BI BA KMS block Chain
기업보유 데이터 정리, 분석하는
리포트 중심도구
통계기반 비즈니스 통찰력 기업의 모든 지식을 포함 네트워크에 참여한
모든 사용자가 정보를 분산, 저장

 

  • 데이터 웨어하우스 (Data Ware House, DW)
    • ETL (Extration, Transform, Load)
    • ODS (Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 임시 저장
주제지향성 데이터 통합 시계열성 비휘발성
분석 목적 설정이 중요 일관화된 형식으로 저장 히스토리를 가진 데이터 읽기전용 - 수시로 변화X

 

데이터의 가치와 이해

01. 빅데이터의 이해

  • 특징
    • 3V- 양(Volume), 유형(Variety), 생성 및 처리 속도의 증가(Velocity)
    • +@ : 가치(Value), 신뢰성(Veracity),  시각화(Visualization), 가변성(Variability), 정확성(Validity)

 

  • 출현 배경 
    • 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅, 저장매체 가격하락, 하둡을 이용한 분산컴퓨팅, 비정형데이터 확산

 

  • 빅데이터의 기능 
산업혁명의 석탄, 철 21세기 원유 렌즈 플랫폼
사회, 경제, 문화, 생활 전반에
혁명적인 변화를 가져올 것
생산성
향상
빅데이터도 렌즈처럼
산업발전에 큰 영향을 줄 것
(ex, 구글의 Ngram Viewer)
공동 활용의 목적으로 구축된
유무형의 구조물로써
다양한 서드파티 비즈니스에 활용될 것
(ex, 페이스북, 카카오톡)

 

  • 빅데이터가 만들어내는 변화 
사전처리  사후처리 표본조사   전수조사     인과관계  상관관계

 

02. 빅데이터의 가치와 미래

  • 빅데이터의 가치
    • 가치 산정이 어려움
데이터 활용 방식 가치 창출 방식 분석 기술의 발전
재사용, 재조합, 다목적용 데이터 개발 등이 일반화 되면서
특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없음
기존에 없던
새로운
가치를 창출함
가치있는 데이터와 가치없는 데이터의
경계를 나누기 어려움.
(오늘은 가치 없어도 내일은 있을 수 O)

 

  • 빅데이터 활용 기본 테크닉 (주요 분산 기법) ★★★
1 연관규칙 학습
Association
rule learning
- 어떤 변인 간에 주목할만한 상관관계가 있는지 찾아내는 방법
- 연관 규칙 학습은 연관분석 혹은 장바구니 분석으로도 불리며 고객이 구매한 물품들을 분석하여 품목 사이에 어떤 규칙이 있는지 찾아내는 분석 기법
A를 구매한 사람이 B를 더 많이 사는가?
A를 구매한 사람들이 많이 구매한 물품?
장바구니 분석
상품 추천
2 유형(분류)분석
Classification
tree analysis
- 새로운 사건이 속할 범주를 찾아내는 방법
- '이 사용자가 어떤 특성을 가진 집단에 속하는 가?'
문서를 어떻게 분류할 것인가
조직을 어떻게 여러 그룹으로 나눌 것인가?
온라인 수강생들을 특성을 반영한 분류방법
3 유전 알고리즘
Genetic
algorithm
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과
  같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법
- '최대의 시청률을 얻으러면 어떤 프로그램을 어떤 시간대에 방송해야하는가?'
최적화된 택배차량배치
최고시철률을 내기 위한 프로그램 배치
연비가 좋은 자동차 개발을 위해 원자재와 엔지니어링을 어떻게 결합?
4 기계학습
= 머신러닝
Machine learning
- 컴퓨터가 데이터로부터 규칙을 찾고 이러한 규칙을 통해
  "예측"하는 데 초점을 둔 방법
- '기존 시청 기록을 바탕으로 시청자가 보유한 영화 중 어떤 영화를 가장 보고싶어할 까?'
유튜브 및 넷플릭스의 미디어 추천 시스템
스팸메일 필터링
질병 진단 예측
5 회기분석
Regression
analysis
- 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며
  수치형으로 이루어진 두 변인의 관계를 파악하는 방법
- '구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?'
사용자의 만족도가 충성도에 어떤 영향?
이웃들과 그 규모가 집 값에 어떤 영향?
상품 가격은 매출에 어떤 영향?
6 감정 분석
Sentiment
analysis
- 비정형 데이터 마이닝의 대표적인 기법 중 하나
- 텍스트 파일의 단어를 추출해 단어의 긍정, 부정을 선별하여 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
- '새로운 환불정책에 대한 고객의 평가는 어떠한가?'
호텔에서 고객의 후기를 분석하여 고객의 니즈를 찾아냄
제품 사용기에 나타난 고객의 감정?
7 소셜네트워크분석
SNA
Social Network
Analysis
= 사회 관계망 분석
- SNS 같은 온라인 공간에서 유저 사이의 팔로워 팔로잉 관계를   분석해 영향력 있는 사람을 찾아내어 기업의 마케팅이나
 범죄 수사에서 공감을 찾는 등 다양한 분야에서 활용
- 오피니언 리더(영향력 있는 사람)을 찾아낼 수 있음.
  고객 간 소결관계 파악 가능
- 연결중심점, 근접중심성, 매개중심성, 아이겐벡터 중심성
도시계획 및 지리학 분야
 -> 도시공간분석에 활용
특정인과 타인이 몇촌 정도의 관계인가
이 사람이 어느정도 영향력이 있는
인플루언서인가?
8 텍스트 마이닝 - 텍스트로부터 자연어 처리(NLP)를 통한 숨겨진 의미 발생 문서 요약, 키워드 추출

 

03. 빅데이터의 위기요인과 통제방안

  • 위기요인과 통제방안 ★★★
사생활침해 책임원칙훼손 데이터 오용
개인의 사생활 침해 위협을 넘어
사회, 경제적 위협으로 변형될 수 있음
익명화 기술이 발전되고 있으나 불충분
정보가 오용될 때 위험성이 큼
분석 대상이 되는 사람들이
예측 알고리즘의 희생양이 될 가능성 증가
빅데이터 시스템에 의해 부당하게
피해 보는 상황을 최소화할 장치 마련 필요
데이터 과신 / 잘못된 지표의 사용으로
잘못된 인사이트를 얻어
비즈니스에 사용할 경우 손실 발생ㅇ
+ 창조적인 제품 개발의 어려움
ex) 사용자 행동 패턴 예측 ex) 범죄 발생 이전에 체포 ex) 적군의 사망자 수로 전쟁 승리 예측 오류
  동의에서 책임으로   결과기반 책임원칙 고수   알고리즘 접근 허용 (사전 피해자 방지, 구제)

 

  • 개인정보 비식별 기술
데이터 마스킹 가명처리 총계처리 데이터 값 삭제 데이터 범주화
기존 형식 유지
+ 임의 값 대체
데이터 값을
다른 값으로 변경
각각의 값 X
전체의 총괄 혹은 평균
데이터 값
일부 삭제
데이터 값 범주화
특정 값 X 범위 제공
플레이 데이터

*** 데이터
홍길동

임꺽정
70점, 80점, 90점

평균 80점
서울시 서초구

서울시
수학 80점

수학 70~90점

 

  • 프라이버시 보호모델
k-익명성 l - 다양성 t - 근접성
같은 값이 존재하도록 하여
다른 정보로 결합할 수 없도록 함
민감한 정보의 다양성을 높여
추론 가능성을 낮춤
민감 정보의 분포를 낮추어
추론 가능성을 더욱 낮춤

 

  • 데이터 산업의 발전
처리 통합 분석 연결 권리
프로그래밍 언어를
활용한 데이터의 처리
DBMS의 등장 빅데이터 분석
기술의 발전
API를 활용한
모듈들의 연결
마이데이터를 활용한
데이터의 주권 행사

** 마이데이터 : 자신의 신용 정보를 다른 제 3자에게 제공하여 서비스를 제공받는 제도

 

04. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

  • 전략 인사이트
    • 집중과 선택 (많은 데이터나 대상 보다 현재 분석에 집중) ex,조직이 분석을 배우는 상태 or 특정 문제의 범위를 해결할 때
    • 업계 상황만 보지 말고 더 넓은 시야에서 봐야함  ex, 사업 상황들을 확인할 때
    • 경영진의 전략적 인사이트에 기여

 

  • 전략 인사이트 도출을 위해 필요한 역량
    • 데이터 사이언스
      • 데이터로부터 의미 있는 정보를 추출해내는 학문
      • 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 함
    • 역할
      • 데이터 마이닝 : 분석에 포커스
      • 데이터 사이언스 : 분석 + 효과적으로 구현, 전달하는 과정 // 전략적 인사이트 도출을 위한 일렬의 행위까지 포괄 

 

  • 데이터 사이언스와 데이터 사이언티스트
    • 데이터 사이언스의 구성요소
      • Analytics : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
      • IT(Data Management) : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨터 등
      • 비즈니스 분석 : 프레젠테이션, 스토리텔링, 시각화
    • 데이터 사이언티스트에게 요구되는 역량
      • 하드 스킬 (Hard skill) : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
      • 소프트 스킬 (Soft skill) : 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력.

 

  • 빅데이터 가치 패러다임의 변화
Digitalization Commection Agenda
아날로그 세상을 디지털화 디지털화된 정보들의 연결 연결을 효과적으로 관리

 

  • 머신러닝과 딥러닝의 차이 
머신러닝 딥러닝
머신러닝과 딥러닝은 하나의 뿌리를 가짐 (머신러닝 >>> 딥러닝)
데이터를 분석하고 이를 분석한 후 그 데이터를 바탕으로
결정을 내리기 위해 학습한 내용을 적용하는 알고리즘
카테고리 상 머신러닝에 포함 but 기술은 더 진보적
머신 : 사람이 개입 // 딥 : 예측의 정확성 여부를 스스로 판단, 결정
넷플릭스, 선택한 영화 분석 후 비슷한 영화 추천
쇼핑몰의 추천상품 알고리즘
인간의 뇌가 판단을 내리는 과정과 유사
알파고

'혼자 끄적끄적 > ADsP' 카테고리의 다른 글

ADsP | 2. 데이터 분석의 이해  (0) 2025.06.22
ADsP | 1. 데이터의 이해  (0) 2025.06.22

+ Recent posts