데이터의 이해
01. 데이터와 정보
| 존재적특성 | 그대로의 객관적인 사실 (가공되지 않은 자료) | 수학 80점, 영어 100점 |
| 당위적 특성 | 추론, 예측, 전망, 추정을 위한 정보의 근거가 될 수 있는 것 | 평균 90점 |
02. 데이터의 유형
| 정성적 데이터 | 언어, 문자 등 기준이 명확하지 않은 데이터 | 문자 덱스트, 언어 문자 |
| 정량적 데이터 | 수치, 도형, 기호 등 처럼 집합으로 표현 가능한 기준이 명확한 데이터 | 30cm, 정육면체, 3시 방향 등 |
| 정형데이터 | 정형화된 틀이 있고 연산이 가능 | CSV, 엑셀 스프레드 시트 등 |
| 비정형 데이터 | 정형화된 틀이 없고 연산이 불가능 | 소셜 데이터 , 댓글, 영상, 음성 등 |
| 반정형 데이터 | 형태는 있지만 연산이 불가능 (데이터를 설명하는 메타데이터 포함) | HTML, XML, JSON, 센서 데이터 등 |
| 암묵지 | 학습과 체험을 통해 개인에게 습득되어있지만 겉으로 드러나지 않는 상태의 지식 |
① 공통화 : 암묵지 지식을 다른 사람에게 알려줌 ② 표출화 : 암묵지 지식을 매뉴얼이나 문서로 전환 ③ 연결화 : 교재, 매뉴얼에 새로운 지식 추가 ④ 내면화 : 만들어진 교재, 매뉴얼에서 타인의 암묵지 터득 |
| 형식지 | 암묵지가 문서나 매뉴얼처럼 외부로 표출되어 여러 사람이 공유할 수 있는 지식 |
![]() |
DIKW 피라미드 |
| WISDOM :지식의 축적과 아이디어가 결합된 창의적 산물 | |
| KOWLEDGE : 패턴을 통해 예측 | |
| INFORMATION : 데이터를 통해 패턴 인식 | |
| DATA : 있는 그대로의 사실 |
03. 데이터 단위 : (2^10) KB < MB < GB < TB < FB < YB (peta < Exa < Zetta < Yotta)
04. 데이터 베이스 (DB) : 일정 구조에 맞게 조직화된 데이터의 집합
| 스키마 | 인스턴스 | 메타데이터 | 인덱스 |
| DB의 구조와 제약 조건에 관한 전반적 명세 (외부스키마, 개념스키마, 내부 스키마) |
데이터 개체를 구성하는 속성에 대한 데이터 타입 값 |
데이터를 설명하는 데이터, 데이터 구조를 설명하고 검색하는데 활용 |
정렬, 탐색을 위한 데이터의 이름 |
- 일반적 특징 ★★★
| 통합된 데이터 (Integrated data) |
저장된 데이터 (Stored data) |
공용 데이터 (Shared data) |
변화하는 데이터 (Operation data = 운영데이터) |
| 동일한 내용의 데이터가 중복되어있지 않음 |
컴퓨터 매체가 접근할 수 있는 저장매체에 저장 |
여러 사용자가 데이터베이스의 데이터를 공동으로 이용 가능. 대용량화 / 복잡한 구조 |
삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터를 유지 |
- DBMS (DB를 관리, 접근환경 제공하는 소프트웨어)
| 관계형 데이터베이스 (RDB) | NoSQL |
| 데이터를 행과 열로 이루어진 테이블에 저장하며 하나의 열은 하나의 속성을 나타내고 같은 속성의 값만 가질 수 있음. 구조적으로는 엑셀과 유사하며 정형 데이터를 다루는데 특화 |
비관계형. 기존 RDB의 SQL을 보완 및 개선한 비관계형 DB. 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이함. |
- SQL (Structured Query Language) = 데이터베이스에 접근할 수 있는 하부언어.
| 정의언어 DDL | 조작언어 DML | 제어언어 DCL |
| CREATE, ALTER, DROP | SELECT, INSERT, DELETE, UPDATE | COMMIT, ROLLBACK, GRANT, REVOKE |
- 설계절차
| 1. 요구조건 분석 | 2. 개념적 설계 : 개념적 스키마 생성 |
3. 논리적 설계 : 개념적 ERD를 활용한 논리적 모델링 |
4. 물리적 설계 : 저장구조 설계 |
- 활용
- 기업 활용 데이터 베이스
| OLTP(Online transaction processing) | OLAP(Online Analytical processing) | ||
| 정보의 수집, 공유를 위해 영역별로 구축되던 단순 자동화(데이터 수시로 갱신) 중심의 시스템 (=거래 단위에 초점) |
분석이 중심이 되는 시스템 구축으로 변화 다차원 데이터를 대화식으로 분석 |
||
| CRM | SCM | ERP | RTE |
| 고객과 관련 자료의 분석, 마케팅 활용 | 공급망 연결 최적화 | 기업 경영 자원을 효율화 | 최신 정보로 빠른 의사결정 지원 |
| BI | BA | KMS | block Chain |
| 기업보유 데이터 정리, 분석하는 리포트 중심도구 |
통계기반 비즈니스 통찰력 | 기업의 모든 지식을 포함 | 네트워크에 참여한 모든 사용자가 정보를 분산, 저장 |
- 데이터 웨어하우스 (Data Ware House, DW)
- ETL (Extration, Transform, Load)
- ODS (Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 임시 저장
| 주제지향성 | 데이터 통합 | 시계열성 | 비휘발성 |
| 분석 목적 설정이 중요 | 일관화된 형식으로 저장 | 히스토리를 가진 데이터 | 읽기전용 - 수시로 변화X |
데이터의 가치와 이해
01. 빅데이터의 이해
- 특징
- 3V- 양(Volume), 유형(Variety), 생성 및 처리 속도의 증가(Velocity)
- +@ : 가치(Value), 신뢰성(Veracity), 시각화(Visualization), 가변성(Variability), 정확성(Validity)
- 출현 배경
- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅, 저장매체 가격하락, 하둡을 이용한 분산컴퓨팅, 비정형데이터 확산
- 빅데이터의 기능 ★★★
| 산업혁명의 석탄, 철 | 21세기 원유 | 렌즈 | 플랫폼 |
| 사회, 경제, 문화, 생활 전반에 혁명적인 변화를 가져올 것 |
생산성 향상 |
빅데이터도 렌즈처럼 산업발전에 큰 영향을 줄 것 (ex, 구글의 Ngram Viewer) |
공동 활용의 목적으로 구축된 유무형의 구조물로써 다양한 서드파티 비즈니스에 활용될 것 (ex, 페이스북, 카카오톡) |
- 빅데이터가 만들어내는 변화 ★★★
| 사전처리 → 사후처리 | 표본조사 → 전수조사 | 질 → 양 | 인과관계 → 상관관계 |
02. 빅데이터의 가치와 미래
- 빅데이터의 가치
- 가치 산정이 어려움
| 데이터 활용 방식 | 가치 창출 방식 | 분석 기술의 발전 |
| 재사용, 재조합, 다목적용 데이터 개발 등이 일반화 되면서 특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없음 |
기존에 없던 새로운 가치를 창출함 |
가치있는 데이터와 가치없는 데이터의 경계를 나누기 어려움. (오늘은 가치 없어도 내일은 있을 수 O) |
- 빅데이터 활용 기본 테크닉 (주요 분산 기법) ★★★
| 1 | 연관규칙 학습 Association rule learning |
- 어떤 변인 간에 주목할만한 상관관계가 있는지 찾아내는 방법 - 연관 규칙 학습은 연관분석 혹은 장바구니 분석으로도 불리며 고객이 구매한 물품들을 분석하여 품목 사이에 어떤 규칙이 있는지 찾아내는 분석 기법 |
A를 구매한 사람이 B를 더 많이 사는가? A를 구매한 사람들이 많이 구매한 물품? 장바구니 분석 상품 추천 |
| 2 | 유형(분류)분석 Classification tree analysis |
- 새로운 사건이 속할 범주를 찾아내는 방법 - '이 사용자가 어떤 특성을 가진 집단에 속하는 가?' |
문서를 어떻게 분류할 것인가 조직을 어떻게 여러 그룹으로 나눌 것인가? 온라인 수강생들을 특성을 반영한 분류방법 |
| 3 | 유전 알고리즘 Genetic algorithm |
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법 - '최대의 시청률을 얻으러면 어떤 프로그램을 어떤 시간대에 방송해야하는가?' |
최적화된 택배차량배치 최고시철률을 내기 위한 프로그램 배치 연비가 좋은 자동차 개발을 위해 원자재와 엔지니어링을 어떻게 결합? |
| 4 | 기계학습 = 머신러닝 Machine learning |
- 컴퓨터가 데이터로부터 규칙을 찾고 이러한 규칙을 통해 "예측"하는 데 초점을 둔 방법 - '기존 시청 기록을 바탕으로 시청자가 보유한 영화 중 어떤 영화를 가장 보고싶어할 까?' |
유튜브 및 넷플릭스의 미디어 추천 시스템 스팸메일 필터링 질병 진단 예측 |
| 5 | 회기분석 Regression analysis |
- 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법 - '구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?' |
사용자의 만족도가 충성도에 어떤 영향? 이웃들과 그 규모가 집 값에 어떤 영향? 상품 가격은 매출에 어떤 영향? |
| 6 | 감정 분석 Sentiment analysis |
- 비정형 데이터 마이닝의 대표적인 기법 중 하나 - 텍스트 파일의 단어를 추출해 단어의 긍정, 부정을 선별하여 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법 - '새로운 환불정책에 대한 고객의 평가는 어떠한가?' |
호텔에서 고객의 후기를 분석하여 고객의 니즈를 찾아냄 제품 사용기에 나타난 고객의 감정? |
| 7 | 소셜네트워크분석 SNA Social Network Analysis |
= 사회 관계망 분석 - SNS 같은 온라인 공간에서 유저 사이의 팔로워 팔로잉 관계를 분석해 영향력 있는 사람을 찾아내어 기업의 마케팅이나 범죄 수사에서 공감을 찾는 등 다양한 분야에서 활용 - 오피니언 리더(영향력 있는 사람)을 찾아낼 수 있음. 고객 간 소결관계 파악 가능 - 연결중심점, 근접중심성, 매개중심성, 아이겐벡터 중심성 |
도시계획 및 지리학 분야 -> 도시공간분석에 활용 특정인과 타인이 몇촌 정도의 관계인가 이 사람이 어느정도 영향력이 있는 인플루언서인가? |
| 8 | 텍스트 마이닝 | - 텍스트로부터 자연어 처리(NLP)를 통한 숨겨진 의미 발생 | 문서 요약, 키워드 추출 |
03. 빅데이터의 위기요인과 통제방안
- 위기요인과 통제방안 ★★★
| 사생활침해 | 책임원칙훼손 | 데이터 오용 |
| 개인의 사생활 침해 위협을 넘어 사회, 경제적 위협으로 변형될 수 있음 익명화 기술이 발전되고 있으나 불충분 정보가 오용될 때 위험성이 큼 |
분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 증가 빅데이터 시스템에 의해 부당하게 피해 보는 상황을 최소화할 장치 마련 필요 |
데이터 과신 / 잘못된 지표의 사용으로 잘못된 인사이트를 얻어 비즈니스에 사용할 경우 손실 발생ㅇ + 창조적인 제품 개발의 어려움 |
| ex) 사용자 행동 패턴 예측 | ex) 범죄 발생 이전에 체포 | ex) 적군의 사망자 수로 전쟁 승리 예측 오류 |
| → 동의에서 책임으로 | → 결과기반 책임원칙 고수 | → 알고리즘 접근 허용 (사전 피해자 방지, 구제) |
- 개인정보 비식별 기술
| 데이터 마스킹 | 가명처리 | 총계처리 | 데이터 값 삭제 | 데이터 범주화 |
| 기존 형식 유지 + 임의 값 대체 |
데이터 값을 다른 값으로 변경 |
각각의 값 X 전체의 총괄 혹은 평균 |
데이터 값 일부 삭제 |
데이터 값 범주화 특정 값 X 범위 제공 |
| 플레이 데이터 ↓ *** 데이터 |
홍길동 ↓ 임꺽정 |
70점, 80점, 90점 ↓ 평균 80점 |
서울시 서초구 ↓ 서울시 |
수학 80점 ↓ 수학 70~90점 |
- 프라이버시 보호모델
| k-익명성 | l - 다양성 | t - 근접성 |
| 같은 값이 존재하도록 하여 다른 정보로 결합할 수 없도록 함 |
민감한 정보의 다양성을 높여 추론 가능성을 낮춤 |
민감 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤 |
- 데이터 산업의 발전
| 처리 | 통합 | 분석 | 연결 | 권리 |
| 프로그래밍 언어를 활용한 데이터의 처리 |
DBMS의 등장 | 빅데이터 분석 기술의 발전 |
API를 활용한 모듈들의 연결 |
마이데이터를 활용한 데이터의 주권 행사 |
** 마이데이터 : 자신의 신용 정보를 다른 제 3자에게 제공하여 서비스를 제공받는 제도
04. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
- 전략 인사이트
- 집중과 선택 (많은 데이터나 대상 보다 현재 분석에 집중) ex,조직이 분석을 배우는 상태 or 특정 문제의 범위를 해결할 때
- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함 ex, 사업 상황들을 확인할 때
- 경영진의 전략적 인사이트에 기여
- 전략 인사이트 도출을 위해 필요한 역량
- 데이터 사이언스
- 데이터로부터 의미 있는 정보를 추출해내는 학문
- 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 함
- 역할
- 데이터 마이닝 : 분석에 포커스
- 데이터 사이언스 : 분석 + 효과적으로 구현, 전달하는 과정 // 전략적 인사이트 도출을 위한 일렬의 행위까지 포괄
- 데이터 사이언스
- 데이터 사이언스와 데이터 사이언티스트
- 데이터 사이언스의 구성요소
- Analytics : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
- IT(Data Management) : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨터 등
- 비즈니스 분석 : 프레젠테이션, 스토리텔링, 시각화
- 데이터 사이언티스트에게 요구되는 역량
- 하드 스킬 (Hard skill) : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
- 소프트 스킬 (Soft skill) : 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력.
- 데이터 사이언스의 구성요소
- 빅데이터 가치 패러다임의 변화
| Digitalization | Commection | Agenda |
| 아날로그 세상을 디지털화 | 디지털화된 정보들의 연결 | 연결을 효과적으로 관리 |
- 머신러닝과 딥러닝의 차이
| 머신러닝 | 딥러닝 |
| 머신러닝과 딥러닝은 하나의 뿌리를 가짐 (머신러닝 >>> 딥러닝) | |
| 데이터를 분석하고 이를 분석한 후 그 데이터를 바탕으로 결정을 내리기 위해 학습한 내용을 적용하는 알고리즘 |
카테고리 상 머신러닝에 포함 but 기술은 더 진보적 머신 : 사람이 개입 // 딥 : 예측의 정확성 여부를 스스로 판단, 결정 |
| 넷플릭스, 선택한 영화 분석 후 비슷한 영화 추천 쇼핑몰의 추천상품 알고리즘 |
인간의 뇌가 판단을 내리는 과정과 유사 알파고 |
'혼자 끄적끄적 > ADsP' 카테고리의 다른 글
| ADsP | 2. 데이터 분석의 이해 (0) | 2025.06.22 |
|---|---|
| ADsP | 1. 데이터의 이해 (0) | 2025.06.22 |
