전체 글
-
[2월 3주차-2/17(1)]📊 심부전 데이터 분석: 데이터 전처리부터 시각화까지!Why Not SW CAMP 5기/수업 기록 2025. 2. 17. 13:58
1. 의료 데이터 프로젝트 소개의료 데이터 분석은 심장병을 포함한 다양한 질병의 조기 진단과 예방에 중요한 역할을 합니다. 이번 프로젝트에서는 심부전(Heart Failure) 데이터를 분석하여 심장병 환자의 특성을 파악하고, 주요 변수 간의 관계를 이해하며, 시각화를 통해 인사이트를 도출하는 것을 목표로 합니다.2. 의료 데이터셋 파악분석할 데이터셋은 심부전 환자 데이터를 포함하며, 주요 변수는 다음과 같습니다.변수 설명RestingBP : 혈압Cholesterol : 콜레스테롤 농도FastingBS : 공복상태 혈당 (120 이상이면 1)RestingECG : 심전도 결과MaxHR : 최대 심박수ExerciseAngina : 운동 중 협심증 경험 여부HeartDisease : 심장병 유무 (1이면 심..
-
[2월 2주차-2/14]🎬 넷플릭스 데이터 분석 프로젝트Why Not SW CAMP 5기/수업 기록 2025. 2. 14. 15:34
📌 개요넷플릭스 데이터 분석 프로젝트는 넷플릭스의 콘텐츠 데이터를 탐색하고, 데이터 전처리 과정을 거쳐 다양한 시각화를 통해 인사이트를 도출하는 것을 목표로 합니다. 이 분석을 통해 콘텐츠의 트렌드를 파악하고, 사용자 맞춤형 추천 시스템 개선을 위한 기초 자료를 제공합니다.🛠 사용 라이브러리넘파이 (NumPy): 수치 해석 및 배열 연산판다스 (Pandas): 데이터 분석 및 전처리맷플롯립 (Matplotlib) / 시본 (Seaborn): 데이터 시각화워드클라우드 (WordCloud): 텍스트 데이터 강조🎯 데이터 분석 목표데이터를 빠르게 파악하고 이해하기데이터 전처리를 수행하여 분석 가능한 형태로 변환다양한 시각화 기법을 활용하여 인사이트 도출넷플릭스의 콘텐츠 트렌드 및 사용자 선호도 분석🔍 ..
-
[2월 2주차-2/13(3)]🍻음주 빈도가 삶의 만족도와 건강 상태에 미치는 영향 분석Why Not SW CAMP 5기/수업 기록 2025. 2. 13. 17:35
음주는 현대인의 삶에서 빼놓을 수 없는 요소 중 하나입니다. 하지만 음주 빈도가 우리의 삶의 만족도와 가족생활에 어떤 영향을 미치는지에 대해 깊이 고민해본 적이 있을까요? 이번 분석에서는 음주 빈도와 삶의 만족도, 그리고 가족 만족도 간의 관계를 살펴보았습니다.1. 분석 개요주요 변수가족 만족도 (Family_sat): 가족생활에 대한 만족도를 나타내며, 1(매우 불만족)부터 7(매우 만족)까지의 척도로 측정됩니다.전반적 만족도 (life_sat): 개인의 삶에 대한 만족도를 나타내며, 1(매우 불만족)부터 5(매우 만족)까지의 척도로 평가됩니다.1년간 평균 음주량 (avg_drink): 음주 빈도를 측정하는 변수로, 다음과 같이 구분했습니다.주 1회 이하주 2~3회주 4회 이상2. 데이터 불러오기 및 ..
-
[2월 2주차-2/13(2)]🌟 인터랙티브 시각화: HTML 파일로 저장하여 웹 브라우저에서 실행하기Why Not SW CAMP 5기/수업 기록 2025. 2. 13. 12:42
데이터 시각화는 통찰을 얻는 중요한 도구입니다.이번 글에서는 Plotly Express를 활용하여 인터랙티브한 시각화를 만들고, 이를 HTML 파일로 저장하여 웹 브라우저에서 실행하는 방법을 소개합니다. 🖥️📌 환경 설정먼저, 필요한 라이브러리를 불러옵니다. Plotly는 강력한 시각화 라이브러리로, HTML 파일로 저장할 수 있는 기능을 제공합니다.import pandas as pdimport plotly.express as pximport webbrowser📊 산점도 (Scatter Plot) 생성 및 HTML 저장🚗 mpg 데이터셋을 사용하여 도시 연비(cty)와 고속도로 연비(hwy)의 관계를 나타내는 산점도를 그려보겠습니다.mpg = pd.read_csv('./data/mpg.csv')f..
-
[2월 2주차-2/13(1)]📊 통계 분석 기법을 이용한 가설 검정Why Not SW CAMP 5기/수업 기록 2025. 2. 13. 12:20
데이터를 분석할 때, 단순한 요약을 넘어 신뢰할 수 있는 결론을 내리기 위해 우리는 "가설 검정"을 수행합니다. 가설 검정은 통계적 방법을 활용하여 데이터를 기반으로 특정 주장이 타당한지를 평가하는 과정입니다.🔍가설 검정이란?가설 검정은 데이터를 기반으로 가설이 맞는지를 판단하는 과정입니다.즉, 표본 데이터를 통해 모집단의 특성을 추론하고, 이를 통해 특정 가설이 타당한지 검토하는 것입니다.📌통계 분석의 종류(1) 기술 통계 (Descriptive Statistics)데이터를 요약하여 설명하는 방법대표적인 기법: 평균(mean), 중앙값(median), 표준편차(standard deviation)예시: 한 회사의 직원 월급 데이터를 분석하여 평균 월급을 계산(2) 추론 통계 (Inferential S..
-
[2월 2주차-2/12(3)]한국복지패널데이터로 한국인의 삶을 분석해보자! 🧐Why Not SW CAMP 5기/수업 기록 2025. 2. 13. 10:37
안녕하세요! 오늘은 한국복지패널데이터(Koweps) 를 활용해 한국인의 삶을 데이터 분석을 통해 살펴보려고 합니다. 한국복지패널데이터는 가구 및 개인의 경제활동, 생활실태, 복지 욕구 등을 연구하기 위해 구축된 대규모 데이터로, 800개 이상의 변수로 구성되어 있어 굉장히 방대한 자료입니다.데이터 분석을 통해 다음과 같은 궁금증을 해결해 보겠습니다!✅ 성별에 따른 월급 차이는 존재할까?✅ 나이와 월급의 관계는 어떨까?✅ 연령대별 평균 월급은 어떻게 다를까?✅ 직업별로 월급은 얼마나 차이가 날까?✅ 종교 유무에 따라 이혼율이 다를까?✅ 지역별 연령대 비율은 어떤 패턴을 보일까?🔹 1. 데이터 준비하기 📊분석을 위해 먼저 데이터를 불러오고, 주요 변수들을 확인해 보겠습니다.📌 데이터 불러오기import..
-
[2월 2주차-2/12(2)]📝 Pandas로 데이터 정제하기: 이상치 & 결측치 처리Why Not SW CAMP 5기/수업 기록 2025. 2. 12. 11:55
데이터를 분석하기 전에 결측치와 이상치를 처리하는 것은 필수! 🚀 이번 글에서는 pandas를 활용하여 데이터를 깔끔하게 정제하는 방법을 배워보자. 💡🔍 결측치 찾기 및 처리import pandas as pdimport numpy as npdf = pd.DataFrame({'sex' :['M','F',np.nan,'M','F'], 'score': [5,4,3,4,np.nan]})✅ 결측치 확인하기:pd.isna(df)📌 결과: sex score0 False False1 False False2 True False3 False False4 False True✅ 컬럼별 결측치 개수 확인:pd.isna(df).sum()📌 결과:sex ..
-
[2월 2주차-2/12(1)]이터레이터(Iterator)와 제너레이터(Generator) 쉽게 이해하기Why Not SW CAMP 5기/수업 기록 2025. 2. 12. 10:21
Python에서 이터레이터(iterator) 와 제너레이터(generator) 는 반복(iteration)을 효율적으로 처리하는 방식입니다.1️⃣ 이터레이터(Iterator)란?이터레이터는 한 번에 한 개의 요소만 가져올 수 있는 객체입니다.보통 for 문을 사용할 때 자동으로 동작하는데, 직접 만들 수도 있습니다.✅ 이터레이터의 특징한 번 사용한 값은 사라지고 다시 돌아갈 수 없음for 문에서 자동으로 next()를 호출해 다음 값을 가져옴iter()로 이터레이터 객체를 만들고, next()로 값을 하나씩 꺼낼 수 있음class MyIterator: def __init__(self, data): self.data = data self.position = 0 # 오타 수정..