전체 글
-
[2월 3주차-2/20(2)]미세먼지와 날씨 데이터 분석 및 시각화Why Not SW CAMP 5기/수업 기록 2025. 2. 20. 17:55
미세먼지는 인간의 건강에 중요한 영향을 미치는 환경 요인 중 하나입니다. 본 포스트에서는 미세먼지(PM10, PM2.5)와 날씨(온도, 습도, 강수량, 풍속) 데이터를 결합하여 분석하고, 상관관계를 파악하는 과정을 소개하겠습니다.1. 데이터 불러오기 및 전처리먼저, 미세먼지 데이터와 날씨 데이터를 불러옵니다.import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npdust = pd.read_excel('data/dust.xlsx')dust.columns = ['date', 'so2', 'co', 'o3', 'no2', 'PM10', 'PM2.5']날짜 데이터 변환미세먼지 데이터의 날짜 정보를 연-월-일 ..
-
[2월 3주차-2/20(1)]다나와 무선청소기 데이터 분석 및 시각화 🧹📊Why Not SW CAMP 5기/수업 기록 2025. 2. 20. 12:23
1. 데이터 전처리 🛠️1.1 데이터 불러오기 및 기본 정보 확인 📂import pandas as pddata = pd.read_excel("files/danawa_crawling_result.xlsx")data.info()300개의 데이터가 있으며, 상품명, 스펙 목록, 가격 등의 컬럼이 존재합니다.1.2 상품명 분리 (회사명과 제품명) 🏭📦company_list = []product_list = []for title in data['상품명']: title_info = title.split(' ', 1) company_list.append(title_info[0]) product_list.append(title_info[1])상품명을 회사명과 제품명으로 분리하여 각각 리스트에 저..
-
[2월 3주차-2/19]왜 우리 동네에는 스타벅스가 없을까?Why Not SW CAMP 5기/수업 기록 2025. 2. 20. 09:09
서울에서 스타벅스가 어떤 입지 전략으로 매장 입지를 선택하는지 분석=> 두 가지 가설을 세워, 이 가설이 맞는지 데이터를 분석을 통해 확인가설 1. 거주 인구가 많은 지역에 스타벅스 매장이 많이 입지해 있을 것이다!가설 2. 직장인이 많은 지역에 스타벅스 매장이 많이 입지해 있을 것이다!1. 데이터 수집입지전략을 분석하기 위해서는 서울시 내에 출점한 스타벅스들의 위치를 파악.→ 스타벅스 홈페이지에서 매장들의 정보를 수집(크롤링)두 가지 가설을 검증하기 위한 인구 통계 데이터 수집.→ 서울시 열린데이터 광장 OPEN API를 이용하여 인구 통계 데이터 (거주인구 수, 직장인구 수)1.1 크롤링을 이용한 서울시 스타벅스 매장 목록 데이터 생성📌 (1_1_Crawling_Starbucks_List.py)# ..
-
[2월 3주차-2/18(4)]📊 월별 외국인 관광객 데이터 전처리 및 통합 분석Why Not SW CAMP 5기/수업 기록 2025. 2. 19. 10:23
한국관광데이터랩에서 제공하는 2010년 1월부터 2020년 5월까지의 외국인 관광객 데이터를 수집하고, 전처리하여 하나의 파일로 통합하는 과정을 소개한다. 🚀1️⃣ 데이터 파일 확인 🧐우선, 하나의 데이터를 불러와서 구조를 확인해보자.import pandas as pd# 2019년 1월 데이터 불러오기kto_201901 = pd.read_excel('./data/kto_201901.xlsx', header=1, usecols='A:G', skipfooter=4)# 데이터 확인kto_201901.head()📌 데이터 예시 국적 관광 상용 ..
-
[2월 3주차-2/18(3)]📊 YouTube 채널 랭킹 크롤링 및 데이터 분석Why Not SW CAMP 5기/수업 기록 2025. 2. 18. 16:01
YouTube 채널 랭킹 데이터를 크롤링하여 구독자 수, 조회 수, 동영상 수를 수집하고, Excel 파일로 저장한 후 시각화하는 과정을 소개한다. 🚀1️⃣ YouTube 채널 랭킹 크롤링 🕵️♂️Selenium을 이용해 YouTube 랭킹 사이트(10페이지) 데이터를 크롤링한다.# 라이브러리 불러오기from selenium import webdriverfrom bs4 import BeautifulSoupimport pandas as pdimport timeimport re# 크롬 브라우저 실행browser = webdriver.Chrome()# 결과 저장 리스트results = [] # [title, category, subscriber, view, video]# 1~10페이지 크롤링for pag..
-
[2월 3주차-2/18(2)]MelOn, Bugs, Genie 크롤링 후 Excel 파일로 저장 및 통합 🎵Why Not SW CAMP 5기/수업 기록 2025. 2. 18. 13:48
웹 크롤링을 활용하여 MelOn, Bugs, Genie의 실시간 음악 차트 데이터를 수집하고, 이를 Excel 파일로 저장한 후 하나의 파일로 통합하는 방법을 소개한다.1️⃣ MelOn 차트 크롤링 🎶MelOn의 실시간 차트 데이터를 크롤링하여 엑셀 파일로 저장한다.from bs4 import BeautifulSoupfrom selenium import webdriverimport pandas as pd# 크롬 브라우저 실행driver = webdriver.Chrome()url = 'http://www.melon.com/chart/index.htm'driver.get(url)html = driver.page_sourcesoup = BeautifulSoup(html, 'html.parser')# 데이터 ..
-
[2월 3주차-2/18(1)]웹 스크래핑과 Selenium을 활용한 크롤링 가이드 🚀Why Not SW CAMP 5기/수업 기록 2025. 2. 18. 11:38
웹 크롤링과 스크래핑을 활용하면 원하는 데이터를 자동으로 수집할 수 있다. 이번 글에서는 Selenium과 BeautifulSoup을 이용해 웹페이지 데이터를 수집하는 방법을 다룬다.1️⃣ Selenium을 활용한 웹페이지 접근웹사이트의 동적 콘텐츠를 크롤링하기 위해 Selenium을 사용하여 크롬 브라우저를 실행하고, HTML을 가져오는 방법을 알아보자.✅ Selenium 설치 및 실행pip install selenium✅ 크롬 브라우저 실행 및 웹페이지 HTML 가져오기from selenium import webdriver# 크롬 브라우저 실행driver = webdriver.Chrome()# 네이버 접속url = 'https://www.naver.com/'driver.get(url)# 웹페이지 HT..
-
[2월 3주차-2/17(2)]📊 파이썬 웹 스크래핑으로 삼성전자 주가 데이터 분석하기Why Not SW CAMP 5기/수업 기록 2025. 2. 17. 17:17
웹 크롤링과 웹 스크래핑웹 크롤링(Web Crawling)과 웹 스크래핑(Web Scraping)은 웹에서 데이터를 자동으로 수집하는 기술이지만 목적과 방식이 다르다.웹 크롤링 🕷️웹 페이지를 탐색하며 링크를 따라 이동하며 정보를 수집하는 기술이다. 검색 엔진이 웹사이트를 색인할 때 사용된다.목적: 여러 웹사이트를 자동으로 탐색하며 데이터 수집예시: 구글봇이 웹을 돌아다니며 새로운 페이지를 색인사용 기술: Scrapy, Selenium, BeautifulSoup웹 스크래핑 🛠️특정 웹페이지에서 원하는 데이터를 추출하는 기술로, 특정 정보만 가져오는 데 집중한다.목적: 웹페이지에서 특정 데이터만 추출예시: 쇼핑몰에서 상품 가격 수집, 뉴스 기사 제목 가져오기사용 기술: BeautifulSoup, Sel..