전체 글
-
[3월 2주차-3/11(4)]🏙️ 블로거들이 추천하는 서울 명소 분석하기! (WordCloud 시각화)Why Not SW CAMP 5기/수업 기록 2025. 3. 11. 17:03
📌 서울을 여행할 때, 사람들이 가장 많이 추천하는 명소는 어디일까요?블로그에 남겨진 여행 후기와 추천 장소 데이터를 분석하여 가장 많이 언급된 서울 명소를 시각화해 보았습니다.이 과정에서 형태소 분석, 불용어 처리, 단어 빈도 분석, 그리고 WordCloud(워드클라우드) 기법을 활용했습니다.📊 데이터 분석을 통해 어떤 서울 명소가 인기 있는지 함께 살펴볼까요?🔍 1. 분석 개요 및 목표📌 목표:블로그 데이터에서 블로거들이 가장 많이 추천하는 서울 명소를 추출하고, 이를 시각화하여 트렌드를 분석합니다.📌 사용 기술:Python 🐍konlpy(형태소 분석)Counter(단어 빈도 계산)WordCloud(시각화)Matplotlib(그래프 출력)📌 분석 과정:1️⃣ 텍스트 데이터 수집 (서울 명..
-
[3월 2주차-3/11(3)]🏆 카운트 기반의 단어 표현 (Bag of Words)Why Not SW CAMP 5기/수업 기록 2025. 3. 11. 13:48
텍스트 데이터를 수치화하는 방법 중 가장 기본적인 기법인 Bag of Words(BoW)는 단어들의 순서를 고려하지 않고, 출현 빈도(Frequency)를 기반으로 문서를 표현하는 기법입니다. 주로 문서 분류나 문서 간 유사도 비교와 같은 작업에서 많이 사용됩니다.📌 1. Bag of Words (BoW)란?문서 내 단어의 등장 횟수를 기반으로 텍스트를 수치화하는 기법✅ BoW는 단어 순서를 고려하지 않고, 각 단어가 문서에서 얼마나 등장했는지에 집중합니다.✅ BoW는 텍스트 분류, 감성 분석, 문서 유사도 측정 등의 작업에서 활용됩니다.📌 활용 예시뉴스 기사에서 어떤 단어가 많이 등장하는지를 분석하여 해당 기사의 주제를 분류영화 리뷰에서 긍정적인 단어와 부정적인 단어의 빈도수를 활용한 감성 분석📌..
-
[3월 2주차-3/11(2)]🧠 언어 모델 (Language Model)Why Not SW CAMP 5기/수업 기록 2025. 3. 11. 11:48
단어 시퀀스에 확률을 할당하는 모델로, 특정 문장이 얼마나 자연스러운지를 평가하는 역할을 함. 언어 모델을 만드는 방법에는 통계 기반 접근법과 인공 신경망 기반 접근법이 있음.📌 1. 언어 모델링 (Language Modeling)주어진 단어들로부터 아직 모르는 단어를 예측하는 작업언어 모델은 이전 단어들을 기반으로 다음 단어가 등장할 확률을 계산하여 문장의 자연스러움을 평가하는 데 사용됨.🔹 2. 통계적 언어 모델 (Statistical Language Model, SLM)이전 단어로부터 다음 단어가 등장할 확률을 계산하는 방식✅ 특징단어의 등장 빈도를 기반으로 카운트(count) 방식으로 확률을 계산.대표적인 예로 N-gram 모델이 있음.카운트 기반 접근법의 한계: 희소 문제(Sparsity P..
-
[3월 2주차-3/11(1)]🛠 한국어 전처리 패키지Why Not SW CAMP 5기/수업 기록 2025. 3. 11. 10:36
🚀 SOYNLP📌 품사 태깅, 단어 토큰화를 지원하는 토크나이저✅ 비지도 학습으로 토큰화를 하고, 데이터에 자주 등장하는 단어를 분석.✅ 내부적으로 단어 점수표로 동작하며, 이 점수는 응집 확률(Cohesion Probability)과 브랜칭 엔트로피(Branching Entropy)를 사용.🔹 DoublespaceLineCorpus: 텍스트 파일을 줄 단위로 불러오는 코퍼스 로더🔹 WordExtractor: 단어 점수표 계산. 비지도 학습 방식으로 텍스트 데이터를 보고 새로운 단어를 찾아내고 점수를 부여할 수 있음.📌 단어 점수표 (word_score_table)와 응집 확률, 브랜칭 엔트로피 설명한국어 자연어 처리는 띄어쓰기 문제가 많기 때문에 어떤 문자열이 실제 단어인지 판단하는 것이 중요..
-
[3월 1주차-3/7(3)]텍스트 전처리4- 원-핫 인코딩, 데이터의 분리Why Not SW CAMP 5기/수업 기록 2025. 3. 7. 14:58
✅텍스트 전처리토큰화(tokenization)정제(cleaning) and 정규화(normalization)어간 추출 and 표제어 추출불용어(stopword) 제거정규 표현식(regular expression)정수 인코딩(integer encoding)패딩(padding)원-핫 인코딩(one-hot encoding)데이터의 분리(splitting data) 원 핫 인코딩(One-Hot Encoding) 및 데이터 분리(Splitting Data)자연어 처리를 수행할 때, 텍스트 데이터를 수치화하는 여러 방법 중 하나가 원 핫 인코딩(One-Hot Encoding)입니다. 또한 지도 학습에서는 데이터를 훈련 데이터와 테스트 데이터로 분리하는 과정이 필요합니다. 이 글에서는 원 핫 인코딩과 데이터 분리 방..
-
[3월 1주차-3/7(2)]텍스트 전처리3-정수 인코딩, 패딩Why Not SW CAMP 5기/수업 기록 2025. 3. 7. 12:10
✅텍스트 전처리토큰화(tokenization)정제(cleaning) and 정규화(normalization)어간 추출 and 표제어 추출불용어(stopword) 제거정규 표현식(regular expression)정수 인코딩(integer encoding)패딩(padding)원 핫 인코딩(one-hot encoding)데이터의 분리(splitting data) 정수 인코딩 (Integer Encoding) 및 패딩 (Padding) 완벽 가이드자연어 처리를 수행할 때, 텍스트 데이터를 수치화하는 과정이 필요합니다. 정수 인코딩(Integer Encoding)은 텍스트 데이터를 숫자로 변환하는 방법 중 하나로, 단어에 정수를 부여하는 방식입니다. 또한, 패딩(Padding)은 다양한 길이의 문장을 동일한 길..
-
[3월 1주차-3/7(1)]텍스트 전처리2-정규 표현식Why Not SW CAMP 5기/수업 기록 2025. 3. 7. 09:43
✅텍스트 전처리토큰화(tokenization)정제(cleaning) and 정규화(normalization)어간 추출 and 표제어 추출불용어(stopword) 제거정규 표현식(regular expression)정수 인코딩(integer encoding)패딩(padding)원 핫 인코딩(one-hot encoding)데이터의 분리(splitting data)정규 표현식 (Regular Expression)정규 표현식(Regular Expression, RegEx)은 특정한 패턴을 가진 문자열을 검색, 추출, 변환하는 강력한 도구입니다. 특히 데이터 전처리 과정에서 유용하게 활용됩니다. 이번 글에서는 파이썬에서 정규 표현식을 다루는 방법과 주요 활용법을 소개합니다.1. 정규 표현식이란?정규 표현식은 특정한..
-
[3월 1주차-3/6(2)]텍스트 전처리1-토큰화, 정제 및 정규화, 표제어 및 어간 추출, 불용어 제거Why Not SW CAMP 5기/수업 기록 2025. 3. 6. 17:35
✅텍스트 전처리토큰화(tokenization)정제(cleaning) and 정규화(normalization)어간 추출 and 표제어 추출불용어(stopword) 제거 정규 표현식(regular expression) 정수 인코딩(integer encoding)패딩(padding)원 핫 인코딩(one-hot encoding)데이터의 분리(splitting data)텍스트 전처리는 자연어 처리(NLP)에서 필수적인 과정으로, 데이터를 정제하고 분석에 적합한 형태로 변환하는 작업을 의미합니다. 이 과정에는 토큰화, 정제 및 정규화, 표제어 및 어간 추출, 불용어 제거 등이 포함됩니다.정수 인코딩 이후 부터는 다음 게시글을 참고해주세요1. 토큰화(Tokenization)토큰화는 텍스트를 일정한 단위로 나누는 작업..