마케터 실무도구/Python 마케팅을 위한 파이썬 도구
파이썬으로 여러 웹페이지 글자수 분석하고 엑셀로 저장하는 방법
신마성
2025. 4. 29. 13:39
1. 왜 여러 웹페이지를 한 번에 분석할까?
블로그 글, 기사, 제품 페이지처럼 다양한 웹페이지를 관리할 때,
각 페이지마다 글자 수를 하나씩 세는 것은 시간이 많이 걸려요.
특히 SEO 최적화나 글 품질 점검이 필요한 경우에는 자동화가 필수입니다.
왜 해야 할까?
수십 개 웹페이지의 글자 수와 키워드 빈도를 자동으로 정리하면, 품질 관리와 최적화 작업이 훨씬 쉬워지기 때문입니다.
2. 준비물: 파이썬과 기본 라이브러리 설치
파이썬이 설치되어 있다면, 필요한 라이브러리 몇 개만 설치하면 됩니다.
bash
pip install requests beautifulsoup4 pandas openpyxl
- requests: 웹페이지 가져오기
- beautifulsoup4: HTML 정리하고 텍스트 추출
- pandas: 엑셀 파일 생성
- openpyxl: 엑셀 저장을 위한 엔진
작업포인트: 설치는 한 번만 해두면 다음부터는 바로 사용할 수 있어요.
3. 웹페이지 여러 개 분석하는 코드 작성하기
아래는 URL 리스트를 한 번에 입력하고,
각 페이지의 글자 수, 공백 제외 글자 수, 가장 많이 나온 단어 TOP 5를 분석해서
엑셀 파일로 저장하는 파이썬 코드입니다.
python
import requests
from bs4 import BeautifulSoup
from collections import Counter
import pandas as pd
# 분석할 URL 리스트
urls = [
"<https://example.com/page1>",
"<https://example.com/page2>",
"<https://example.com/page3>"
]
# 결과를 담을 리스트
results = []
for url in urls:
try:
response = requests.get(url, timeout=10)
soup = BeautifulSoup(response.text, "html.parser")
text = soup.get_text(separator=" ", strip=True)
total_len = len(text)
no_space_len = len(text.replace(" ", ""))
words = text.split()
counter = Counter(words)
top_words = counter.most_common(5)
top_words_str = ", ".join([f"{word}({count})" for word, count in top_words])
results.append({
"URL": url,
"공백 포함 글자수": total_len,
"공백 제외 글자수": no_space_len,
"가장 많이 나온 단어 TOP 5": top_words_str
})
except Exception as e:
print(f"{url} 에서 오류 발생: {e}")
# 데이터프레임 변환 후 엑셀로 저장
df = pd.DataFrame(results)
df.to_excel("web_text_analysis.xlsx", index=False)
파일명: web_text_analysis.xlsx
✅ URL별로 분석 결과가 한 시트에 깔끔하게 정리돼 저장됩니다.
주의사항(*)
- 만약 특정 웹페이지가 막혀 있거나 접속이 느리면, timeout 설정(10초)을 통해 끊고 넘어가도록 처리했습니다.
- HTTPS 인증 문제가 생길 경우에는 추가 설정이 필요할 수 있어요.
4. 활용 포인트와 실수 방지 체크
- URL 개수가 많더라도 파이썬이 자동으로 순서대로 분석해줘요.
- 엑셀 파일로 저장되기 때문에 팀원과 공유하거나 추가 분석할 때 매우 편리해요.
- 단, 크롤링 방지 설정이 되어 있는 사이트는 분석이 안 될 수 있어요. (예: 로그인 필요한 페이지)
디테일포인트:
단어 빈도 분석은 단순 띄어쓰기 기준이기 때문에, '합니다', '하는', '한' 이런 조사/어미까지 카운트될 수 있어요.
정교한 키워드 분석이 필요하면 추가 전처리 과정을 넣어야 합니다.
핵심 요약
항목 설명
분석 대상 | 여러 개 웹페이지 URL |
분석 내용 | 공백 포함 글자수, 공백 제외 글자수, 단어 빈도 TOP 5 |
결과 저장 | 하나의 엑셀 파일 |
추천 사용 | 블로그 품질 점검, SEO 최적화, 대량 글 관리 |
마무리
수십 개 웹페이지를 하나하나 복사해서 글자 수를 세는 건 시간 낭비에요.
파이썬을 활용하면 단 몇 분 만에 모든 글자 수 분석과 키워드 빈도 정리를 자동으로 끝낼 수 있습니다.
글 관리가 필요한 실무자라면 꼭 한 번 직접 사용해보세요.