뉴스 수집기 설치 및 사용 가이드 - 데이터웨이브

## 개요 구글 뉴스 스타일로 한국 뉴스를 검색하고, 본문까지 자동 추출해서 CSV로 저장하는 CLI 도구입니다. Windows와 Mac 모두 지원합니다. ## 설치 ### 1단계: uv 설치 **Windows:** 1. 키보드에서 `Windows + X` → "터미널" 또는 "PowerShell"을 클릭합니다. 2. 아래 두 줄을 **순서대로** 붙여넣고 각각 Enter를 누르세요. ```powershell Set-ExecutionPolicy -Scope CurrentUser -ExecutionPolicy RemoteSigned irm https://astral.sh/uv/install.ps1 | iex ``` **Mac:** ```bash curl -LsSf https://astral.sh/uv/install.sh | sh source ~/.zshrc ``` 설치가 끝나면 **터미널을 닫았다가 다시 열어주세요.** ### 2단계: Git 설치 **Windows:** 1. [Git 공식 다운로드](https://git-scm.com/download/win) 접속합니다. 2. **Git for Windows / x64 Setup** 파일을 다운로드 후 설치합니다. **Mac:** 1. [Git 공식 다운로드](https://git-scm.com/install/mac) 접속합니다. 2. 안내에 따라 다운로드 후 설치합니다. ### 3단계: 뉴스 수집기 설치 1. 터미널을 다시 열고 아래 명령어를 붙여넣으세요. (Windows, Mac 동일) ``` uv tool install git+https://github.com/daniel8824-del/korean-news-collector ``` ### 4단계: 초기 설정 1. 뉴스 수집기 초기화를 실행합니다. (Windows, Mac 동일) ``` news setup ``` | 순서 | 항목 | 설명 | 링크 | | --- | ----------------- | ---------------------------- | ------------------------------------- | | 1 | Tavily API 키 (필수) | 뉴스 검색 엔진, 무료 월 1,000회 | [Tavily 홈페이지](https://app.tavily.com) | | 2 | SerpAPI 키 (선택) | 구글 뉴스 직접 검색, 무료 월 100회 | [SerpAPI 홈페이지](https://serpapi.com) | | 3 | 브라우저 설치 | 자동 설치됨 (JTBC, 조선일보 등 본문 추출용) | - | ## 사용법 ### 기본 검색 ``` news search "AI 반도체" ``` > 10건 검색 + 본문 추출 + 다운로드 폴더에 CSV 자동 저장 ### 건수 지정 ``` news search "케데헌" 20 ``` ### 멀티 키워드 ``` news search "케데헌,BTS,AI" 5 ``` > 키워드별 5건씩 검색, 중복 제거 후 CSV 저장 ### 최근 N일만 ``` news search "경제 뉴스" -d 3 ``` ### 특정 URL 본문 추출 ``` news extract https://news.jtbc.co.kr/article/... ``` ## 저장 위치 | 항목 | 경로 | |------|------| | CSV 파일 | `C:\Users\사용자\Downloads\news_키워드_날짜시간.csv` | | API 키 설정 | `C:\Users\사용자\.env` | | 실행 파일 | `C:\Users\사용자\.local\bin\news.exe` | ## 자주 묻는 질문 > [!question] "TAVILY_API_KEY가 설정되지 않았습니다" > `news setup`을 다시 실행하세요. > [!question] 특정 사이트 본문이 안 나와요 > 대부분의 한국 뉴스 사이트를 지원합니다. 안 되는 URL을 알려주시면 개선합니다. > [!question] 무료 사용량이 다 떨어지면? > Tavily 무료는 월 1,000회입니다. 학습용으로 충분하며, 다음 달에 초기화됩니다. > [!question] 업데이트하려면? > ``` > uv tool install --force git+https://github.com/daniel8824-del/korean-news-collector > ``` ## 관련 노트 [[블로그 수집기 설치 및 사용 가이드]] - [[유튜브 수집기 설치 및 사용 가이드]] - [[인스타그램 수집기 설치 및 사용 가이드]] - [[데이터 분석기 설치 및 사용 가이드]] - [[이커머스 클래스 Chapter 1]] ## 🧠 Connected Insights > 📅 Last analyzed: 2026. 4. 24. 오후 3:38:09 > 💰 Analysis cost: $0.0203 ### 🔗 Related Notes - ✅ [[자동화 스크립트/SerpAPI 수집 데이터 전처리 스크립트.md]] - supports: 두 노트 모두 SerpAPI를 활용한 뉴스 데이터 수집 및 전처리 과정을 다루며, '뉴스 수집기 설치 및 사용 가이드'가 전체적인 설치/사용법을 안내하는 반면, 해당 스크립트 노트는 수집된 데이터를 실제로 가공·정제하는 방법을 구체적으로 제공함. 즉, 수집기의 활용을 실질적으로 뒷받침함. - Confidence: ████░ (83%) - 🔼 [[자동화 스크립트/구글 뉴스 수집 데이터 노션 블록 스크립트.md]] - extends: 뉴스 수집기에서 수집된 데이터를 Notion 블록 형태로 가공·적재하는 자동화 스크립트로, 수집기의 기본 기능을 확장하여 워크플로우의 다음 단계를 실현함. - Confidence: ████░ (80%) - 🔗 [[자동화 스크립트/Tavily Extract 뉴스 본문 클리닝 스크립트.md]] - related: Tavily API를 활용한 뉴스 본문 추출 및 클리닝에 초점을 맞춘 스크립트로, 수집기 가이드에서 언급된 Tavily 활용과 직접적으로 연결됨. 데이터 품질 향상에 기여하는 보조적 역할. - Confidence: ████░ (75%) - 🔗 [[자동화 스크립트/Playwright 뉴스 본문 클리닝 스크립트.md]] - related: Playwright 기반으로 뉴스 본문을 클리닝하는 자동화 스크립트로, 수집기에서 브라우저 자동화를 통해 본문을 추출하는 과정과 연계됨. 다양한 본문 구조 대응에 실질적 도움을 줄 수 있음. - Confidence: ████░ (75%) - ✅ [[데이터 클래스/데이터 클래스 Chapter 8.md]] - supports: 데이터 수집 및 자동화, API 활용 등 개념적 기반을 제공하는 이론적 노트로, 실무적 설치/사용법을 다루는 수집기 가이드의 배경지식 역할을 함. - Confidence: ████░ (78%) - 🔗 [[데이터 클래스/데이터 클래스 Chapter 9-3.md]] - related: Notion, 자동화, 텍스트 마이닝 등 데이터 활용 파이프라인의 후속 단계와 연결되며, 수집기에서 생성된 데이터를 실제 분석 및 관리로 확장하는 맥락을 제공함. - Confidence: ████░ (79%) ### 📚 Knowledge Gaps - 🔴 **에러 처리 및 예외 상황 자동화** - 수집기 사용 중 API 키 오류, 네트워크 장애, 뉴스 사이트 구조 변경 등 다양한 예외 상황이 발생할 수 있으나, 이에 대한 자동화된 대응 방안이 상세히 다뤄지지 않음. 이는 서비스 신뢰성과 유지보수성에 직접적인 영향을 미침. - Suggested resources: https://docs.python.org/ko/3/tutorial/errors.html, https://sre.google/sre-book/handling-overload/ - 🔴 **언론사별 본문 구조 변화 및 신규 패턴 대응** - 한국 뉴스 사이트들은 본문 구조가 자주 변경되므로, 구조 변화에 자동으로 적응하거나 신규 패턴을 신속히 반영하는 전략이 필요함. 그렇지 않으면 본문 추출 실패가 빈번해질 수 있음. - Suggested resources: https://github.com/fakeid/boilerpy3, https://scrapy.org/ - 🟡 **데이터 프라이버시 및 보안** - API 키 관리, 수집 데이터의 개인정보 포함 가능성 등 데이터 프라이버시와 보안 이슈가 언급되었으나, 구체적 가이드라인이나 보호 조치가 부족함. 이는 법적·윤리적 문제로 이어질 수 있음. - Suggested resources: https://www.kisa.or.kr/, https://owasp.org/www-project-top-ten/ - 🟡 **텍스트 마이닝 결과의 활용 및 후처리** - 수집된 뉴스 본문을 텍스트 마이닝 등으로 분석한 후, 그 결과를 어떻게 활용하고 후처리할지에 대한 구체적 워크플로우가 부족함. 데이터 가치 극대화를 위해 추가 설명이 필요함. - Suggested resources: https://wikidocs.net/book/2155, https://github.com/konlpy/konlpy - 🟡 **클리닝 품질 평가 및 자동 테스트** - 본문 추출 및 클리닝의 품질을 어떻게 평가하고, 자동화된 테스트로 신뢰성을 확보할지에 대한 체계적 접근이 부족함. 데이터 품질 보증을 위해 필수적인 영역임. - Suggested resources: https://pytest.org/, https://github.com/seomoz/dragnet ### 💡 AI Insights ‘뉴스 수집기 설치 및 사용 가이드’는 실무적 관점에서 한국 뉴스 데이터 수집 자동화의 전체 흐름(설치, 설정, 활용)을 명확하게 안내하며, 관련 자동화 스크립트 및 데이터 분석 노트들과 유기적으로 연결되어 있다. 특히 SerpAPI, Tavily, Playwright 등 다양한 도구의 실제 활용법과 연계된 후속 자동화 스크립트들이 풍부하게 존재해, 전체 데이터 파이프라인의 실질적 구현이 가능하다. 그러나 에러 처리, 구조 변화 대응, 데이터 보안, 품질 평가 등 신뢰성과 확장성을 위한 심화 주제는 상대적으로 부족해, 이 부분을 보완하면 더욱 견고한 지식 체계가 완성될 것이다. ## 🧠 Connected Insights > 📅 Last analyzed: 2026. 4. 18. 오전 9:12:57 > 💰 Analysis cost: $0.0215 ### 🔗 Related Notes - ✅ [[데이터 클래스/데이터 클래스 Chapter 8.md]] - supports: 두 노트 모두 Tavily, SerpAPI 등 뉴스 크롤링 자동화 도구를 다루며, 본 노트는 설치 및 사용법(실무적 도구 활용)에 집중하고, Chapter 8은 데이터 활용 및 분석적 맥락(이론 및 파이프라인 관점)을 제공함. 설치/사용법이 데이터 분석 파이프라인의 전처리 단계로 기능함. - Confidence: ████░ (78%) - 🔗 [[자동화 스크립트/Tavily Extract 뉴스 본문 클리닝 스크립트.md]] - related: 뉴스 수집기의 핵심 기능(본문 추출, CSV 저장)과 밀접하게 연결된 뉴스 본문 클리닝 자동화 스크립트로, 수집된 데이터의 품질 향상 및 후처리와 직접적으로 연관됨. - Confidence: ████░ (75%) - 🔗 [[자동화 스크립트/Playwright 뉴스 본문 클리닝 스크립트.md]] - related: Playwright를 활용한 본문 클리닝 스크립트로, 뉴스 수집기의 본문 추출 기능과 기술적으로 연결됨. 다양한 뉴스 사이트 구조에 대응하는 자동화 스크립트로서 상호 보완적 역할. - Confidence: ████░ (75%) - 🔗 [[데이터 클래스/데이터 클래스 Chapter 10-2.md]] - related: 뉴스 데이터의 활용 및 분석, 후처리와 관련된 심화 내용이 포함되어 있어, 수집기 설치/사용법과 데이터 활용 사이의 연결고리 역할을 함. - Confidence: ████░ (76%) - 🔗 [[자동화 스크립트/Playwright 기반 뉴스 추출 API 스크립트.md]] - related: 뉴스 수집기의 핵심 기술(Playwright 기반 자동화)과 직접적으로 연결되어 있으며, API 형태로의 확장 가능성 및 자동화 파이프라인 구축에 기여함. - Confidence: ████░ (81%) - ✅ [[자동화 스크립트/SerpAPI 수집 데이터 전처리 스크립트.md]] - supports: SerpAPI로 수집된 뉴스 데이터의 전처리 과정을 다루며, 본 노트의 수집-저장 단계 이후 데이터 품질 관리 및 활용을 지원함. - Confidence: ████░ (83%) - 🔼 [[자동화 스크립트/구글 뉴스 수집 데이터 노션 블록 스크립트.md]] - extends: 뉴스 수집기의 결과물을 Notion 등 외부 도구로 확장·활용하는 워크플로우를 제공함. 데이터 활용의 확장성 측면에서 연결됨. - Confidence: ████░ (80%) - 🔗 [[데이터 클래스/데이터 클래스 Chapter 9-3.md]] - related: 뉴스 등 크롤링 데이터의 Notion 연동, 자동화, 텍스트 마이닝 등 후처리 및 활용에 대한 심화 내용을 제공하며, 수집기 사용 이후의 데이터 활용 맥락을 확장함. - Confidence: ████░ (79%) ### 📚 Knowledge Gaps - 🔴 **에러 처리 및 예외 상황 자동화** - 뉴스 수집 과정에서 발생할 수 있는 다양한 에러(네트워크 오류, 사이트 구조 변경 등)에 대한 자동화된 대응 방안이 구체적으로 다뤄지지 않음. 이는 시스템 신뢰성과 운영 효율성에 직접적 영향을 미침. - Suggested resources: Python Exception Handling Best Practices (Real Python), Robust Web Scraping with Python (O'Reilly) - 🔴 **언론사별 본문 구조 변화 및 신규 패턴 대응** - 한국 뉴스 사이트의 본문 구조가 자주 변경되므로, 구조 변화 감지 및 신규 패턴 자동 대응 전략이 필요함. 이는 크롤러의 유지보수성과 데이터 품질에 핵심적임. - Suggested resources: BeautifulSoup & XPath for Dynamic Web Scraping, Monitoring Web Scrapers for Structural Changes (Medium) - 🟡 **데이터 프라이버시 및 보안** - 수집된 뉴스 데이터 및 API 키 등 민감 정보의 저장·관리, 개인정보 보호 등 보안적 측면이 언급되지 않음. 데이터 활용 및 공유 시 법적·윤리적 이슈가 발생할 수 있음. - Suggested resources: GDPR and Web Scraping: What You Need to Know, Managing Secrets in Python Projects (PyPI, dotenv) - 🟡 **텍스트 마이닝 결과의 활용 및 후처리** - 수집된 뉴스 데이터의 텍스트 마이닝, 분석, 시각화 등 후처리 및 실질적 활용 방안이 구체적으로 다뤄지지 않음. 데이터 수집의 목적 달성을 위해서는 후처리 전략이 필수적임. - Suggested resources: Text Mining with Python (O'Reilly), KONLPy와 KoNLP 활용 사례 (GitHub) - 🟡 **클리닝 품질 평가 및 자동 테스트** - 본문 추출 및 클리닝 결과의 품질 평가, 자동화된 테스트(정확도, 누락, 오탐지 등)에 대한 체계적 접근이 부족함. 데이터 신뢰성 확보를 위해 중요함. - Suggested resources: Data Validation for Web Scraping (Scrapy Docs), Automated Testing for Data Pipelines (Data Engineering Blogs) ### 💡 AI Insights 이 노트는 한국 뉴스 데이터를 자동으로 수집·저장하는 CLI 도구의 설치 및 사용법을 상세히 안내하며, 실무적 활용에 초점을 맞추고 있습니다. 관련 노트들과의 연결을 통해 데이터 전처리, 본문 클리닝, Notion 등 외부 도구 연동, 텍스트 마이닝 등 전체 데이터 파이프라인의 일부로 기능함을 알 수 있습니다. 그러나 에러 처리, 구조 변화 대응, 데이터 보안, 후처리 및 품질 평가 등 실무적 완성도를 높이기 위한 심화 주제는 상대적으로 부족합니다. 향후 이러한 지식 갭을 보완하면, 뉴스 데이터 수집 및 활용 파이프라인의 신뢰성과 확장성이 크게 향상될 것입니다.