본문 바로가기

AI/StudyNote

(48)
Python #CSV #데이터분석(교통) #시각화 활용 데이터 #01 : 티머니(https://pay.tmoney.co.kr/index.dev) 교통카드 통계자료 활용 데이터 #02 서울 열린데이터 광장 https://data.seoul.go.kr/ 서울의 각 역의 시간대별 승하차 데이터 대중교통 데이터 활용 1. csv 확인 (csv 헤더 내용은 본문 최상단 참고) import csv f = open('.\\data\\subwayfee.csv') #데이터 경로 data = csv.reader(f) #데이터 불러오기 next(data) for row in data: for i in range(4,8):#정수로 변환할 열 지정 row[i] = int(row[i]) print(row) f.close() 2. 유임승차비율이 가장 높은 역은 어디일까요? #강사..
Python #CSV #데이터분석(기상, 인구) #시각화 활용데이터 #01 : 기상청 https://data.kma.go.kr 1907년 10월 1일 ~ 2018년 3월 28일까지의 서울의 평균기온, 최저기온, 최고기온 자료가 담긴 csv 활용데이터 #02 : 행안부 https://jumin.mois.go.kr/ 전국 지역별 인구 자료와 2019년 남녀 지역,연령별 성비 자료 1. csv의 모든 내용 출력 import csv #csv모듈 임포트 f = open('.\data\seoul.csv', 'r') #서울csv를 리드 모드로 불러옴 #f = open('.\data\seoul.csv') #읽기모드(read)는 생략 가능 data = csv.reader(f, delimiter = ',')# 구분자를 ',' 기준으로 불러옴 #data = csv.reader(f..
Python #폴더의 존재 유무 판단 #OS 모듈 메서드 os.path.isdir(폴더객체) #폴더객체가 존재하면 True, 존재하지 않으면 False를 반환 크롤링 한 데이터를 폴더를 생성해 저장하는 경우 같은 이름의 폴더가 존재한다면 폴더를 이동만 하여 저장하고, 같은 이름의 폴더가 존재하지 않는다면 새로 폴더를 만들어 저장하는 연습. #파일 및 폴더를 관리하기 위한 os모듈 import os #폴더의 존재 유무 판단 f_dir = input('파일이 저장될 경로를 입력하세요. (예: c:\\test_dir\\) >')#저장할 폴더 객체 #print(os.path.isdir(f_dir)) f_dir이 있으면 True, 없으면 False를 반환한다. if os.path.isdir(f_dir): os.chdir(f_dir)#f_dir이 존재하는 경우 경로만 변..
Python #이미지크롤링 및 저장 이미지 수집용 크롤러 - 화면을 자동 스크롤 해서 필요한 페이지의 이미지가 모두 로딩될 수 있게 한다. - 이미지를 추출, PC의 특정 폴더로 다운로드 1. 필요한 라이브러리 로딩 from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys #키에 관련된 모듈 가져오기 import time import sys #파일로 저장하기 위한 모듈 import os #폴더를 다루기 위한 모듈 import urllib.request import urllib import re #정규표현식 관련 '레귤러 익스프레션스' import math #수학 import random #랜덤 2. 이미..
Python #웹크롤링 #요약 정보 추출 후 저장 한 페이지에 10개의 글이 있는 게시판의 제목, 작성일자, 조회수를 총 30개 크롤링해보자. 예제용 사이트 : https://aihub.or.kr/notice?field_article_category_target_id=All&combine=&page=0 AI 허브 소식 | AI 허브 AI 허브는 AI 기술 및 제품·서비스 개발에 필요한 AI 인프라(AI 데이터, AI SW API, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI 통합 플랫폼입니다. aihub.or.kr 위의 페이지 게시판 영역에서 데이터를 크롤링 하고, xpath를 활용해 페이지를 총 3번 이동시켜 총 30개의 요소를 크롤링 해보자. 1. 필요한 모듈과 라이브러리 로딩 #필요한 모듈과 라이브러리 로딩 from bs4 impor..
Python #엑셀다루기 엑셀 파일 다루기 1. 엑셀 파일을 다루기 위한 모듈 두개 설치 #엑셀 파일을 다루기 위한 모듈 두개 설치 !pip install openpyxl !pip install xlrd 2. 새로운 파일 생성하기 # 새로운 엑셀 파일을 1개 생성합니다. #모듈 임포트 import openpyxl wb = openpyxl.Workbook() #정해진 문법 wb.save('C:\\python_temp\\data\\test-01.xlsx') #파일 생성 3. 새로운 시트를 생성, 시트 이름을 변경하고 저장 #새로운 시트를 생성하고 시트 이름을 변경합니다. #현재 활성화 된 시트를 가져옵니다. sheet_1 = wb.active #새로운 시트를 만들면서 시트 이름을 지정합니다. sheet_2 = wb.create_sh..
Python #웹크롤링 #txt #xlsx #csv 크롤링 한 데이터를 다양한 파일의 형태로 저장 1. selenium 으로 크롬 브라우저를 열고, 원하는 데이터를 추출. 크롤링 할 사이트 : https://aihub.or.kr/ 홈 | AI 허브 AI 허브는 AI 기술 및 제품·서비스 개발에 필요한 AI 인프라(AI 데이터, AI SW API, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI 통합 플랫폼입니다. aihub.or.kr 서브페이지 중 개방데이터 -> 비전 탭에서 데이터를 추출할 예정이며 빨간 표시된 박스 안의 타이틀 부분, 속성태그, 년도 순으로 총 3개의 데이터를 추출 1. 주피터 노트북 열고 필요한 모듈 불러오기 from bs4 import BeautifulSoup #페이지 파싱용 from selenium import webd..
Python #웹크롤링 #xpath #txt파일저장 XPath XPath(XML Path Language)는 W3C의 표준으로 확장 생성 언어 문서의 구조를 통해 경로 위에 지정한 구문을 사용하여 항목을 배치하고 처리하는 방법을 기술하는 언어이다. XML 표현보다 더 쉽고 약어로 되어 있으며, XSL 변환(XSLT)과 XML 지시자 언어(XPointer)에 쓰이는 언어이다. XPath는 XML 문서의 노드를 정의하기 위하여 경로식을 사용하며, 수학 함수와 기타 확장 가능한 표현들이 있다. XPointer - 위키백과, 우리 모두의 백과사전 ko.wikipedia.org 간단히 요약하면, 해당 엘리먼트 요소의 구조 접근을 HTML태그로 찾아가는 것보다 아주 간단하게 접근할 수 있다는 것. XPath를 활용한 크롤링 실습 #01 목표: selenium을 활용..

반응형