반응형

Python

[Web Crawling] urlOpen과 urlretrieve

관련 정보 : https://docs.python.org/3.0/library/urllib.request.html urllib.request.urlretrieve를 이용한 다운로드 import urllib.request url = "http://uta.pw/shodou/img/28/214.png" savename = "test.png" urllib.request.urlretrieve(url, savename) print("저장되었습니다.") urlretrieve 함수를 통해 바로 파일(test.png)에 자료를 입력할 수 있습니다. urllib.request.urlopen을 이용한 다운로드 import urllib.request url = "http://uta.pw/shodou/img/28/214.png..

2020.06.24 게시됨

Python

[Web Crawling] Selenium 명령어

참고 : https://selenium-python.readthedocs.io/api.html 출처 : https://deepplin.blog.me/221512366470 1. Selenium으로 DOM요소 선택 - 요소를 찾지 못하면 NoSuchElementException 발생 이름 설명 처음요소를 추출 find_element_by_id(id) id속성으로 요소를 하나 추출 find_element_by_name(name) name 속성으로 요소를 하나 추출 find_element_by_css_selector(query) css 선택자로 요소를 하나 추출 find_element_xpath(query) xpath를 지정해 요소를 하나 추출 find_element_by_tag_name(name) 태그 이름..

2020.05.25 게시됨

[Python] xls를 xlsx로 변환하는법, xlsx를 xls로 변환하는법 포스팅 썸네일 이미지

Python

[Python] xls를 xlsx로 변환하는법, xlsx를 xls로 변환하는법

xls를 xlsx로 변환하는법 # xls to xlsx import win32com.client as win32 fname = "11번가.xls" excel = win32.gencache.EnsureDispatch('Excel.Application') wb = excel.Workbooks.Open(fname) wb.SaveAs(fname+"x", FileFormat = 51) #FileFormat = 51 is for .xlsx extension wb.Close() #FileFormat = 56 is for .xls extension excel.Application.Quit() xlsx를 xls로 변환하는법 # xlsx to xls from win32com.client import Dispatch xl ..

2020.03.25 게시됨

Python

[Web Crawling] Selenium 알림창 끄기

셀레니움을 사용하다 보면 알림창이 뜨고 허용이나 거부를 선택해야 하는 경우가 발생한다. 일단 알림창이 뜨면 브라우저의 다른 영역은 비활성화되기 때문에 크롤링에 상당히 귀찮은 존재다. 이를 어떻게 해결할 수 있을지 한참 찾아보다가 해답을 찾았다. from selenium import webdriver from selenium.webdriver.chrome.options import Options option = Options() # 알림창 끄기 option.add_experimental_option("prefs", { "profile.default_content_setting_values.notifications": 1 }) driver = webdriver.Chrome(chrome_options=opti..

2020.03.02 게시됨

Python

[Web Crawling] 헤드리스 브라우저

PhantomJS는 헤드리스 브라우저로 눈에 보이지 않는 브라우저를 말한다. 하지만 ChromeDriver에서도 간단한 코드로 헤드리스 처리할 수 있다. from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.chrome.options import Options options = Options() options.headless = True driver = webdriver.Chrome(executable_path="C:\chromedriver.exe", options=options) driver.get('https://www.naver.com/') html = driver.page_source soup = B..

2020.01.18 게시됨

반응형