본문 바로가기
IT/Scraping

지저분한 데이터 정리하기: 사후 정리(오픈리파인, OpenRefine)

by Cyber_ 2025. 2. 20.

데이터를 코드로 정리할 수 있지만, 자신이 만들지 않는 데이터 또는 어떻게 정리해야할지 모를 데이터셋을 다룰 수도 있습니다. 이럴 땐 오픈리파인이라는 프로그램을 사용하여 데이터를 빠르게, 가동성 있게 정리할 수도 있습니다.

오픈 리파인(http://openrefine.org/)은 메타웹이라는 회사에서 제작된 오픈소스 프로젝트 입니다.

설치

오픈리파인의 인터페이스는 브라우저 안에서 동작하지만, 사실은 데스크톱 애플리케이션이므로 반드시 내려받아 설치해야 합니다.

http://openrefine.org/download.html

에서 내려받을 수 있습니다.

오픈리파인을 사용하려면 데이터를 CSV 파일로 바꿔야 합니다. 데이터를 데이터베이스에 저장했다면 CSV 파일로 내보낼 수 있습니다.

사용

  1. 필터링: 필터링에는 필터와 facet 두 가지 방법이 있습니다.

필터는 정규 표현식을 써서 데이터를 거를 때 유용합니다.

facet은 열의 콘텐츠 전체를 바탕으로 데이터를 제외하거나 포함하려 할 때 유용합니다.

필터와 facet 는 함께 쓸 수 있습니다.

  1. 정리
    데이터를 말끔히 필터링 하려면 그 데이터가 비교적 깔끔하게 정리되어 있어야 합니다.

좀더 자세한 사용법은

유튜브의 강의가 많으니 참조할만합니다.