R은 통계 언어, Python은 개발 언어
회사에서 데이터를 다루다 보면 필요에 의해 R 또는 파이썬(Python)을 사용할 일이 생기곤 한다. 통계학 학부를 졸업하고 취업한 나의 경우에는 학부에서 SAS, R을 주로 사용했었기 때문에 Python은 비교적 나중에 배운 언어에 속한다.
데이터 사이언스라는 개념 자체가 없던 시절에 일반적인 통계학부에서는 SPSS, SAS와 같은 라이센스 프로그램이 주류였고, R과 같은 오픈 소스 프로그램은 이후에 오픈 소스가 발달함에 따라 커리큘럼에서도 확대된 것으로 알고 있다.
최근 데이터 사이언스라는 개념이 자리 잡은 이후에 통계학부에서도 Python을 활용한 수업들이 많이 늘어난 것으로 알고 있으며, 융합 학과 등과 같은 개념도 생기며 기존 통계학과, 컴퓨터공학과, 산업공학과 등의 학부가 합쳐진 형태의 커리큘럼을 가진 학과들도 생겼다.
위와 같이 기본적으론 R은 통계에서 다루는 언어, Python은 컴퓨터 공학에서 다루는 언어로 취급 받지만 최근 데이터 사이언스, 머신러닝, 딥러닝 등이 부각 되면서 R과 Python 모두 전반적인 분야에서 데이터 사이언스를 위해 활용하는 언어로 인식 되고 있다.
R 보다는 Python이 대세로 자리 잡음
글 제목에서 이미 언급했지만, 데이터 과학 입문자라면 R 보다는 Python으로 입문할 것을 추천한다. 가볍게 조회해본 Google Trend에서도 알 수 있듯이 Data Science, Machine Learning 등의 키워드와 함께 검색했을 때 Python의 검색량은 R 대비 상당히 높은 편임을 확인할 수 있다.
뿐만 아니라, 최근 회사에서도 분석가들 사이에서 R 보다는 Python을 많이 활용해서 분석을 진행하려는 움직임이 지속되고 있으며 R을 주로 사용하던 분석가 분들도 이제는 Python으로 갈아타려고 하는게 거의 명확해진 것 같다.
그 이유는 아무래도 주요한 딥러닝 프레임워크인 텐서플로, 케라스 등의 프레임워크들이 파이썬을 우선으로 지원하고 있는 부분과 필요한 라이브러리 및 기능에 대한 검색에서 R 보다는 Python 커뮤니티가 훨씬 크고 파워풀 하다는 점이 주요한 이유로 꼽히는 것 같다.
동일한 모델링을 수행한다면 본인에게 익숙하고 잘할 수 있는 언어를 선택하는 것이 당연히 올바른 방법이겠지만, 이제 막 데이터 과학에 입문하는 입장에서 두 언어 중 하나의 언어만 우선적으로 선택해서 공부하고 싶다고 한다면 이제는 당연히 Python을 선택하는 것이 맞다는 의견이 더 주류가 되었다고 본다.
그렇기에 나도 상대적으로 더 편하고 익숙하게 느껴지는 R은 이제 슬슬 놓아주고 Python을 조금 더 집중적으로 공부해서 문법에 더 익숙해져야할 필요성을 느끼고 있다.
댓글