본문 바로가기

Previous (20-22)/Development

머신러닝 / 빅데이터 연구를 시작하는 방법 - (3) R Programming

이 글로 바로 넘어오신 분이 계신다면, 바로 앞의 개요 부분을 한번은 참고해주시기 바랍니다.

제가 어떤 배경으로 이런 글을 썼는지를 알 수 있을 것입니다.

 

2016/11/19 - [Onik Lab./General] - 머신러닝 / 빅데이터 연구를 시작하는 방법 - (1) 개요

2016/11/19 - [Onik Lab./General] - 머신러닝 / 빅데이터 연구를 시작하는 방법 - (2) 왜 머신러닝과 빅데이터인가?

 

 

앞의 글을 요약하면 다음과 같습니다.

 

현재 제가 준비하는 부분은 머신러닝을 통해서 AI를 학습 및 연구하는 것입니다.

그리고 빅데이터는 이러한 머신러닝 연구를 위한 또다른 방법이 될 수 있는 것이고요.

 

사실 일개 개인이. 그것도 심지어 백수도 아닌 일반 직장인이, 어디서 그렇게 큰 데이터를 가지고 있고, 대용량 스토리지를 보유하고 있겠습니까. 말이 안되는 일이죠.

심지어 회사의 데이터를 다룰 수 있다고 해도 그것을 제 연구용으로 사용하면 안됩니다. 그것은 명백한 불법이기 때문이죠.

 

그러나 다행스럽게도, 빅데이터까지는 아니더라도 인터넷에는 방대한 자료를 얻을 수 있는 방법이 많이 있으며, 그것도 모두에게 공개된 자료 역시 찾아보면 많습니다. 이러한 자료들이 빅데이터가 될 수 있고 수집 데이터가 될 수 있습니다.

 

 

 

이제 본론 들어갈게요.

 

3. R Programming

 

 

아마도 이러한 의구심은 있을 것입니다.

 

왜 R이냐? 할 것이면 Python을 해야 하는 것 아니냐?

 

네. 물론 할 수 있습니다. 경우에 따라서, 혹은 필요에 따라서는 Python도 제 연구를 위한 프로그래밍 수단이 될 수 있습니다.

그렇기 때문에 나중에 Python도 같이 사용할 수 있습니다.

 

그럼에도 불구하고 R을 선택한 이유는 그냥 단순하게.. 끌려서 하게 된 것입니다.

단순하게 끌려서 하게 되었다. 그것만큼 중요한 이유가 있을까요.

 

다행스럽게도 R Programming을 통해서 구현할 수 있는 것은 매우 많이 있습니다.

비록 최근에 나온 언어는 아니지만서도, CRAN에서 제공하는 수많은 패키지들도 있고.

그것까지는 아니더라도, R 언어 자체가 정말 간단한 문법을 가지고도 통계에 대한 수많은 결과를 표현하고 개발하는 것이 가능합니다.

 

사실 그래요. Python이 만능일 수는 있습니다.

하지만 좀 더 통계와 관련된 부분에 특화된 언어를 하는 것도 괜찮을 것이라고 생각됩니다.

통계하면 SPSS가 가장 먼저 떠오르는 것은 누구나 아는 사실이지만, SPSS는 도구일 뿐이지 언어가 아니라는 것은 알고 계실 것입니다.

 

그런 의미에서 R을 접하게 된 것입니다.

 

실제로, R 관련해서 인터넷, 서적 등등을 보더라도 머신러닝에 사용되는 기초 알고리즘이나 예제 등을 생각하는 것 이상으로 상당수 많이 제공하고 있습니다. 그렇기 때문에 누구나 학습 및 연구하는 데 도움이 될 수 있을 것이라 생각합니다.

 

그 중에서 제가 몇 가지 책을 추천하자면,

 

데이터 분석으로 배우는  알짜 R 테크닉 - 인사이트(원저자 재리드 랜더, 조민구 옮김)

R을 활용한 데이터 시각화 - 인사이트(유충현, 홍성학 지음)

빅데이터(Big Data) 활용서. 1 : R을 이용한 중 고급 데이터 분석의 바이블 - 시대인(김경태, 안정국, 김동현 지음)

빅데이터(Big Data) 활용서. 2 : R을 이용한 중 고급 데이터 분석의 바이블 - 시대인(김경태, 안정국, 김동현 지음)

 

 

뭐 이 정도 있겠습니다.

물론 원서나 외부 인터넷 자료 등등도 많이 있지만, 인터넷 자료같은 경우는 좋은 자료 있으면 별도로 제가 따로 올릴 예정입니다.

글 제목이 '머신러닝 연구를 시작하는 방법'이기 때문에, 말그대로 시작하는 사람들을 위해서 한글로 번역 및 집필된 서적을 우선적으로 보면서 전진해 나가는 것이 순서이지 않을까 생각합니다.

 

 

그렇다면 이 책들은 머신러닝 및 R프로그래밍을 위한 분석이 기초부터 하나씩 잘 나와있을까요.

사실 그렇지는 않습니다. 아무래도 이론서가 아닌 프로그래밍 서적이라는 점에서 프로그래밍 코드 작성 및 함수(Function), 구현(Implementation) 등을 위주로 나타낼 수밖에 없겠죠.

 

당연합니다.

이들 책에서 요구하고자 하는 바는 (책의 내용은 각자 다르지만서도) R 프로그래밍을 어떻게 공부하고, 이를 통해서 어떤 방향으로 응용하면 좋을 지를 알려주고자 하는 것이지, 머신러닝, 빅데이터, 통계공부를 위해서 R프로그래밍을 소개하는 책이 아니거든요.

 

 

그래서 R프로그래밍을 학습하면서도 머신러닝에 대한 연구를 하고 싶은 저같은 사람이 있다면, 위 부분은 반드시 유념해야 합니다.

 

 

출처: Edureka

 

 

 

여태까지 썼던(이 글 뿐 아닌 앞선 글 포함하여) 글을 요약하면 다음과 같습니다.

 

1. AI를 연구하고 싶다.

2. AI 연구를 위해 머신러닝을 학습 및 연구하고 싶다.

3. 머신러닝의 데이터 관리를 위해 빅데이터를 연구하고 싶다.

4. 머신러닝의 프로그램 개발을 위해 R 언어를 사용하고 싶다.

 

 

자 그러면 이를 바탕으로 어떤 방법으로 연구해 나가야 할 것인지.

다음 편에 이어서 작성하겠습니다.