평점이 높은 영화가 성공할까? – 영화 데이터 분석 Part 1

이번 분석은 예전의 마션 영화평 분석의 연장선에 있다. 다른점은 이번에는 1) 보다 많은 영화의 데이터를 분석에 사용했고, 2) 영진위의 영화별 매출 데이터를 접목해 보았다는 점이다.

먼저, 사용한 데이터에 간단히 설명하자면, 영화진흥위원회 DB정보 를 기반으로 2015년 개봉한 영화의 매출 및 영화평 데이터를 사용하였다. 영화평 데이터는 ‘다음영화’의 평점 데이터를 사용했다.

영진위 데이터 기준으로 다음영화에서 검색되는 2015년 개봉영화 데이터는 전체 1,226개중 780개 영화로 63%정도 였다. 매출액 기준으로는 2015년 기준 1조 5천억 수준으로 전체 영진위 데이터의 97%가량이다. 아마도 주요한 영화는 대부분 포함된게 아닌가 싶다.

간단한 데이터 현황을 보면, 매출 Top10 영화는 아래와 같다. (안타깝게도 마션은 11위 ㅠㅠ)

평점 수(평점을 준 사람의 수) Top10 영화는 아래와 같다. 매출 Top10과는 조금 다르다. 연평해전은 매출은 9위였지만, 평점 수는 1위였고, 심지어 평점은 6.5 였다(;;) 쎄시봉은 매출 Top10에 있지도 않았고, 심지어 평점은 5.1이다. 그래도 대부분의 영화가 매출 상위권인건 확인할 수 있다.

평균 평점 데이터는 평균 이기 때문에 Top10에 큰 의미는 없을 것으로 보인다. 한명이 10점을 주면, 그냥 10점 짜리 영화다보니 (..)

이제 매출의 전체 분포를 살펴보도록 하자. 당연하게도, 대부분의 영화가 굉장히 낮은 매출액을 보이고 극히 소수의 영화만이 높은 매출액을 보이는걸 확인할 수 있다.

평점 수 분포도 매출액 처럼 왼쪽으로 치우친 분포를 보인다. 매출액처럼 역시 사람들이 평점 자체를 주는 영화는 적다.

이번에는 별점 분포를 봐보도록 하자. 0~1점대인 영화는 대부분 별점을 준 사람이 별로 없어서(..) 나온 숫자로 보인다. 이를 제외하면 대부분 6~8점 정도를 주는 것을 확인할 수 있다. 이는 예전에 TED에서 본 show의 평점 분포와 유사하다. 이런 평점 분포는 아마도 한국뿐 아니라, 컨텐츠 업계에선 일반적 특성인것 같다. 전반적으로 썩 나쁜 평점을 받는 영화는 드물 다는 걸 확인할 수 있다. 그렇다는건 5.1점을 받은 쎄씨봉은 겁나 낮은 평점을 받은거다 (…)

 평점과 log(평점 수)의 관계를 한번 살펴보면, 전반적으로 높은 평점을 받은 영화가 평점수도 많은 우상향을 보이긴 한다. cor값은 약 0.486. 하지만, 완전히 높은 점수 9~10점은 평점 수가 많지 않은 것으로 보인다. 아마 평균 평점이기 때문에 극단 값을 가진 경우는 평점 수가 적은 경우가 많은 것으로 보인다.

사실 이 데이터는 영화의 매출데이터와 영화평 데이터를 함께 모아서 본다는 것에 의미가 있기 때문에, 이번에는 이 관계를 살펴보고자 한다.

1. 평점과 log(매출액)의 관계를 살펴보면, 역시 우상향 하는 형태이긴 하지만, 선형이라고 하기엔 포인트들이 꽤나 넓게 펴져 있는 것을 확인할 수 있다. cor 값은 약 0.533. 평점이 좋은 영화가 매출액이 높은 추세이긴 하지만, 그 정도가 분명하다고 할 수 있을까?

2. 마지막으로 log(평점 수)와 log(매출액)의 관계를 살펴보았다. 이번에는 꽤나 선형적인 그림이 나온다. cor값은 약 0.797. 당연한 결과일 것이다. 많은 사람들이 봤으니, 많은 사람들이 평점을 주었을 것이라고 생각해 볼 수 있으니까.

위의 결과를 종합해보면, 좋은 평점을 받는 영화가 분명히 더 많은 매출과 관계된다고 보기에는 cor값이 0.5 정도로 그다지 높지 않을 것을 확인할 수 있다. 오히려 평점을 준 사람 수가 매출액과의 cor값이 더 높게 나타난다. 이런걸 보면, 최근 멀티플렉스 관들이 영화 자체의 퀄리티 보다는, 영화를 최대한 많이 뿌려서 접근성을 최대로 하여 보는 사람들 수 자체를 늘리는 방식이 매출 측면에서는 합리적일 수도 있겠다는 생각이 든다.

물론, 이 데이터들은 인과관계가 아니라 단순 상관 관계를 이야기 할 뿐이기 때문에 x라서 y다 라고 말 할 수는 없다. 그래도 이왕 분석을 시작하였으니, 좀 더 재밌어 보이는 데이터를 추가적으로 수집해보고자 한다.(그래서 이 글이 Part1 이다!) 지금 데이터는 영화의 평균 평점만을 활용하고 있는데, 개별 영화의 평점 분포나, 150자평 등의 언어 데이터도 추가적으로 수집해서 살펴보면 재밌을 것 같다. 그리고 가능하다면 주차별 매출 데이터 까지 사용해서 시간대별 변화를 보는 것 까지 시도해 보고자 한다.

덧1) 매출액과 평점 수값에 log()를 사용한건, 스케일 이슈 때문이다.

덧2) 데이터 크롤링 R코드는 추가 데이터 수집이 완료되면 정리하여 공유할 예정이다.