榜单背后的数据力量 | 豆瓣电影Top250分析

豆瓣是电影爱好者的聚集地,其评分机制也受到很多人的认可,得到8.5分足可以成为一部电影的重大资本。而豆瓣实时更新的电影Top250榜单,则在一定程度上是电影产业的风向标。那么,豆瓣电影Top250的机制如何?这些进入排行榜的电影有何特点?这份榜单又有什么意义呢?本文将针对最新发布的豆瓣电影Top250进行分析,试图回答这些问题。

本文数据来源为豆瓣,通过采集工具进行数据抓取,应用Excel、tableau、图悦等工具进行文本、数值分析和图表绘制。

━━━━

豆瓣电影TOP250为何物?

作为一份面向所有观众、网民、电影人的开放电影榜单,Top250需要通过成千上万部电影的评分、评分人数等数据,综合考量电影的各方面因素,设定合理的标准,计算出排名。因此豆瓣在后台创立了一套完善的榜单形成公式,并且实时更新榜单排名,方便所有人能够时刻了解优秀电影的动态。

算法工程师在豆瓣电影Top250后台设定了两个基本指标——

一是具备人群的广泛适应性。算法会将电影划分为若干分类,每一分类对应有显著喜好的目标人群。如此一来,排序问题就变成了推荐问题,即把某部影片分别向所有类人群做推荐,能被推荐给越多人群的电影也就越具备广泛性,避免榜单过于倾向某些评分高但小众的电影。

二是具备持续关注度。为此,平台将每部影片在不同时间周期内的收藏人数和评分汇成一条收藏曲线,再分析不同的曲线及其之间关系,计算相应的分数,避免“三分钟热度”电影在榜单中出现。而对于榜单的算法公式,平台也是对外公开的,尽最大努力保证排名的公平公正性。

20181013000813.jpg

━━━━

豆瓣电影Top250有何特点?

针对这250部电影,我们用GooSeeker(集搜客)在豆瓣电影Top250榜单的网页中抓取了这250部电影的评分、类型、国家、年代、评分人数和主题这六个维度的数据,来分析电影类型、国家、年代的分布,观众普遍热衷于评分的电影特点,以及这些电影的主题倾向。

1、电影类型的分布

电影类型是影响观众选择观看的一个重要因素,它可以概括整部电影的基调和主题,一般用三种方式进行分类:按照场景类型分为历史、犯罪、科幻、战争;按情绪类型分为动作、喜剧、惊悚、爱情;按形式类型分为动画,记录,传记等。而在豆瓣平台的分类更加细致些,包括:剧情、喜剧、动作、爱情、科幻、悬疑、惊悚、恐怖、犯罪、同性、音乐、歌舞、传记、历史、战争、西部、奇幻、冒险、灾难、武侠、情色这21种类型。

每部电影可归属为多种类型,因此在下文的分析中,我们将每部电影包含的所有类型全部算入统计中。在这250部电影中,剧情类电影数量最多,达到195部,占比78%;其次是爱情类电影,为59部,占比为24%,但与剧情类相比差距非常悬殊;喜剧、犯罪、冒险类电影相差甚微,分别为46、45、43部。

20181013000819.jpg

不难看出,剧情类电影受中国观众的欢迎程度是很高的,缜密的逻辑、新鲜的故事线、出人意料的反转结局或许都是吸引观众的主要原因。值得一提的是,动画、奇幻类的电影也达到了32部,证明这类型的电影不再仅仅是针对儿童,成年观众也逐渐体会到动画奇幻类电影的魅力。除此之外,悬疑惊悚类电影数量也较为受人关注,分别占据33、34部。数量最少的两类电影分别是灾难类和情色类,其中的灾难类电影就是排名第七位的《泰坦尼克号》,也许正因如此没有灾难类电影能够超越它。

而在前十名中,剧情类占据九席,爱情类占据五部,其它类型电影均为2部及以下,可见剧情、爱情两类确实受到大众欢迎。

2、电影生产国家的分布

不同国家的电影,在观众心目中各有标签,如欧美视觉刺激强烈的英雄片、韩国透视社会人性的伦理剧情、日本颇具优雅情调的小清新电影……当然,电影总会带有本国的文化烙印,而不同国家电影在榜单中的分布情况,则也在一定程度上可以看作是豆瓣网友对不同国家电影文化的认可。

20181013000826.jpg

从数据来看,250部电影中,美国电影可谓“一家独大”,达到142部,占比57%,与其他国家差距悬殊;其次是日本英国,均为33部,很难想象,像日本这样小的岛国可以生产出如此多、如此高质量的电影。相比之下,中国大陆就显得落后了,大陆生产的电影只有16部上榜,香港有25部,台湾仅有7部,而同为亚洲地区的韩国也有10部上榜。法国德国也不差,分别为25部和20部。总体来看,美欧主导,亚洲电影较弱势。

总体看来,美国依然是电影生产大国,不仅是因为他们拥有好莱坞这样的电影工业基地,成熟完善的电影产业体系和特效技术加持,还因为美国早期诞生出的众多电影大师,使得生产出来的电影不仅具有高质量的画面效果,还拥有高超的镜头语言和引人入胜的剧情。相比之下,中国的电影产业稍逊一筹,存在较大的发展空间。

3、电影年代的分布

豆瓣Top250中年代最早的电影是1931年美国的《城市之光》,最新的是2017年的《请以你的名字呼唤我》,年代相差的确有些大,但这并不妨碍好电影被人们所发现,年代久远的电影不乏值得回味的经典;年代新的电影更具有时代特征,更符合潮流。

20181013000832.jpg

通过数据统计可以看出,2000-2010年期间上榜的电影数量是最多的,达到86部,占据34%的比重,其次是90年代2010-2018年期间,上榜电影均为63部,占总体的25%,而30至80年代的上榜电影就很少了,一共38部。上榜Top250的电影数量随着年代的发展越来越多,这与豆瓣平台本身的兴起是有一定关系的,但也不得不承认电影产业的迅猛发展,让越来越多的人感受到电影的魅力。

4、人们更热衷于评价的电影特点

好电影会吸引更多的人来评价,而评价人数多的电影,质量是否也高呢?从数据分析来看,确实如此。豆瓣Top250中仅有一部电影的评价人数超过100万,同时这部电影也是豆瓣评分第一名:《肖申克的救赎》。其次是97万的评价人数,也仅有一部电影:《这个杀手不太冷》。由图可以看出,80-90万评价人数的电影有两部,70-80万的电影有4部,评价人数40万以上的电影仅有45部,大部分电影的评价人数集中在10-40万,评价人数越高,电影越少。

20181013000840.jpg

评分人数最高的电影,豆瓣评分最高,达到9.6分,随着评价人数的减少,电影的豆瓣平均分也在下降,由此看来,评价人数与电影评分是有正相关性的。这也印证了,质量越高的电影,人们越热衷于评价。

20181013000847.jpg

5、电影主题分析

通过利用词频词云分析工具“图悦”对电影主题的分析,可以发现,“人生”、“爱情”、“世界”、“幸福”、“故事”等词语在电影主题中出现的频数较高,说明大部分吸引观众的好电影,主题都是饱含着丰富的故事剧情,最后阐释出与世界,人生有关的哲理。除此之外,还有像“失去”、“泪水”、“伤害”、“荒诞”等稍微低频一点的词汇也出现在主题中,说明有部分电影是通过不美好的故事剧情,类似战争、社会事件等,来抒发这部电影背后的人性和伦理。总的看来,无论是开心的,或是不开心的电影,最终都要回归到世界或是社会层面的有关人生,爱情,梦想的哲理。

20181013000854.jpg

6、小结

通过以上分析,我们可以发现,中国观众对于电影类型更认可剧情片,爱情片;对于电影的生产国家,更认可美国强大的工业体系下生产的电影;相比于旧年代的电影,新时代的电影依然受中国观众的追捧;而在评分上的积极程度更是与电影本身的质量有着很大关系。

━━━━

豆瓣电影TOP250到底有何意义?

对于广大电影观众来说,豆瓣Top250为他们提供了更丰富,类型多样的高质量电影,减少他们搜寻好电影的成本,并用榜单的形式提供一个指引。从之前的分析结果也可以看出,榜单里面汇集了各种类型的电影:剧情,爱情,悬疑,动画,科幻……除此之外,电影的生产国家也分布广泛,观众可以通过电影间接了解到背后制作国家传递的文化,不局限于本土电影,让观众的视野更加开阔,意识到好电影是不分国界的。

而对于电影产业来说,这份由数百万观众评选出来的电影榜单在一定程度上,也为新电影的生产提供指引方向。通过榜单,电影制作者可以发现观众的喜好,以及排名靠前的电影中值得借鉴的艺术手法。另外,榜单也在无形中给予电影制作者们一定的压力和目标,促使他们生产出更好的,被普罗大众所接受的电影,好电影会不断涌入榜单,实现电影产业的一个良性循环。

豆瓣top250还有一个重要价值在于,它让经典电影再次进入大众视野。许多院线大热电影会吸引观众去观看和评价,但那些经典电影却没有机会再次掀起一阵热潮。因此,豆瓣榜单的工程师利用算法,分出老片和新片两个排行分别对待,尽量做到老片新片的公正排名,让真正的好电影能够通过排名,吸引更多人观看评价,有效地传播了经典电影中的历史文化和人生哲理。从之前的电影年代分析也可以看出,90年代之前的电影数量占了很大部分比重,说明这些经典电影是被观众所认可的,他们通过豆瓣被喜爱电影的人们所发现,犹如一枚枚隐藏深处的珍贵宝石,再次绽放出光芒。

当然,这份榜单也有它的弊端,每个月有一亿上下的人会用到豆瓣评分,它代表的是普通大众的审美价值,一些优质的小众电影很难被发掘。由于豆瓣的排名系统设定,只有评价人数达到一定数量的电影才能进入榜单,因此,观影人数较少而评分较高的电影就容易埋没在茫茫“影”海中,虽然对于大部分人来说不是什么坏事,但在一定程度上也限制了人们的观影视野。

相信随着技术的不断更新迭代,豆瓣Top250榜单会不断更新,优化算法,呈现出更公正,更精准的电影排名,让观众们因此享受到更多精彩电影,促进电影产业的蓬勃发展。

文 | 杨雅坤

数据分析 | 杨雅坤

指导老师 | 吴殿义

评论(0)

发表评论: