基于图书排行榜的图书开发与运营
陕西地建酒店管理集团有限责任公司 陕西西安 710075
摘要
本文以当当网图书好评榜2019年1月至10月的5000本图书为对象,对榜单中图书的类型、出版社、好评度等方面进行了定量分析,分析不同类别图书读者卷入度的差异,对当当网图书好评榜的基本样貌进行了呈现。此外,本文进一步探讨新媒体环境下,图书电商设置排行榜单的意义及其对图书开发与运营的借鉴意义。
关键词:当当网,图书评价,图书排行榜,图书开发运营
一、引言
arguments有length属性改革开放以来,我国出版事业呈现出了一派兴旺繁荣的景象,图书种类日益繁多,图书出版数量逐年增长,尤其是数字出版、图书电商出现后,图书市场的业态机构和内容生态都呈现出了新的样貌。身处如此复杂的图书市场,读者所要面对的主要问题已经不再是信息获取问
题,而是信息导航问题,即如何通过特定的渠道得到最需要的信息。图书评价无疑在某种程度上满足了读者的这一需求。
图书评价是根据一定的标准,采用一定的方法,对图书文献的内在质量、使用规律、发展特点等各方面进行分析、评价,目的是为了揭示图书文献整体或某一具有特征部分的某些内在规律,以更好地实现其科学价值和社会功用。[1]长期以来,由于图书出版数量巨大,相关数据统计困难,国内外对于图书评价的研究,无论在理论还是实践应用方面,一直相对薄弱和滞后。在定量研究方面,因缺少充分的数据基础支持,仅有零星的探讨和摸索。目前,有关图书评价的主要方法仍停留在传统的定性分析层面。这种方法,虽然具有简便易行的优点,但往往带有极大的主观随意性和不确定性,因而缺少定量化的精度和力度。
目前,我国的图书评价系统由图书评奖活动、书评系统和排行榜系统三部分构成[2]。图书排行榜起源于美国,1994年前后推行到我国[3]。简单来说,排行榜是对同类事物竞争实力的一种排序,在市场经济环境中,具有明显的商业效应,反映并加速各行各业产品的更新换代与新陈代谢。图书排行榜则是指一段时间内,发布媒介依据一定的选择标准对纳入考察范围的图书在先后次序上的位置编排与评价。本质上是一种媒介信息,“围绕其形成的信
息传播、借助媒体平台的分享沟通,以及对于新媒体的 ‘征用’,都使得图书排行榜成为信息传播渠道的同时,也成为一种影响深远的新闻事件”[4]。早期的图书排行榜功能单一、分类随意、数据来源不确定,既没有行业标准,也没有约定俗成的公众标准,只是某一时期特定范围内图书销售情况的统计排名,有人将其称为 “简单的资讯提供”。随着出版业的发展,图书排行榜的种类愈加丰富,不但有销售排行榜,还有读者好评排行榜;不但有新书排行榜,还有重印书排行榜;[5]想开个少儿编程培训机构另外,计算机与网络技术也使得图书排行榜变得更加迅捷准确,不但有月度、年度图书排行榜,还有周排行榜。不但报纸期刊登载图书排行榜,各大门户网站也纷纷登载图书排行榜。
在图书电商的图书排行榜方面,当当网和京东网的数据比较有代表性。这两大图书电商的规模远非单一的甚至连锁的实体书店可比。当当网和京东的销售数据均占网店销售市场份额的百分之二三十以上,其数据样本庞大,几乎全品种的市场图书均有搜集,加上后台数据处理技术先进,排行榜的数据可以做到每天及时更新,总体效度和信度较高[6]
二、研究方法
本文采用定量的研究方法,以当当网图书好评排行榜为对象,对榜单中图书的类型、出版
社、好评度等方面进行了定量分析,分析不同类别图书读者卷入度的差异,对当当网图书好评榜的基本样貌进行了呈现。本文依据当当网提供的“图书好评榜”,利用Python爬虫工具爬取了2019年1月至10月该榜单的全部5000本图书的基本信息,主要包括:书名、著者、出版社、出版时间、好评率、评论数、价格、折扣等。另外,本文借助潜在狄利克雷分配模型(Latent Dirichlet Allocation)来实现对图书书名文本内容主题的聚类分析,实现了榜单中书籍较为准确的类别划分。
三、研究内容
1.最热上榜作家及出版社
当当网2019年1月至10月图书好评榜上榜的5000本图书记录中,共涉及2406本图书,其中69本书每个月都上榜。这2406本图书由1638位作者编著,由240家出版社发行出版。当当网2019年1月~10月上榜次数排名前十的著者中,日本推理小说家东野圭吾以77次的上榜次数位列第一,中国作家刘慈欣、曹文轩、杨红樱、余华等也在其中。
当当网2019年1月至10月图书好评榜上榜的5000本图书记录中,上榜次数前十的出版社中,
天津人民出版社以283次的上榜次数位列榜首。江苏凤凰文艺出版社、北京联合出版有限公司、湖南文艺出版社等也在其中。
1.上榜图书折扣分布及规律
源代码包括哪些文件
图书电商对在售图书的定价往往比实体书店低一些,较大的折扣也是吸引读者购买的原因之一。在当当网5000本图书记录中,超过一半图书在售价格与定价之间的折扣比例集中在0.7-1.0之间,折扣极高的图书仅仅占少部分。
有关图书电商的网上定价行为,国内外已经有许多的研究。格莱(Clay)、克里希南(Krishnan)与沃尔夫(Wolff)利用从三类图书中收集的399本网上图书的价格数据,对32家网络书店的价格进行测算,发现互联网上的搜索成本将导致价格下降和价格分散[7]。曾航对京东、亚马逊和当当网三家图书电商及背后出版商因利益展开的价格战进行研究,发现图书电商超级低的折扣战激发了线上与线下的价格碰撞[8]。此外,图书电商之间的竞争除了价格竞争外,还有非价格竞争,包括捆绑销售定价、固定时段定价、积分策略、退换书政策、消费者体验、物流政策等等手段[9]。但图书电商的定价往往都是在出版定价的80%-100%之间,本文的数据结果为89.24%,基本保持了一致。
1.基于LDA主题模型的图书类别分析
本文借助潜在狄利克雷分配模型(Latent Dirichlet Allocation)来实现对图书书名文本内容主题的准确挖掘[10]。LDA是一个针对离散数据集的概率生成模型[11],模型在所有文本中进行检索,先到对应的相关主题,再继续检索出与这一主题所对应的文档内容,即在爬虫环境实现建模,分析原始文本中的词频,到文档主题的不同构成分布[11]oracle 安装教程
首先将爬取到的图书书名在编辑器中对文本进行分词,使用了jieba的中文分词工具包。然后,使用停用词库对分词进行剔除。之后,使用LDA对预处理过的数据提取出主题词。本文设定10个主题,每一主题下指定8个主题词,生成的最终结果如表1。
表1 当当网2019年1月~10月上榜图书LDA话题聚类结果
根据表1,当当网好评榜的图书书名文本主题大体可以划分以上10个主题,上榜的图书主要有教辅类(Topic3-教科书、Topic4-考研书目、Topic8-考试用书)、文学类(Topic1-外国文学、Topic6-科幻小说、Topic7-外国文学、Topic9-奇幻小说)、实用类(Topic2-历史文化、Topic5-童书、Topic10-实用类)。通过LDA书名文本主题聚类,我们大致发现当当网中广受读者好评的图书类别为以上三类。
1.上榜图书读者卷入度分析
卷入度是一个广告学术语,用来表示消费者对某个广告产品或活动与自己的联系密切程度或重要性的主观体验状态[12]。在广告学中,高卷入度的广告受众更关注广告产品的性能、用途和可靠性,低卷入度的广告受众则更关注广告产品的外部刺激,如图像、彩、名人介绍、音乐等。与其相对的,高卷入度受众对于广告产品的使用时间和体验深度要远远高于低卷入度受众[13]
本文将卷入度的概念引入网上图书消费中。在网络图书消费中,消费者的卷入度表现为用户在购买图书之后对图书的重视程度。卷入度高的读者,往往是出于对图书所蕴含的知识的渴求而自发购买,在购买图书前,会研究图书的作者背景,通读图书摘要,甚至在网络
上下载图书的部分章节试读;在购买图书后,则会热衷于在网络书店上留言表达自己对图书内容和外观的评价。反之,卷入度低的读者,则往往是出于外部因素的驱使,比如购买考试教材、老师推荐的参考书、送给朋友的礼物等等,这些读者在做出购买图书的决策时,不太依赖于自身对图书质量的判断,而是听从长辈、朋友等的意见;在购买图书后,也不会在网络上留言讨论图书的内容和质量等问题。本文主要考虑读者在购买图书之后的卷入度表现,即使用图书电商中的 “读者评论” 功能的行为频率来表征卷入度,以评论数量的高低代表卷入度的高低。
continue doing sth当当网畅销书中很多为教辅类图书,一般而言,消费者在选择教辅类图书时,其选择标准大多是一些外部线索,如老师的要求、同学朋友的推荐、广告等;而消费者购买非教辅类图书时,往往更加关注图书本身的内容是否新颖、论述是否科学等。因此,教辅类图书的卷入度应当低于非教辅类图书。
教辅类图书的平均评论数为176292条,教辅类图书的平均评论数为195783条,明显高于教辅类图书。由此可见,读者在购买非教辅类图书之后返回当当网对图书的质量、内容等进行互动评价的几率高于教辅类图书。
不同类型的图书,用户购买的动机具有明显差异。例如对于教材类图书,用户购买的需求相对来说是刚性的,受图书自身的质量、销量等属性的影响较小;而对于某些学术著作,用户购买的动机是基于自身的判断,这时图书是否畅销,是一个非常重要的判断指标。目前根据学科进行划分,以销量为唯一评价指标的 评价体系并不合理,因为各个学科中的教材类图书往往会占据销量的前列,而这些信息对于没有这类需求的读者 而言没有任何参考意义。因此,对于网络书店而言,图书的评价指标体系应当多元化,可以基于读者购买动机的 差异划分不同的图书类型,并针对不同类型图书分别制定评价指标体系。