电子商务数据分析专业词汇
AdWords:Google的关键词竞价广告。
Alexa排名:公认的网站排名榜。Alexa是专门发布网站世界排名的网站。
ARFF(Attribute-Relation File Format)文件:在WEKA中数据存储的格式,是一种ASCII 文本文件。
ARPU(Average revenue per user):每个用户的平均收入。
宝贝:淘宝和天猫网上商城对于网店商品的专门用语。
贝叶斯分析方法(Bayesian Analysis):提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。
Boostrapping:不需要外界助力,可以自发完成的过程,又称booting。
bounce rate:见跳出率词条。
B2B:英文Business-to-Business的缩写,其中文含义为企业对企业。
B2B2C : 英文Business-to-Business-to-Customer的缩写,其中文含义为企业通过企业到消费者。第一个B中的Business指的是商品或服务的供应商,第二个B中的Business指的是从事电子商务的企业。
B2C:英文Business-to-Consumer的缩写,其中文含义为企业对消费者。
变异系数:是标准差和算术平均数的对比指标。
CF:Collaborative Filtering(协同过滤)的缩写。
Churn Rate:见客户替换率。
Cluster(类或簇的英文):是一个数据对象的集合。
Committed Visitor Share:忠实访问者占总访问者的比例。
Committed Visitor Volume:忠实访问者的访问量。
Conversion Rate:见转化率。
Cookie: 指的是指网站为了辨别用户身份而储存在用户本地终端浏览器上的一类数据。
COS:Cost divided by Revenue的英文首字母缩写,意即成本除以总体收入。
CPA:按行动收费(Cost Per Action)的英文缩写,行动指形成一次交易或者获得一个注册用户等。广告收费模式的一种。
CPC:按点击收费(Cost Per Click)的英文缩写,广告收费模式的一种。
CPM:按展示收费(Cost Per Mille)的英文缩写,每千次展示成本。广告收费模式的一种。CPS:按销售收费(Cost Per Sales)的英文缩写,广告收费模式的一种。
CRM(用户关系管理,Customer Relationship Management)指的是公司对客户和潜在客户的管理模式。
CSAT:Customer Satisfaction,客户满意度
C2C:英文Consumer-to-Consumer的缩写,其中文含义为个人对个人。
DAG(Directed Acyclic Graph,有向无环图):任意一条边有方向,且不存在环路的图。
Dashboard(仪表盘):在商业智能领域指的是直观展示度量信息,特别是关键绩效指标(KPI)现状的数据展示工具。
Direct Marketing:见直效行销词条。
DSS(Decision Support System):决策支持系统的缩写,是辅助决策者通过数据、模型和知识,进行半结构化或非结构化决策的计算机应用系统。
第三方支付:不同于产品提供方和付款方的、具备一定实力和信誉保障的第三方独立机构提供的交易支持平台。通过第三方支付平台的交易一般的操作是,买方选购商品后,使用第三方平台提供的账户进行货款支付,由第三方通知卖家货款到达、进行发货,而当买家确认验货之后再将货款打给卖家。买方检验物品后,就可以通知付款给卖家,第三方再将款项转至卖家账户。
点击决策时间:指广告从展现到受众点击广告之间的时间差。
独立访客:指在一天之内(00:00-24:00)访问网站的上网电脑数量(以cookie为依据)。
EB:计算机存储单位,1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes(字节),或是2的60次方字节。
EDM:营销(Email Direct Marketing)的英文缩写。
Engagement Index:参与指数,意思是每个访问者的平均会话次数。
Entropy:见熵。
二跳率:当网站页面展开后,用户在页面上产生的首次点击被称为“二跳”,二跳的次数即为“二跳量”,而二跳量与浏览量的比值称为页面的二跳率。
ETL:(Extract Transform Load)的缩写,是指数据的提取、转换、加载。
反链:别人的网页对你的网站上面的某个网页做的链接包括单向链接和双向链接,反链可以直接提升排名。
分布式数据库(Distributed Database):用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。
关联规则(Association rules):是形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。
根节点:决策树最上面的节点。在它上面没有其他节点,其他所有的属性都是它的后续节点。
购物篮分析(market basket analysis):就是关联规则算法。在市场上关联规则算法经常作为商品购物车的分析,所以在应用领域又被称为购物篮分析。
Granularity:见“粒度”。
Heavy User Share:积极访问者比率
后验概率(Posterior Probability):当根据经验及有关材料推测出主观概率后,对其是否准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,修正后的概率称为后验概率。
回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
计量经济学(Econometrics)是以经济学和数理统计学为方法论作为基础,对于经济问题试图用数量和经验两者进行综合的经济学分支。
基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。
交叉验证(Cross-validation):主要用于建模应用中,在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。
机器学习(Machine Learning):研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
聚类(Clustering):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
决策树(Decision Tree):一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
决策树剪枝(Decision tree pruning):由于在决策树生成过程中,会过度拟合训练数据,而且易受噪声数据的影响,所以剪枝操作是决策树生成过程中的一个重要步骤
决策支持系统(decision support system):辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
KDD(Knowledge discovery in database):泛指所有从源数据中发掘模式或联系的方法
k近邻(k nearest):一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
客户替换率(Churn Rate):是指现有客户停止购买或者使用您的产品的比率。
LAMP:Linux,Apache,MySQL和PHP,四种web技术的缩写,是一些web2.0公司使用的主要技术组合。
landing page:见着陆页词条。
LBS(Location-based service)是与位置相关的软件服务的英文缩写,指的是一类利用和控制与位置及时间相关的计算机软件服务。
雷达图:一种在两维图上展示3个以上变量变化的图表,这些变量都是展示在从同一个轴心出发的轴(axe)上的。
粒度(Granularity):指数据仓库的数据单位中保存数据的细化或综合程度的级别。
联机事务处理系统(OLTP):实时采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。在联机事务处理中,事务是被立即执行的,这与批处理相反,一批事务被存储一段时间,然后再被执行。
联机分析处理(OLAP):使分析人员,管理人员或执行人员能够从多角度对信息进行快速一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。
流量(traffic):是指网站的访问量,是用来描述访问一个网站或是网店的用户数量以及用户所浏览的网页数量等一系列指标,这些指标主要包括:独立访客数量(unique visitors)、·页面浏览数(page views)、每个访客的页面浏览数(Page Views per user)。
六度分隔理论(Six Degrees of Separation):是个假设,在人际关系脉络方面您可以通过不超出六位中间人直接与世上任意人认识
LNMP:Linux,Nginx,MySQL和PHP,四种web技术的缩写,是一些web2.0公司使用的主要技术组合。
Metadata:见元数据。
MapReduce:HDFS上处理大数据集的并行计算框架。
Nginx:开源的高性能HTTP服务器。
OMS:英文Order Management System的缩写,订单管理系统。
O2O:英文online to offline的缩写,从线上到线下的意思。
Outlier: 见异常点词条。
PB:计算机存储单位,1 PB = 1,024 TB = 1,048,576 GB = 1,125,899,906,842,624 Bytes(字节),或是2的50次方字节。
customer的中文意思频繁集(frequent itemset):是大于最小支持度的项目集。
评价矩阵:一个维度是用户,而另一个维度是商品的二维矩阵。
强关联规则:如果某条规则同时满足最小支持度(min-support)和最小置信度(min-confidence),则称它为强关联规则。
R语言:R是属于GNU系统的一个自由、免费、源代码开放的软件,是一个用于统计计算和统计制图的工具。
REST(Representational State Transfer,表现状态转移):是Roy Fielding博士在2000年他的博士论文中提出来的一种软件架构风格,在此风格中,每个资源是由全球唯一的URI 来指定,资源本身和其表现方式是完全独立的;当一个用户拿到资源的表现方式时,他有足够的信息可以修改或者删除服务器上相应的资源而且每条消息都包含了足够的信息可以描述消息的处理。
ROI(Return on Investment):投资回报率,或者投入产出比。
ROMI(Return on Market Investment):市场投入回报率。
热图(heat map):热图或热力图是数据的一种二维呈现,其中的数值都用颜表示。一个简单的热图提供信息的即时可见概况。
人工神经网络(Artificial Neural Networks):一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
人工智能(Artificial Intelligence):研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人均访问页面: PV总和除以IP,即可获得每个人平均访问的页面数量。
Repeat Visitor Share:回访者比率
3C产品:3C产品指的是通讯产品(Communication),消费类电子产品(Consumer Electronics)和电脑产品(Computer),三类产品的首字母都是C,所以称3C
Scanning Visitor Index:浏览用户指数
Scanning Visitor Volume:浏览用户访问量
SEM:搜索引擎营销(Search Engine Marketing)的英文缩写,是指以搜索引擎为平台,以调整网页在搜索结果页上排名从而给网站带来访问量为手段,针对搜索引擎用户而展开的营销活动。
SEO:搜索引擎优化(Search Engine Optimization)的英文缩写。
SEMMA:数据挖掘过程(Sample, Explore, Modify, Model,and Assess)的英文缩写,意思是抽样,检查,修改,设立模型和评估。
熵(entropy):指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。熵由鲁道夫·克劳修斯(Rudolf Clausius)提出,并应用在热力学中。后来在,克劳德·艾尔伍德·香农(Claude Elwood Shannon)第一次将熵的概念引入到信息论中来。
商业智能(Business Intelligence):采用数据库或数据仓库技术进行商业信息的收集,集成,分析和报告以帮助做决策的应用与实践系统。
时间序列(Time Series):是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。时间序列法是一种定量预测方法,亦称简单外延方法。
事务数据库(Transaction Database):由文件构成,每条记录代表一个事务。典型的事务包含唯一的事务
标记,多个项目组成一个事务
数据可视化(Data Visualization):关于数据的视觉表现形式的研究,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
数据挖掘(Data Mining):从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。