处理 SSI 文件时出错
上一期 下一期
报告概览 

  艾瑞拥有30万月度活跃,且行为能够监测(合法的协议监测)的网民样本库。为了促进网民行为研究的发展,决定对外开放这个网民样本库中200个上海地区样本的详细数据,供学术界和研究机构使用。有需要的学术院校或研究机构可以发邮件至bird@iresearch.com.cn索要。

  这份《2011年网民行为序列拆分原理报告》就是针对上述数据集如何进行序列拆分的原理研究。相信后续一系列的行为序列研究都需要基于一个相对统一的序列拆分原理,本文提出并证明了一种有效地拆分方法,希望后续的研究者能够在此基础上得到更多的发现,也同样欢迎提出更好更有效地新序列拆分方法。

 

 

风向标简介

艾瑞风向标,瞄准行业热点,深剖行业规则,跟踪观察网民、媒体、品牌和消费者的形态和趋势。为大家提供网民生态的研究的洞察,为互联网的发展提供基础理论和数据的支持。风向标的研究基于标准化网民采样数据(iUserTracker)和定制化调研数据,由艾瑞和行业,学术界专家联合制作。咨询请邮件至bird@iresearch.com.cn

结论摘要 
 

  1.使用分段二阶等差数列来模拟建模

  根据网民行为序列偏态分布的特性,在保证分布近似性的情况下对一般二阶等差数列进行改造,设计分段二阶等差数列来模拟建模,数列a(i)的定义如下:


    2.设计拆分优化评估函数

  为了识别上述的分段二阶等差数列,并扩展至识别出更复杂情况下的行为序列的拆分点,需要设计一个评价函数,当出现序列差值变化时,函数值能够有明显的体现。我们将序列拆分后的组外(组间)差减去组内差作为基础函数:

  通过计算机模拟可得到分段二阶等差数列的Gap曲线接近S型曲线,对这个基础函数求导数得到Gapd函数,发现在分段数列的拆分点上以及拆分点后一位,Gapd函数会取得最大值,所以将Gapd函数作为序列拆分的评价函数。

 


     3.有效的行为序列拆分案例

   按照序列建模得出的评价函数方法,对真实序列进行拆分,可以发现能够有效的找到拆分点。其中在计算组间差时,剔除了样本中两步间隔大于6小时的数值,因为一般情况超过6小时间隔的已经下线了。以下计算分析在{n, m, p}中进行(n为最小时间间隔10分钟,m为最大时间间隔240分钟,p为每次增加的时间步长10分钟)。取拆分开的序列之间的间隔平均值与连续序列内间隔平均值的差值导数最大点为最佳拆分点。拆分间隔的中位数在1小时左右,符合拆分点为40-80分钟的样本的占总样本的18%,这些样本中每天有近两个连续行为序列,也比较符合日常的行为习惯。


 

  4.网民行为序列可视化

  将序列按照拆分点大小分开作图,从上到下分别绘出拆分点为10-30分钟,40-80分钟,180-200分钟,以及其他比较分散的拆分点区段。下图中横坐标为时间:0:00-24:00,纵坐标为用户,其中每一行刻度代表一个用户,如果用户在某一时刻(单位秒)有行为则在此位置增加一个像素点。颜色越深表示访问越多,如果某一用户在接连不断的访问网站,则在相应位置会出现一条横线。


艾瑞建议 

  通过本文所介绍的网民行为序列拆分方法,可以快速有效的对长行为序列进行拆分。理论上每个网民的行为序列密集程度是不一样的,所以最优的拆分时间间隔也有所不同,但是在实际的应用中为了简化计算,可以直接将1小时设置为拆分时间间隔。当行为序列拆分开以后,会衍生出很多的研究点,比如序列内部的路径有何特征,是否存在相对固定的浏览模式?多个序列之间虽然时间间隔较长,但是是否存在内在的联系?一个消费者的购物决定受到那些浏览行为的影响?这些问题的解答,都能让人类加强对自身的认知,同时也为互联网上的商业活动提供了更多决策依据。

相关资讯 
分析·观点
 
行业新闻
 
处理 SSI 文件时出错