狗熊报告之一：社交网络数据分析与应用【转自统计之都】

snachina · 发表于 2020-5-23 09:42:19

[size=1.2em]狗熊报告之一：社交网络数据分析与应用周静 / 朱雪宁关键词：推荐系统; 新闻推荐; 社交网络

周静、朱雪宁
北京大学光华管理学院营销系、商务统计与经济计量系
根据最近的一份调查数据显示，美国互联网媒体的市值已达 10890 亿美元，是传统媒体的 3 倍，类似的在中国，根据艾瑞咨询发布的 2014 年第二季度网络经济核心数据显示，截止 2014 年 6 月 30 日，中国主要上市互联网公司市值前五的为腾讯（1405.6 亿美元）、百度（654.5 亿美元）、京东（389.7 亿美元）、奇虎 360（120.9 亿美元）、唯品会（111.9 亿美元）。与此同时，以 Facebook，Twitter，微博，微信等为代表的社交网络应用正蓬勃发展，开启了互联网时代的社交概念。据全球最大的社会化媒体传播咨询公司 We Are Very Social Limited 分析指出，目前社交类软件使用的人数已达 25 亿——占世界总人数约的 35%，另据艾瑞咨询发布的 2014 年第二季度社区交友数据显示，2014 年 5 月，社区交友类服务月度覆盖人数达到 4.7 亿，在总体网民中渗透率为 92.5%；2014 年 5 月社交服务在移动 App 端月度覆盖人数为 1.9 亿人，其中微博服务在移动端优势较为明显，月度覆盖人数达到 1.1 亿人；互联网媒体和社交网络是 Web2.0 时代两个非常重要的应用，那么一个自然的问题是这两个领域将会如何互动发展？本报告主要从数据分析（非财务、非战略）的角度尝试探讨网络结构会给互联网媒体带来什么样的机遇和挑战。具体而言，我们根据自己的研究经验只关注以下几个方面：新闻、影音和搜索，根据艾瑞咨询发布的 2013 网络经济核心数据显示，这三部分的收入占到中国市值 TOP20 互联网企业总市值的 32.16%，其重要性不可忽视。我们通过具体的案例并结合理论前沿做探索性的研讨。
一、音乐推荐根据《2013 中国网络音乐市场年度报告》显示，2013 年底，我国网络音乐用户规模达到 4.5 亿。其中，手机音乐用户人数由 2012 年的 0.96 亿增长到 2013 年的 2.91 亿，年增长率达 203%。从网络音乐用户规模的飞跃式增长可以看到音乐流媒体服务蕴含着巨大的商机。在国外，科技巨头争夺音乐市场的野心也初露端倪，今年年初，苹果斥资 30 亿美元买下 Beats Electronics，而谷歌也随后收购了流媒体音乐服务提供商 Songza。
音乐产业在新媒体时代占据重要地位。本报告主要关注移动互联网环境下在线音乐服务商（酷狗音乐、QQ 音乐、天天动听等）的发展现状并且对当前的音乐个性化推荐提出我们的一些见解。
1.1 音乐推荐与社交网络根据国内知名研究机构 CNIT-Research 8 月份发布的《2014 年第二季度中国手机音乐 APP 市场报告》的数据显示，排名前三的手机音乐 App 为酷狗音乐、QQ 音乐、天天动听。他们所占的市场份额分别为：20.1%，17.0% 以及 15.8%。

其中，酷狗音乐和天天动听凭借在在线音乐领域长期积累的用户资源、高品质音质、卓越的 UI 界面以及完美的下载体验取胜。而 QQ 音乐主要依附强大的社交工具 QQ 应运而生，可谓是 “社交音乐” 领域的先驱者。从 2014 年第二季度手机音乐数据来看，QQ 音乐增势迅猛，连续三个月用户下载量增速均超过行业增速水平，而酷狗音乐、天天动听均增速低于市场行业增速，用户市场份额有所下降。
根据速途研究院对手机音乐用户愿景的调查显示，有 58% 的用户希望增强个性化音乐推荐的功能，这说明有很多用户在收听音乐时其实并不清楚自己喜欢什么类型的歌曲，如果音乐电台能根据用户的个人喜好 “猜出” 用户喜欢什么歌曲并为其进行推荐，那将会给用户带来意想不到的完美体验。目前的很多音乐软件都支持推荐这一功能。以下是音乐 App 市场中常见的音乐产品的个性化推荐以及定制方式：

根据研究，推荐模式主要分为以下几种：（1）热点推荐，可以根据大众的搜索记录，通过排行榜的形式得到，也可以根据近期发生的音乐娱乐事件推荐，如中国好声音、我是歌手等；（2）根据用户的听歌记录推荐，包括用户对每首歌的喜恶记录；（3）根据地理位置信息结合用户兴趣进行推荐；（4）根据用户喜欢的歌手信息进行推荐。但是，以上这些推荐模式都没有能够充分利用社交网络的信息。在社交网络风靡全球的时代，有越来越多的音乐服务商发现，社交网络可以帮助商家留住更多的用户，同时，充分利用社交网络信息将带来更加卓越完美的用户体验。可以看到，酷狗音乐和天天动听都允许用户使用第三方账户（微博、QQ）进行绑定登录，并提供分享到微博、微信等选项；QQ 音乐特设了 “动态” 专栏，用于显示好友分享的音乐。另外，酷狗和 QQ 音乐都可以通过定位的方式推荐附近的志趣相投的好友。

上述事实说明，社交音乐存在巨大的潜力和价值。那么，这一方面有无突出的企业呢？其中英国的 Last.fm 和中国的 QQ 音乐可以算得上是这方面的一个代表。

Last.fm 是 Audioscrobbler 音乐引擎设计团队的旗舰产品，有遍布 232 个国家超过 1500 万的活跃听众。2007 年被 CBS Interactive 以 2.8 亿美元价格收购，目前，Last.fm 是全球最大的社交音乐平台。QQ 音乐是中国互联网领域领先的网络音乐平台及正版数字音乐服务提供商，在中国手机音乐市场所占份额跻身四大巨头（其他三个分别是酷狗、天天动听、酷我），月活跃用户已达到 3 亿，是中国社交音乐领域的领军人物。
以 QQ 音乐为例，我们详细分析它在利用社交网络信息进行个性化推荐的优势与可能存在的不足。QQ 音乐依附强大的社交工具 QQ 而生，长期以来受到广大用户的喜爱，这与 QQ 背后的亿万级用户是无法割离的，可以说，QQ 音乐是有先天的社交优势的。用户登录 QQ 音乐后，可以看到动态栏中显示的好友音乐动态，同时，它还允许用户绑定自己的微博账号，把音乐分享给微博好友。不仅如此，QQ 音乐允许用户自己编辑生成歌单，并分享给好友，这起到了一定的自媒体的作用。在 “明星部落” 这一功能中，QQ 音乐允许粉丝之间交流互动，并形成一定的社交规模。从上述总结中，我们已经可以看到，QQ 音乐已经有意识的把社交信息融合到产品设计和运营中，以增加客户粘性。但是从数据分析的基础和推荐算法的构建上，是否真正做到有效利用社交网络信息了呢？为此，使用 QQ 音乐于 2012 年全面更新升级的 “猜你喜欢” 功能，并发现了如下问题：当笔者没有任何听歌记录时，这一模块并不能为笔者推荐歌曲。根据提示内容，目前该功能可能主要依靠用户的历史听歌记录进行推荐。同样的问题出现在 QQ 音乐馆的推荐栏中：大部分初始推荐音乐来源于当下热门音乐歌曲，缺少个性化成分。

以上事实说明音乐服务商在推荐算法上没有充分利用社交网络的信息。事实上，在获得用户个人绑定社交网络账号的基础上，可以得到用户的朋友关系，进一步可以获得用户好友的听歌记录，这些歌曲可以成为初始推荐曲目的备选项，将这些备选项通过一定规则（热度、好友相似度）排序，可以用于音乐推荐；另外，众所周知，社交网络（如微博）是明星与粉丝互动的一个重要渠道，因此，可以重点提取用户对于社交网络中歌手以及音乐人的关注关系，以获得对用户偏好的推测。以上这些过程可以用下图表示。

可以看到，在以社交网络绑定的音乐社区中，每个人并不是孤立的个体，而是通过好友关系，以及粉丝与明星的关注关系联系起来。音乐活动的多元化为 QQ 音乐的推荐场景带来了新的挑战。我们认为存在以下几个需要处理的问题：（1）如何高效利用好友的音乐信息对用户进行推荐？用户的好友众多，每个好友会留下很多音乐记录，这些信息综合起来的话数量极其庞大，如何迅速整合朋友及其收听记录并按照优先程度排序对用户进行推荐是提高用户体验的前提条件。（2）如何整合多种信息渠道进行推荐？随着时间的推进，一个音乐账户留下的信息是多元化的。例如，用户主动搜索的音乐记录、用户对历史收听音乐记录的反馈，用户选择的电台种类、用户自己总结生成的歌单、用户对朋友分享音乐的反馈信息等。因此，如何对这些异质的信息来源进行有效整合，或者，在资源有限的情况下，如何判断和筛选出对于提高推荐精度最有效的指标是提高音乐推荐效果的关键法宝。（3）如何整合当前音乐潮流趋势与用户个人兴趣基因？音乐是充满了潮流和娱乐性的产业，因此，用户的音乐兴趣不仅受其自身兴趣基因驱使，也受到当前音乐流驱使的影响。因此，如何结合用户个人兴趣以及音乐潮流趋势对用户进行有效推荐，是对于音乐这一特殊娱乐行业的特别要求。综上我们认为 QQ 音乐虽然是利用社交关系进行音乐推荐的先驱者，但是在利用网络数据的层面上仍有很大的改进和提升空间。
1.2 基于社交网络的音乐推荐在此我们给出如何利用网络数据对用户进行推荐的技术思想。由于音乐推荐场景实体的多元化，我们将常见的推荐场景列举如下：推荐歌曲、推荐歌单、推荐电台、推荐歌手、推荐用户。接下来，我们将从音乐分类与结构化、用户信息整合、网络结构应用三个步骤详细阐述我们的观点。
音乐结构化与归一化1. 歌曲标签化首先，基于音乐的不同风格，我们需要对系统中存在的海量歌曲进行分类，通过打标签的方式，使音频信息通过文本的方式结构化。分类的方法多种多样，标准各异，从几个音乐主流网站的标签组织形式看来，主要从客观、主观两个角度进行分析。从客观的角度讲，音乐可以按照流派、地域、年代、演奏乐器等方式分类，如 “流行”、“摇滚”、“乡村音乐”、“90 后”、“钢琴曲” 等等，且大类下面可以设小类，如 “流行” 下可以设置 “华语流行”、“欧美流行” 等小类；从主观的角度讲，音乐风格与听歌时的心情、场景高度相关，如分为 “甜蜜”、“安静”、“治愈”、“酒吧”、“咖啡馆” 等等，这种标签使得用户在听音乐时仿佛有一种身临其境的感觉，带来更高的视听享受。除此之外，标签也可以由用户自己生成，如用户的热搜关键词记录、用户自行备注标签等。这在一定程度上正是利用自媒体的形式扩充标签库，使之更能反应用户兴趣。
2. 歌手信息提取除了可以将歌曲标签化，我们还可以进一步的对歌手信息进行提取。比如根据地域我们可以把歌手分为大陆、港台、欧美等，根据年代可以分为 60 后、70 后、80 后歌手，根据他们的曲风可以分为摇滚、抒情、朋克等。通过打标签的形式把歌手进行分类，从而形成结构化的数据格式，方便以后快速清晰的定位用户喜欢哪一类型的歌手。同样的我们也可以对歌单、作词者、作曲者进行标签化处理，例如歌单的标签可以模仿歌曲的形式，因为歌单是由歌曲组成，所以可以用歌曲的标签来代表歌单的标签。作词者和作曲者的标签可以参考歌手打标签的方法，另外值得注意的是，由于音乐人之间形成合作、作曲、写词等合作关系，可以认为是一个社交网络关系，常常可以见到的现象是某些歌手与词作者存在密切的合作关系，而这部分信息也可用于音乐的个性化推荐。例如，对于一些有特定合作的歌手和词（曲）作者，我们应该特别留意，比如周杰伦和方文山这对组合。
3. 歌词的语义分析歌曲的重要组成部分就是歌词，由于歌词属于文本，我们不可能直接对其打标签，所以首先要进行的是语义分析，通过语义分析我们可以大概知道歌词的内容，比如我们可以把歌词切分成短语，然后对每一个短语进行归纳总结，可以判断短语的情感极性（如积极还是消极），对短语进行主题分类，由于歌词数目庞大，可以利用自然语言处理的方式，如主题模型等预先提取主题，再通过人工加以校正。这样就可以对歌词进行标签化处理了。下面我们以歌曲为例，简要的说明具体标签化过程。
通过标签的形式我们可以对每个歌曲的主题予以分类和描述。用于描述一支单曲的标签数目越多，对于音乐主题的描述就更加清晰、明朗；但同时，冗余和重复的信息也可能越多，处理的难度就越大。因此，我们要对标签进行排序和筛选，一个比较简单高效的办法是选择最热门的 N 个标签作为我们的目标词库，并且对该词库定期进行更新。具体来说，我们将所有标签按照重要程度由高到低进行排序，选择前 p 个标签作为我们的标签集合。给定一首歌曲 t，我们用一个超高维向量 Xt=(Xt1,,Xtp)∈RpXt=(Xt1,,Xtp)∈Rp 表示它的标签信息，其中 Xtj=1Xtj=1 表示该歌曲含有第 j 个标签，否则，该歌曲不含有第 j 个标签。例如对于一首钢琴曲演奏的纯音乐，对其打的标签可能是：钢琴曲、安静、咖啡馆等。设钢琴曲、安静、咖啡馆分别对应于标号为 1、3、5 的标签，那么向量 XtXt 可以表示为 Xt=(1,0,1,0,1,0,0)Xt=(1,0,1,0,1,0,0) 。通过以上步骤，我们就可以把看似杂乱的音乐风格通过打标签的形式进行结构化，用一个只含 0、1 元素的超高维向量对每首歌曲进行分类。
对于歌单、电台这些由歌曲集合而成的实体，我们也可以通过标签的方式对其进行刻画。例如，对于给定的一个歌单 m，我们同样用一个超高维向量 Zm=(Zm1,Zmp)∈RpZm=(Zm1,Zmp)∈Rp 表示它的标签信息，假设歌单 m 包含第 t 首和第 q 首歌曲，那么计算 ZmZm 一个简单的方法就是将 XtXt 与 XqXq 以某种方式进行组合（取平均等方式）。通过这种形式，我们将不同的音乐实体形式都归一化到标签的形式组织，并结构化成标签向量，用于建模和推荐。为了统一起见，将上述步骤处理过的歌曲、歌单、电台等音乐实体统称为 “音乐”。所以本步骤的核心思想是：建立关键词词库，将音乐标签化，将形式归一化。
用户信息整合在第一步中我们将音乐（歌曲、歌单等）进行了标签化设置，这样用户听到的推荐音乐其实背后都是有标签的，用户可以选择喜欢（或不喜欢）推荐的音乐，有了标签信息，我们就可以进一步的分析出对于一个特定的用户，他喜欢听含有哪些标签信息的音乐？如果回答了这个问题，就解决了个性化推荐的问题。具体来说，假设有 i= 1,2,…,n 个用户，对第 i 个用户，推荐系统向其推荐过首音乐。给定第 k 首音乐，表示该音乐的标签向量，这里定义 1≤k≤ni1≤k≤ni 。用 YikYik 代表用户对音乐的反馈，其中，Yik=1Yik=1 代表用户喜欢过该首音乐，否则用户没有喜欢过。在掌握这些数据的基础上，我们试图通过机器学习算法，建立 XikXik 与 YikYik 的函数关系：

<span id="MathJax-Element-14-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" data-mathml="

(Yik=1)=fθi(Xik)" role="presentation" style="display: inline-block; line-height: 0; font-size: 19.04px; overflow-wrap: normal; word-spacing: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; padding-top: 1px; padding-bottom: 1px; position: relative;">

(Yik=1)=fθi(Xik)P(Yik=1)=fθi(Xik)

其中 Yik=1Yik=1表示用户 i 喜欢第 k 首音乐的概率。f(⋅)f(⋅)可以是一种合理的函数形式，而统计模型的任务就是根据已有的历史数据对 f(⋅)f(⋅) 进行估计，相应的参数估计 (θi)(θi)便可理解成关于这个用户的 “基因”。例如，一个用户的历史浏览数据表明，他经常收听流行音乐，我们可以猜测“流行” 这一标签代表的基因对该用户的浏览行为影响较大，那么就应该给他更多地推荐流行这一流派下的音乐。这样我们把一个用户的历史收听行为（ YikYik）和收听的音乐信息（ XikXik）联系起来，通过一部分的训练数据集估计出相应的参数，然后再根据统计模型来预测给定一首音乐（歌曲、歌单等），用户选择喜欢的概率有多大。这个步骤涉及统计模型的建立，具体需要的数据有：推荐音乐的标签信息，用户的历史收听行为。
网络结构应用除了系统记录的用户历史收听数据，我们还能利用哪些数据对用户偏好进行预测呢？在以上模型中，对一个具体的用户（例如： = 张三）做推荐的时候，我们只用了张三自己的数据（即:XikXik），而没有用到其好友的数据。在音乐的社交性趋势逐渐明显的情形下，利用好友收听数据对用户偏好做推断是一种可行措施。在具体实施过程中，音乐服务商已经允许用户在社交网络上分享歌曲、创建歌单，并且对朋友的音乐分享予以反馈。这为从社交网络数据入手分析和预测用户偏好提供了现实基础。而事实上，物以类聚，人以群分。信息传播的定律告诉我们，一旦流行趋势由点出发，通过朋友网络将极快的覆盖整个用户群体。这就意味着我们可以根据用户好友的偏好来对用户的偏好进行预测，同时更加准确的把握流行趋势的信息融合；不仅如此，在社交网络中，用户与明星的关注关系对于推断用户的音乐兴趣偏好也起着重要作用，例如用户张三在微博上上关注了周杰伦，那么可以推测他在现实生活中也是周杰伦的粉丝，在推荐系统中，我们就可以更多的给他推荐周杰伦或者与之风格相似歌手的歌曲我们将网络结构数据引入到传统的推荐算法中，可以帮助我们更准确的进行预测。那么如何获取网络结构数据呢？
具体地，A=(ai1i2)∈RN×NA=(ai1i2)∈RN×N 用代表网络结构数据，其中，ai1i2=1ai1i2=1 表示用户 I1I1 与 I2I2 是朋友关系，否则与不是朋友关系。一般来说，朋友的音乐兴趣与用户的音乐兴趣存在一定的相关关系。那么，我们通过获取用户 i 的朋友的收听数据，以及用户在社交网络上关注的歌手信息。进而对当前用户的历史收听数据进行有效补充。在此基础上，可以改善上述模型：

<span id="MathJax-Element-26-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" data-mathml="p(Yik=1)=fθi(Xik,Yjk,Zqk),j∈Ni,q∈Mi" role="presentation" style="display: inline-block; line-height: 0; font-size: 19.04px; overflow-wrap: normal; word-spacing: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; padding-top: 1px; padding-bottom: 1px; position: relative;">p(Yik=1)=fθi(Xik,Yjk,Zqk),j∈Ni,q∈Mip(Yik=1)=fθi(Xik,Yjk,Zqk),j∈Ni,q∈Mi

其中， NiNi 表示用户的朋友集合，即 Ni={j;aij=1}Ni={j;aij=1} ，MiMi 代表用户关注的歌手集以及与这些歌手合作密切的歌手、作曲人、词作者集合。可以看到，以上模型不仅用到用户 i 的信息，并且用到了其好友 j 的信息，以及其关注的歌手信息，作为解释性变量输入系统。进一步，在信息得到增强的情形下，对于用于表征用户基因的参数的估计将更加准确。甚至，在某些情境下，即使系统不能获得用户 i 的历史收听记录，推荐系统仍然能够根据朋友信息及其关注的歌手信息进行有效推荐。这种推荐模式在用户刚刚绑定 QQ 音乐并没有产生阅读行为时，起着举足轻重的作用。这就为解决推荐系统的冷启动问题提供了一种可行的解决方案。所以本步骤的关键是获取用户的好友关系并获取好友相关的信息，这可能需要获得微博、微信这样的产品授权，由此提供网络信息，然后利用这些信息进行更精准的推荐。
个性化推荐现有个性化推荐算法的核心是通过产品以及用户的历史数据对消费者的偏好给予学习以及预测。但是，这样的做法有以下重大缺陷。
第一、处理不了冷启动问题。也就是说，对于一个新的用户，我们没有历史数据，如何推荐？这就可能出现前文中提到的问题，系统会提示用户通过收听歌曲增加历史记录。这在一定程度上会导致用户体验下降和流失。但是，如果我们拥有该用户的社交网络信息，在他的现有好友中能够找到历史数据充分的用户，那么就可以基于上面讨论的问题作出合理推荐，极大地解决冷启动问题。
第二、无法适应用户兴趣的改变。随着用户的年龄、境遇以及经历的改变，用户对于音乐的偏好程度是可能随着时间变化的。但是如果只根据历史记录对用户进行推荐，系统学习到用户兴趣的改变的速率可能是缓慢的。通过社交网络的推荐可以使用户接触到的音乐范围增加，给了用户更多发现音乐的机会。QQ 音乐的歌单、关注歌手等功能都是强社交性产品的一种表现，利用用户对朋友分享音乐的反馈，可以使系统敏感的检测到用户兴趣的改变。
第三、推荐系统无法自适应的学习。音乐产业是一个充满了潮流趋势与个性化因素的产业，正因如此，推荐系统除了学习用户个人兴趣之外，还需要不断适应流行趋势。比如，在 “中国好声音” 和“我是歌手”流行之时，如果只利用历史数据，推荐系统在不进行人工干预的情形下很难为用户主动推荐相关歌曲；但是，这种流行趋势却可以从朋友的主动分享和动态中扩散开来，因此，利用社交网络信息进行推荐可以帮助推荐系统自适应地结合用户个人兴趣以及流行趋势。
简单总结一下。我们相信，卓越的产品设计理念、高精度个性化音乐推荐以及优秀的用户体验是息息相关的。并且，在某种程度上，他们是可以相互增强的。QQ 音乐在产品设计中融合了多元化的社交网络理念，这为社交网络信息在数据分析中的应用提供了坚固的基石，反过来，通过高精度的个性化音乐推荐又不断增速产品的更新迭代，以及用户体验的升级。我们认为，在把握好用户对音乐基本需求的基础上，个性化推荐将是未来音乐市场的一把利器。其中，有效融合社交理念，夯实数据基础，提升推荐精度，将为未来音乐服务市场带来巨大商机。
二、新闻推荐本报告所关注的新闻主要指以文本为主要展现方式的门户综合网站（如新浪、腾讯、搜狐等）、专业新闻报道网站（如和讯网，21 世纪经济报道等）以及相关新闻类 App（如今日头条，无觅阅读等），具体分析内容如下。
2.1 新闻推荐与社交网络根据 App Store 新闻类免费排行榜显示，移动端排名最靠前的三大新闻类 App 是腾讯新闻，网易新闻，新浪新闻。

对于每一个 App 而言，为了增加客户的粘性和用户的体验，除了每个 App 自设的一些新闻频道外，他们常常会对用户推荐一些新闻信息，常见的推荐展现形式有：

腾讯新闻网易新闻新浪新闻
根据我们的研究经验，我们认为其推荐的机制有：（1）大众热点推荐；（2）根据用户以前看过的内容（或点赞、收藏的内容）进行推荐；（3）根据看过类似新闻的人还看过什么来对用户进行推荐。可以感受到的是目前的推荐机制仍有很大的提升空间，对于绝大多数用户来说，他们并不会在这些新闻类 App 上提供自己的社交信息，因此这些推荐都没有利用到来自好友的信息，假设我们可以了解到用户的社交网络，那么可以有以下重要的好处：当用户使用微博账号或 QQ 账号登录 App 时，就可以获取该用户的好友关系，通过分析你的好友最近在关注的内容，可以预测你感兴趣的内容，这样就可以解决个性化推荐中一个非常重要的问题：冷启动。在这方面有无可以关注的重要企业呢？其中美国的 Flipboard 和中国的今日头条可以算得上是这方面的一个代表。

特别值得关注的是，这两个 App 目前做的都非常成功，例如，作为一直以将社交网络等社会化媒体整合著称的 Flipboard 于 2013 年底宣告用户总数突破 1 亿大关，并获得 5000 万美元的 C 轮融资，估值约为 8 亿美元；于 2012 年创立的后起之秀今日头条目前也拥有 1.2 亿激活用户，2014 年，今日头条一举拿下 1 亿美元融资，增势迅猛，不可小觑。这两个 App 的一个共同之处是他们允许用户使用他们当前的社交网络账号绑定（如 Facebook、微博等），如下图所示。

以今日头条为例，我们详细分析他们在数据层面的优势，例如，当用户为今日头条绑定了微博账号时，他们就可以轻松获取用户在微博上的个人信息及好友情况，可以知道用户的好友在微博上都了些什么，由此一来，看似独立的今日头条个体用户，通过微博账号的绑定，就变成了有网络结构的群体，下图就生动形象的展现了这一数据层面的转变。

可以看到在传统的登录方式中，用户被当成了独立的个体，他们每一个人只是今日头条的一个独立用户而已，如果绑定了微博账号之后，我们就可以获得好友关系（例如上图右侧小人之间的连线表明二者是好友关系）和好友的动态（如云状对话框里展示了好友最近的关注动态），中国有句古话叫 “物以类聚，人以群分”，我们会发现通常情况下越是相似的人，他们关注的话题也就越相似，如此一来，我们就可以根据用户的好友关注情况为该用户进行新闻推荐，这在一定程度上能够解决许多此类应用的冷启动问题。
2013 年，张一鸣在接受采访时对今日头条的推荐系统构建进行了简述：今日头条会在用户绑定微博后的 5 秒钟之内为用户建立起一个 DNA 兴趣图谱。同时他也允许用户使用多社交网站的账号进行绑定，在个人动态中会滚动出现这些好友的一些信息动态。以上这些都是今日头条的优势所在，但是我们认为能真正的做好这几点今日头条仍然面临着一些挑战：①推荐的时候能否进行快速的线上计算是决定推荐速度的一个重要因素；②如何进行多账号之间的数据融通和整合对充分挖掘好友关系并进行精准推荐具有重要作用；③如何应用好友对我的影响进行动态推荐信息中的排序是提高用户体验的另一个重要方式。总结以上优势和挑战，我们认为今日头条虽然是利用社交关系进行新闻推荐的先驱者，但是在利用网络数据的层面上仍有很大的改进和提升空间。
2.2 基于社交网络的新闻推荐在此我们结合自己的知识和研究经验，给出如何利用网络数据对用户进行推荐的技术思想。接下来，我们将从新闻分类与结构化、用户信息整合、网络结构应用三个步骤详细阐述我们的观点。
新闻结构化首先，我们要对系统中存在的海量文章进行分类，使看似纷繁复杂的文本信息结构化。为此我们需要对每篇文章的主题进行总结并分类。分类的方法多种多样，比如我们可以先将主题分为几个大类，大类下面增设小类，每个小类包含不同关键词集合。例如，“体育”是一个大类，在 “体育” 大类下可分为 “足球”、“篮球”、“游泳” 等小类，在标为 “足球” 的小类下又可包括 “罗纳尔多”、“国安” 等这样的关键词信息。根据关键词信息，我们可以对每一篇文章打上标签。但是，由于主题和关键词数目众多，我们不可能把所有的关键词拿来作为目标词库，一个比较简单高效的办法是选择最热门的 N 个关键词作为我们的目标词库，并且对该词库定期进行更新。具体来说，我们将所有关键词按照重要程度由高到低进行排序，选择前 p 个关键词作为我们的关键词集合。给定一篇文章 t，我们用一个超高维向量 Xt=(Xt1,,Xtp)∈RpXt=(Xt1,,Xtp)∈Rp表示它的标签信息，其中 Xtj=1Xtj=1表示该文章含有第 j 个关键词，否则，该文章不含有第 j 个关键词。例如一篇描述旅游攻略的文章，对其打的标签可能是：旅游、美食、驴友等。设旅游、美食、驴友分别对应于标号为 1、3、5 的关键词，那么向量 Xt=(1,0,1,0,1,0,,0)Xt=(1,0,1,0,1,0,,0)可以表示为。通过以上步骤，我们就可以把看似杂乱无章的文本信息通过打标签的形式进行结构化，用一个只含 0、1 元素的超高维向量对每篇文章进行分类。所以本步骤的核心思想是：建立关键词词库，将文章标签化。
用户信息整合在第一步中我们将每篇文章进行了标签化设置，这样用户看到的推荐文章其实背后都是有标签的，用户可以选择阅读（或不阅读）推荐的文章，有了标签信息，我们就可以进一步的分析出对于一个特定的用户，他喜欢阅读含有哪些标签信息的文章？如果回答了这个问题，就解决了个性化推荐的问题。具体来说，假设有 i= 1,2,…,n 个用户，对第 i 个用户，推荐系统向其展示过 nini 篇文章。给定第 k 篇文章， XikXik 表示该文章的标签向量，这里定义 1≤k≤ni1≤k≤ni 。用 YikYik 代表用户对文章的反馈，其中，Yik=1Yik=1 代表用户阅读过该篇文章，否则用户没有阅读过。在掌握这些数据的基础上，我们试图通过机器学习算法，建立 YikYik 与 XikXik 的函数关系：

<span id="MathJax-Element-40-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" data-mathml="p(Yik=1)=fθi(Xik)" role="presentation" style="display: inline-block; line-height: 0; font-size: 19.04px; overflow-wrap: normal; word-spacing: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; padding-top: 1px; padding-bottom: 1px; position: relative;">p(Yik=1)=fθi(Xik)p(Yik=1)=fθi(Xik)

其中 P(Yik=1)P(Yik=1)表示用户 i 喜欢第 k 篇文章的概率。 f(⋅)f(⋅)可以是一种合理的函数形式，而统计模型的任务就是根据已有的历史数据对 f(⋅)f(⋅) 进行估计，相应的参数估计（θiθi）便可理解成关于这个读者的 “基因”。例如，一个用户的历史浏览数据表明，他经常浏览娱乐新闻，我们可以猜测“娱乐” 这一标签代表的基因对该用户的浏览行为影响较大，那么就应该给他更多地推荐娱乐相关的新闻。这样我们把一个用户的历史浏览行为（YikYik ）和浏览的文章信息（XikXik）联系起来，通过一部分的训练数据集估计出相应的参数，然后再根据统计模型来预测给定一篇文章，用户选择阅读的概率有多大。这个步骤涉及统计模型的建立，具体需要的数据有：推荐文章的标签信息，用户的历史浏览行为。
网络结构应用除了系统记录的用户历史浏览数据，我们还能利用哪些数据对用户偏好进行预测呢？在以上模型中，对一个具体的用户（例如：i = 张三）做推荐的时候，我们只用了张三自己的数据（即：XikXik ），而没有用到其好友的数据。大量的实证分析表明，在网络中紧密相连的个体是高度相关的，具有很多的相似性。这就意味着我们可以根据用户好友的偏好来对用户的偏好进行预测，我们将网络结构数据引入到传统的推荐算法中，可以帮助我们更准确的进行预测。那么如何获取网络结构数据呢？
具体地，用 A=(ai1,i2)∈RN×NA=(ai1,i2)∈RN×N 代表网络结构数据，其中，ai1,i2=1ai1,i2=1 表示用户 i1i1 与 i2i2 是朋友关系，否则 i1i1 与 i2i2 不是朋友关系。一般来说，朋友的阅读兴趣与用户的阅读兴趣存在一定的相关关系。那么，我们通过获取用户 i 的朋友的阅读数据，进而对当前用户的历史阅读数据进行有效补充。在此基础上，可以改善上述模型：

<span id="MathJax-Element-54-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" data-mathml="p(Yik=1)=fθi(Xik,Xjk)j∈Ni" role="presentation" style="display: inline-block; line-height: 0; font-size: 19.04px; overflow-wrap: normal; word-spacing: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; padding-top: 1px; padding-bottom: 1px; position: relative;">p(Yik=1)=fθi(Xik,Xjk)j∈Nip(Yik=1)=fθi(Xik,Xjk)j∈Ni

其中， NiNi 表示用户的朋友集合，即 Ni={j;aij=1}Ni={j;aij=1} 。可以看到，以上模型不仅用到用户 i 的信息，并且用到了其好友 j 的信息，作为解释性变量输入系统。进一步，在信息得到增强的情形下，对于用于表征读者基因的参数的估计将更加准确。甚至，在某些情境下，即使系统不能获得用户 i 的历史阅读信息 XikXik ，推荐系统仍然能够根据朋友信息进行有效推荐。这种推荐模式在用户刚刚绑定今日头条并没有产生阅读行为时，起着举足轻重的作用。这就为解决推荐系统的冷启动问题提供了一种可行的解决方案。所以本步骤的关键是获取用户的好友关系并获取好友相关的信息，这可能需要今日头条与微博、微信这样的产品合作，由合作企业提供网络信息，然后今日头条利用这些信息进行更精准的推荐。
个性化推荐现有个性化推荐算法的核心是通过产品以及用户的历史数据对消费者的偏好给予学习以及预测。但是，这样的做法有以下重大缺陷。
第一、处理不了冷启动问题。也就是说，对于一个新的用户，我们没有历史数据，如何推荐？但是，如果我们拥有该用户的社交网络信息，在他的现有好友中能够找到历史数据充分的用户，那么就可以基于上面讨论的问题作出合理推荐，极大地解决冷启动问题。
第二、用户的兴趣是改变的。过去用户喜欢体育类新闻，可能以后不喜欢。另外，用户的兴趣随着社会重大事件也会改变。一个对金融财经没有任何兴趣的用户，可能在金融风暴时期高度关注金融财经新闻。而这些改变是很难在该用户的历史数据中被学习到的。但是，如果有社交网络，那么这些大的趋势就有可能首先被表达在他的朋友中。这就给了我们一个独特的机会通过其朋友的变化，预知该用户的兴趣改变，并作出相应的推断。
简单总结一下。用户体验是产品设计的核心，而高精度推荐与用户体验息息相关。而社交网络为新闻的高精度个性化推荐提供了一个新的信息来源，充满机遇。相应的对网络结构的数据分析提出了挑战。综合上述三种途径，我们认为，良好的数据结构化方案是数据建模的基石，用户信息的有效整合是数据建模的必备条件，合理利用网络结构是提高推荐精度的重要途径。三辆马车并驾齐驱，必将带来巨大的商业价值。
三、基于社交网络的其他应用3.1 基于社交网络的个性化标签模型近年来，社交网络在全球范围内风靡，著名的社交网络社区 Facebook、Twitter 对人们来说早已耳熟能详。2014 年，中国倍受欢迎的社交网络平台新浪微博在纳斯达克上市，截至 2014 年 3 月，其月活跃用户 1.438 亿，日活跃用户 6660 万。社交网络在带来更多商业价值的同时也引发了更多的研究热点，本部分主要探讨微博中个性化标签与社交网络的关系建模。
3.1.1 社交网络中的个性化标签

那么，什么是社交网络中的个性化标签呢？个性化标签是社交网络用户对于自身兴趣、爱好、特征进行的短语描述。例如，上图中的 “社会关系网络”、“教授”、“商务统计学” 等短语就是用户 Jack 的个性化标签，从标签中我们可以推测出用户的职业、兴趣、生活方式等。
社交网络中的个性化标签不仅可以用于表示用户特征，另一方面，合理利用个性化标签信息将在市场营销等领域带来巨大的商业价值。具体地，例如，带有 “美食” 标签的用户极有可能对美食信息的促销及优惠活动产生兴趣以及购买行为，因此，将类似促销信息投放给这些潜在用户将为企业带来更高的转化率及利润率。
3.1.2 利用社交网络信息进行标签推断但是，尽管个性化标签存在着巨大的商业价值，对于个性化标签信息的直接利用仍然存在着一些问题。首先，用户的个性化标签可能是缺失的，例如，一个带有 “旅行” 标签的用户可能同时也喜欢 “美食”，但是“美食” 这一标签并没有出现在用户自注标签的行列之中；其次，标签信息可能是不准确的，例如，一个贴有 “炒股专家” 标签的用户并实际上不一定股市牛人，那么，如何鉴定用户标签的真实性呢？

社交网络的信息可以帮助我们有效的解决这两点问题。其特有的朋友关注信息是对标签信息的有效补充，这一点可以用上图中在相互关注的好友之间进行标签补充看到。例如，一个喜欢 “美食” 的用户虽然没有把 “美食” 标签纳入自己的标签集中，但是，从她的关注关系我们可以看到她关注了许多美食营销账号，如 “下厨房”、“舌尖上的中国” 等。通过这一信息我们可以推断，该用户对 “美食” 也有着浓厚的兴趣。同时，利用社交网络信息还可以帮助我们有效的鉴别用户标签信息真伪。例如，如果从关注关系看到一个贴有 “炒股专家” 标签的用户没有关注任何炒股公众微博号，他的粉丝中也没有炒股发烧友，那么，从一定程度上，我们可以推断该用户的 “炒股专家” 的标签可能存在一定的谬误。
然而，微博中有着上亿的用户，我们不可能用肉眼鉴别和推断每一个用户的标签。有没有一种高效并且易于计算的统计模型表征这一过程呢？在一篇最近研究社交网络个性化标签的文章中，采用了两种估计方法（极大似然估计与条件极大似然估计），其主要思想是，假设社交网络中的用户之间的行为是成对独立的，社交网络中的对称关系（互相关注和互不关注）与这一对用户在标签上表现的相似程度有关，例如，一对用户都具有 “美食” 这一标签，那么在此条件下他们有更高的概率成为朋友。具体地，可以把给定标签下对称关系的条件概率用标签回归的形式表达出来，通过估计回归系数我们可以得知对应的标签在推断朋友关系中的重要程度；另一方面，改进上述估计方法，可以提高模型的计算复杂度。利用网络稀疏性的特质，该文章提出了条件极大似然估计方法。社交网络的稀疏性质可以用下图表示，可以看到大部分的用户之间都是不存在相互关注关系的（Null Pair）。在给定网络中的一对存在连接的用户（也就是说，一对用户之间存在双向关注或者单向关注关系）的条件下，计算极大似然函数并估计参数，可以大大降低了计算复杂度。

3.1.3 实际案例为了阐述上述模型的建模效果，我们用一个实际案例加以说明。数据集由北大光华 MBA 的 4554 的微博账户信息组成，同时记录了他们的关注关系。选择标签数目排名前 10 名的标签作为我们的标签集。我们关心的问题是：哪些标签对于推断用户好友关系的影响最大？

通过数据分析，得知邻接矩阵的密度为 0.41%，互相关注的密度约为 0.22%。可以看出这是一个高度稀疏的社交网络关系。通过运用条件极大似然估计模型，我们得到如下的估计结果。

可以看到，其中，回归系数（用条件似然方法估计）的估计值最高的几个分别是：管理、MBA、营销。这表明这几个标签在推断用户的朋友关系中起着重要作用。从这几个标签的字面意义上我们可以看到，人们通过兴趣爱好、职业发展的一致性可以形成朋友关系，反过来说，这种朋友关系对于推断用户的兴趣爱好也至关重要。数据分析结果从一定程度上也印证了该数据集的性质：MBA 学生群。
综上所述，我们认为，社交网络结构在微博个性化标签建模中起着重要作用；反过来，利用标签信息进行社交网络结构推断也具有着潜在的应用价值。
3.2 基于社交网络评估个体影响力随着明星等公众人物在社交网络上的活跃程度的日益增加，微博等社交网络的 “极化” 现象也越来越明显：一些主要的明星、大号掌握了主要的话语权以及控制舆论的能力。这是社交网络影响力的表现之一，本部分主要探讨如何利用网络信息评估网络中个体的影响力。
3.2.1 网络影响力社交网络中的信息纷繁杂乱，网络中的个体也表现出异质性的特征。少数公众人物的微博动态时时都受到关注，其一举一动甚至可能影响整个舆论的走向。各大社交网络平台也纷纷推出热力榜单等应用来对公众人物的影响力进行排名，下图是微博 “明星势力榜” 排名结果：

我们不禁要问，评估人物影响力，有何价值呢？正因为少数用户具有巨大的影响力，我们才更应该合理利用其影响力，而避免其巨大的影响力阐释负面影响。例如，可以利用明星影响力推广公益活动，那么将会在公众中收到更好的宣传效果；另一方面，又要防止有影响力的明星肆意传播虚假、负面信息，造成不良影响。因此，关注具有影响力个体对于提升营销效果、控制舆论信息等有巨大的作用。
关注高网络影响力的个体不仅在社交网络平台中有着巨大应用，在其他的网络关系中也有着举足轻重的地位。例如，在移动通讯网络中，某些个体通话量的提升能够带动整个通信网络中总体电话量的提升，那么这些个体就应被锁定为具有网络影响力的个体。通讯公司应对其采取特别的营销策略，以期留住这些核心用户，从某种程度上说，这正也是利用了这些核心用户的影响力，来防止更多的客户流失。如下图所示，可以看到核心用户的流失对于移动通信服务商可能造成巨大损失，因为与核心用户联系紧密的用户也可能随之流失转为其他服务。

核心用户流失前核心用户流失后
3.2.2 评估网络影响力以通讯网络中的个体影响力评估为例，计算在个体通话量中最有影响力的用户。从直觉上说，移动通讯网络中最有影响力的个体，应该与网络中的大多数个体都有较大的相似性。这个现象用统计语言描述，就是最有影响力的个体与网络中其他个体具有较大的协方差。假设网络中共有 p 个个体，则协方差矩阵如下图所示

估计协方差的方法多种多样，最常用的是通过样本协方差矩阵进行估计。但是这种经验方法在个体众多的移动通信网络中却不适用，通常来说，移动通信网络中个体个数都是数以万计的，而对每个个体的观测个数（如使用月数）却是有限的，因此经典的协方差估计方法并不适用。
那么，在观测值不足的情形下，是不是我们就束手无策了呢？一个没有利用的信息来源就是网络中存在的网络结构信息。大量研究表明，网络中直接相连的个体（朋友关系）存在着一定相关性，回归到这个问题，一个人的通话量可能与其好友的通话量存在着极大地相关性。设想一种极端的情形，假如当前用户的朋友全部离开当前通讯网络，那么该用户极有可能也会离开当前通讯网络。因此，利用社交网络中的网格信息建模有利于更加准确的估计协方差矩阵。
假设网络中存在 i= 1,2,…,p 个用户。具体地，用 [color="red">\TIMESP"]A=(ai1,i2)∈RP\TIMESPA=(ai1,i2)∈RP\TIMESP 代表网络结构数据，其中， ai1,i2=1ai1,i2=1 表示用户 i1i1 与 i2i2 存在通话，否则不然。我们称 A 为邻接矩阵。那么可以利用邻接矩阵 A 的信息来推断协方差矩阵 ΣΣ 的信息。在推断过程中，不仅用到直接相连的朋友关系，我们可以大胆猜测，甚至于朋友的朋友的通话量对于估计协方差矩阵也起到一定作用。其中，“朋友的朋友” 这种二度连接关系可以用邻接矩阵的平方 A2A2 表示。以此类推，协方差矩阵可能与 A,A2,⋯,AdA,A2,⋯,Ad 相关。因此，可以将协方差估计问题描述成一个协方差回归问题：

<span id="MathJax-Element-65-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" data-mathml="Σ(A)=β0Ip+β1A+⋯+βdAd" role="presentation" style="display: inline-block; line-height: 0; font-size: 19.04px; overflow-wrap: normal; word-spacing: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; padding-top: 1px; padding-bottom: 1px; position: relative;">Σ(A)=β0Ip+β1A+⋯+βdAdΣ(A)=β0Ip+β1A+⋯+βdAd

因此，估计协方差就转变成回归系数 β0,β1,⋯,βdβ0,β1,⋯,βd 的参数估计问题。最近的一篇关于利用社交网络信息估计协方差矩阵的学术文章对这个问题进行了探索，其主要思想在于在保证协方差矩阵正定的前提下，分别采用了最小二乘以及最大似然的方法对协方差矩阵进行估计。同时，该文章建议用 BIC 准则选择模型的阶数 d。
3.2.3 实际案例

在此，我们结合实际案例，说明如何通过网络信息寻找最有影响力个体。数据来源是四川大学大一学生的校园网络，共包含 6856 个学生。记录他们每人在 2012 年 1 月份的通话量，并且获取他们相互之间的通话关系。
通过 BIC 的准则选择模型的阶，结果显示模型最优阶为 2，这表明截止到 2 度的连接关系都对协方差估计产生显著影响，根据极大似然估计的结果如下：

<span id="MathJax-Element-67-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" data-mathml="Σ(A)=1.17Ip+0.12A+0.07A2" role="presentation" style="display: inline-block; line-height: 0; font-size: 19.04px; overflow-wrap: normal; word-spacing: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; padding-top: 1px; padding-bottom: 1px; position: relative;">Σ(A)=1.17Ip+0.12A+0.07A2Σ(A)=1.17Ip+0.12A+0.07A2

通过上述结果我们可以看到，随着阶数的增加，邻接矩阵的贡献在此案例中减小，这也表明直接连接具有更大的价值和实际意义。定义网络影响指数，即个体 j 的网络影响力是指该个体与其他个体的所有协方差之和。按照上述回归结果，对影响力指数进行排序，结果显示前 22.8% 的个体占据了整个网络 50% 的影响力。这表明，移动通信企业可以有的放矢的针对不同用户的影响力进行不同的营销策略，主要留住具有核心影响力的用户，将对通信企业的未来发展具有战略性意义。
3.3 基于网络结构数据的客户关系管理客户关系管理（Customer Relationship Management）一直都是企业营销管理中的一个重要部分，客户价值作为企业的一种无形资产备受管理者的关注，企业越来越意识到获取新客户固然重要，但是如何能最大程度的留住老顾客也是帮助企业提升客户价值的一个重要途径。老客户对于企业有一定的忠诚度和粘性，如果企业能够及时察觉到潜在的流失客户并对其进行一定的挽留，那么花费的成本要比获取新客户花费的成本要少得多，所以建立必要的客户流失预警体系对于保留有价值的客户是十分必要的。有关客户流失的研究在营销领域并不是一个新的议题，以往有关客户流失的研究主要是根据客户自身的特征信息（如年龄、性别、收入、购买行为等）来预测他流失的概率。在没有网络数据时，我们认为这种预测方法已经很好了，但是现在有了网络数据，我们认为在预测一个客户流失可能性的时候要充分考虑他朋友的信息，因为个体并不是独立存在于这个世界上的，朋友之间的互动会大大影响一个人在某个圈子的去留。最近在我们进行的一项有关手机用户离网率的研究中发现了一些有趣的现象。
我们选取了国内某大型通讯公司 5 万左右的 VIP 用户近 3 个月的基础通话信息数据并对其离网率进行分析。我们关心的问题是什么样的客户更容易离网？对此我们有以下发现，首先对于一些比较传统的指标我们发现：年龄越大的用户越不容易离网，入网时间越长的人越不容易离网，延迟缴费的人越容易离网。在这些指标上，我们又引入了网络信息的变量，具体的我们定义了测量一个用户网络结构的三个指标：网络中心度、网络紧密度和网络平衡度。其中网络中心度用与该用户有过通话的人数进行测量，我们发现一个用户的网络中心度越高，越不容易流失，因为他的好友很多，如果一旦离网，会给他带来很高的转换成本。网络紧密度我们用人均通话时长进行测量，分析结果表明人均通话时长越长，越不容易流失，这说明用户的网络紧密度越高，他在网络中的粘性越大，也就越不容易离开。最后的网络平衡度测量的是和一个人通话的所有人中通话时长的分布，简单来说我们想看看一个人所有通话中他的通话时长是如何分布，是不是都集中在某几个人身上，还是和每个人的通话时长都差不多，如果这个值越大，说明和他通话的人越集中（也就是说这个人只和那么有限的几个人通话），如果这个值越小，说明和他通话的人越分散。我们发现该指标越大的人越容易流失，说明和他通话的人越集中，那么他要离网的话，成本并不高，因为只需通知几个人即可。在具体的预测中我们也发现加入了这些网络信息变量的模型要比传统模型的预测精度有所提高。

在这个研究中我们比较感兴趣的就是网络平衡度这个概念, 为此我们看上图这个简单的例子, 假设左右两边的目标客户他们的基本通话数据都一致, 以往我们很少去关注一个人的通话分布, 现在我们会发现左边的客户明显有一个经常联系的对象 (其中连线越粗表示二者联系越紧密), 而右边的客户基本和所有通话好友处于一个比较平均的状态. 所以我们可以推断左边的目标客户比右边的目标客户更容易离网.
从该案例中我们可以看到网络结构数据可以帮助我们做传统的客户流失预测，从而帮助企业更好的进行客户关系管理。
3.4 网络结构数据的抽样与计算在大数据风靡的这个时代人们普遍有两种观点，一是随着存储能力的提升我们在进行数据分析时可以不需要抽样，二是随着计算能力的提升，我们可以不依赖笔记本电脑，而在大型服务器上进行我们想要的计算。但是最为一个普通的科研工作者或是一家小型企业来说，购买大量的服务器进行存储和计算显然不是一件划算的事情，即便是腾讯、百度这样的大型互联网企业也不可能每次都耗时耗力的把所有数据拿来算一遍。网络数据更是非常庞大复杂，如何对其进行有效的抽样和巧妙的计算是十分值得关注和研究的问题。我们在网络数据的抽样与计算上做了一点小小的尝试，得出了自己的一些见解，在我们最近的一篇有关 “基于抽样网络数据的空间自回归系数的估计” 的研究中，我们的研究发现通过滚雪球抽样的方法可以提高对参数估计的精度，并且通过一些巧妙的计算方法可以使得看似繁杂的计算变得简单易行。
网络结构信息可以帮助我们对用户的行为进行推断，推断的基础来源于我们认为 “物以类聚、人以群分”，相似的个体之间会受到影响，例如，如果你的周围都是信用记录良好的人，那么你的信用应该也不会差，相反，如果你的周围都是一些经常欠账不还的人，那么你有很大的可能信用也不会好。正如下图所示, 如果有了网络结构信息, 那么我们就可以基于好友的行为对图中两个问号的个体的一些偏好进行推断.

在此之前我们需要对一个群体中人与人之间的相互影响程度做一个判断，将其定义为人与人之间的相互依赖度，这是我们关心的参数，记为。根据我们所获得网络结构信息，利用空间自回归模型对进行估计，这里我们用一个网络模型来简单描述个体的偏好是如何形成的, 如下图, 左侧是一个高度简化的网络结构, 其中红线代表互相关注, 蓝线代表单向关注, 如果有关注关系则在右侧的的单元格里记为 “1”，否则记为 “0”。其中 Y 代表个体的偏好，我们认为好友的影响是有限的，所以如果我有四个好友，那么我受到的影响将是他们的平均影响，则是我们关心的参数：人与人之间的依赖程度。

我们将以上的描述用数学模型的形式展现出来，这就应用到了空间自回归模型，如下图所示，其中 YY 是一组列向量，表示一组个体的偏好测量，W 是标准化的邻接矩阵，刻画了网络结构。这是基于全网数据的模型。

在估计的过程中我们需要解决的一个问题是我们不可能获得全网的数据，只能利用抽样的数据对 ρρ 进行估计，这就意味着某些用户的好友信息是不全的，因为抽样的原因我们只能获取他的一部分好友，但是我们发现只要能知道用户在全网中的好友数（例如在微博中这个数字是可以轻易获得的），那么就可以对参数进行无偏估计。

在研究中我们还发现，给定相同的样本量情况下，如果想要使得估计精度提高，那么需要采取滚雪球的抽样方法，因为这样可以保证尽可能多的抽到是好友关系的个体。另外有关网络结构数据的计算问题，我们也提出了 “成对似然理论” 的思想，简单的说在具体的计算过程中我们考虑成对的个体，只有那些有关系的个体才会对计算有贡献。通过这样小小的改进我们大大提高了处理网络数据运算的速度。
综上所述，我们认为在数据量非常庞大的今天，我们依然需要抽样，而且必须在新的数据环境下重新审视抽样方法，针对网络数据这一个特殊的数据结构形式，有必要探讨巧妙的计算方法以提升处理数据的效率。

		自动登录	找回密码
密码			立即注册