我们今天常常讲到大数据思维，很多人就会想到大型互联网公司使用用户的数据做很多事情，既有好的事情，比如今日头条给大家推送有用的资讯，也有坏的事情，比如一些电商公司利用个人信息进行价格歧视，甚至一些公司出卖大家的隐私。

关于大数据思维的一些例子，在当下最常见，也是最成功的有四类应用。

第一类，解决人工智能问题。

世界上利用大数据解决的第一个智能型的问题是语音识别，接下来是机器翻译。语音识别的历史正好和电子计算机一样长，可以追溯到1946年。但是一直做得非常不成功。

到了60年代末，计算机已经进入到第三代了（基于集成电路的），语音识别才只能做到识别十个数字加上几十个单词，而且错误率高达30%。这样水平的系统是不可用的，因为如果每十个词就错三个，你就无法复原原来的意思了。

因此，在60年代初，就有人认为语音识别和治愈癌症、登月、水变油一样，近乎不可能。到了70年代，康奈尔大学著名的信息论专家贾里尼克来到IBM，负责该公司的语音识别项目。贾里尼克是一位天才，他从博士毕业到成为讲席教授，教科书的作者，也就是十年时间。

在贾里尼克之前，人们觉得识别语音是一个智力活动，比如我们听到一串语音信号，脑子会把它们先变成音节，然后组成字和词，再联系上下文理解它们的意思，最后排除同音字的歧义性，得到它的意思。

为了做这件事，科学家们就试图让计算机学会构词法，能够分析语法，理解语义。但这件事证明是不可行的。贾里尼克在到IBM之前并没有做过语音识别，他也不懂得传统的人工智能。

事实上，直到死他都不认为他是人工智能专家。由于不受到传统的人工智能思想的约束，他得以用信息论的思维方式来看待语音识别问题。他认为语音识别是一个通信问题。

贾里尼克是这样考虑问题的。当说话人讲话时，他是用语言和文字将他的想法编码，这就变成了一个信息论的问题。语言和文字无论是通过空气传播，还是电话线传播，都是一个信息传播问题，在通信中有一套对应的信道编码理论。在听话人，也就是接收方那里，他再做解码的工作，把空气中的声波变回到语言文字，再通过对语言文字的解码，得到含义。

于是，贾里尼克就用通信的编解码模型，以及有噪音的信道传输模型，构建了语音识别的模型。但是这些模型里面有很多参数需要计算出来，这就要用到大量的数据，于是，贾里尼克就把上述问题又变成了数据处理的问题了。

在这样的思想指导下，贾里尼克裁掉了IBM全部的语言学家，并且对各种仿生学，比如研究人耳蜗的模型完全不感兴趣，他只注重收集数据，训练各种统计模型。

那么这样能否解决语音识别问题呢？在一开始，学术界确实有人怀疑，不过贾里尼克很快用结果回答了大家。

在短短几年时间里，他的团队（都是数学家和数学很好的理论物理学家）就将语音识别的规模扩大到22000词，错误率降低到10%左右。这是一个质的飞跃，从此数据驱动的方法在人工智能领域站住了脚。

贾里尼克思想的本质，是利用数据（信息）消除不确定性，这就是香农信息论的本质，也是大数据思维的科学基础。这就是第一类应用，把人工智能问题变成数据问题带给我们的启示。

第二类应用，利用大数据进行精准服务。

我们不妨用一个例子来说明。

如果我们想知道搜索“迈克尔·乔丹”的网页结果，我们可以把包含着两个关键词的网页先找到，然后根据相关性和网页质量排序。

但是，在美国有很多“迈克尔·乔丹”，到底用户找的是谁呢？有人可能会说，当然是那个篮球球星了，其实美国还有一个非常有名的“迈克尔·乔丹”，他是当今世界上最著名的人工智能专家之一，美国三院院士（科学院、工程院和文理学院）。

很多年前在Google，研究者想了不少办法来解决这个问题，比如有人提出是否在10条结果中放5条篮球球星的，5条教授的。但是这种想法很快被大家否决了，因为无论是找篮球球星的人，还是找学者的，都会认为你的搜索做得不够好。

对这个问题唯一好的解决办法就是理解用户的意图，进行个性化服务。但是这样一来就需要非常非常多的数据，因为之前可以对所有的人进行统计，看看大家最希望得到的搜索结果是什么。

但是，如果对每一个人进行统计，数据量就不够了，因为一个人搜索的数量再多，也无法和所有人相比。一旦数据量不够，统计就变得毫无意义。

因此，这一方面需要尽可能多地收集数据，另一方面则需要对行为习惯和偏好类似的人进行聚类。

今天，微软的搜索效果没有Google的好，不是技术不行，而是数据量不够。对于那些常见的搜索，大家其实水平差不多，微软差就差在了那些很少见到的长尾搜索关键词上。

但是不管怎样，这两家公司已经从重视方法研究，转为重视信息收集和处理了。这是透视大数据思维的第二类应用，利用大数据进行精准服务，得出的一个趋势。

第三类应用，动态调整我们做事情的策略。

当今，容易一劳永逸解决的那些问题大多数已经被解决了，留给我们的是不确定性的问题，因此我们做事情的策略也就要变化了。

早期的滴滴公司并不是一个技术水平很高的公司，虽然他们在公开场合并不承认这一点，很多行业里的人将它作为这方面的反面典型。但是为什么这样一家很多人看不上的公司，能够做大做强呢？除了运营得好之外，正确的指导思想和做事原则起到了关键性的作用。

其实，滴滴公司远不是第一家网约车公司，之前一些公司，过分强调司机和乘客之间的固定，比如A乘客坐B司机的车子比较满意，他下次依然希望提前预订B司机的服务。这件事在优步和滴滴都是不允许的，但是一些网约车公司是允许的。这两种做法有什么差别呢？

虽然没有人都能举出各自的利弊，但是，对于一个不断变化的打车人群分布和车辆分布，利用数据做动态调整是效率最高的策略。当然，如果你没有足够多的数据，一共只有200辆车，5000个人的数据，你是做不到这一点的。

反过来，如果有了足够多的数据，是否在理论上有保障，只要调整的次数足够多，就能收到最佳匹配呢？答案是肯定的。

第四类应用，利用大数据发现不知道的规律。

如今研制一款新药需要20年时间，20亿美元的投入，这是惊人的投入。能否减少这方面的研发成本，缩短研发周期呢？

如果按照过去的做法工作，即使再努力，能提升的空间也有限。后来大家换了一个思路想问题，那就是让处方药和各种疾病重新匹配。

比如斯坦福大学医学院发现，过去一种治疗心脏病的药治疗胃病效果很好，于是他们直接进入小白鼠试验，然后进入了临床试验。由于这种药的毒性已经试验过了，因此临床试验的周期短了很多。这样，找到一种新的治疗方法平均只需要3年时间，投资1亿美元。

当然，找到药和病的配对，本身是一个大数据问题。这种做事的方法能够成立，背后是有信息论理论依据的，即所谓的互信息理论

最后，小结一下，今天给举了四类大数据思维应用在商业上的成功案例：

第一类是解决人工智能问题，是利用数据（信息）消除不确定性，这是香农信息论的本质，也是大数据思维的科学基础。
第二类是利用大数据进行精准服务，从中你可以看出一个商业趋势：公司从重研究方法到重数据收集的转变。
第三类是动态调整做事策略，足够多的数据可以帮助我们动态匹配最佳结果。
最后一类是利用大数据发现未知规律，这背后涉及互信息的理论，也是信息论的重点内容。

这四类大数据应用，都在传达一个信息，那就是大数据的关键是思维方式的变化。。