用大数据预测欧洲杯比赛胜负
原标题:数据、大数据与欧洲杯作者:万维钢体育比赛大概是公众接触到的数据密集度最高的 领域了。从几十年前宋世雄解说中国女排比赛,我们就习惯了听取各项数据:这名球员年龄多少,身高多少,她今天已经得了多少分,中国队的得分中发球多少分, 扣球多少分,对方失误送了多少分等。一边欣赏感性的运动之美,一边盘算实时数据,就好像后来的人打电子游戏一样。这些数据绝非枯燥无味。数据显示成就和潜能,数据代表胜负的趋势,数据还是浮夸的资本和球迷之间争论的终结者。美国有的专业棒球杂志上没有煽情的报道和图片,全是各种数据表格,一个有极客精神的资深球迷光看这些数据就能达到高潮。当然那时候数据就叫数据,并不像今天这样有点统计数字就敢叫“大数据”。然而现在毕竟是所谓“大数据时代”,那么在这个时代,要把数据玩到什么程度,才算没有辜负“大数据”这个称号呢?首 先这意味着用数据预测比赛胜负。这得算是一个古老的行业,博彩公司一直都在这么干。大数据的一个新玩法,就是使用“大量”的数据———以本届欧洲杯为例, 雅虎公司的科学家有个新创意,他们将社交网络T um blr上今年前几个月但凡涉及到欧洲杯参赛球队的对话全都提取出来,一共2400万条,跟雅虎体育 存的比赛数据结合起来分析预测。换句话说这些科学家很重视球迷的群体智慧:球迷说哪个队厉害,没准这个队就真厉害。结果可想而知,英格兰队———在球迷中的待遇相当于欧洲的中国队———被这个模型高估了:雅虎预测英格兰进四强,事实上英格兰连八强都没