斯坦福最新研究：用谷歌街景数据建立车祸预测新模型，看图“猜车祸”-泰伯网

作者通过对谷歌街景数据的研究，发现了四个与车祸相关的结论。

预测是机器学习算法最重要的一个研究方向。众多保险公司利用机器学习算法为他们的客户建立预测模型。其中，车祸预测模型是众多模型里面最难建立的。

车祸发生的影响因素多种多样，变化多端，着实让人摸不着头脑。

与其他商品不同的是，车祸保单的最终成本在初始销售时是未知的。因此，建立一个合理的定价机制是非常具有挑战的。有些保险公司尝试使用统计方法来解决这一问题：预测每个客户的未来风险。

例如，非常经典的汽车保险。大部分的保险公司确定的保险风险因素有司机的年龄、他的汽车配置相关以及汽车发生事故的历史情况。这也是为什么保险公司会在成交汽车保险之前需要客户提供的详细信息的原因。

波兰华沙大学经济科学系的Kinga Kita-Wojciechowska和斯坦福大学生物工程系的?ukasz Kidziński利用谷歌Google街景收集相对应的房屋图像，通过标释房屋的特征：例如年龄、类型以及其它条件。然后与目前最先进的保险风险模型相比，最后发现用谷歌街景数据建立的模型，能够有效地改进了汽车事故风险预测。

作者通过对谷歌街景数据的研究，发现下列结论：

房子的特征与居民的发生车祸风险相关；

与谷歌街景的其他研究用途相比，此模型数据特征来自于地址，并不是按照邮政编码或地区进行汇总，可能存在更为精细的划分；

从地址中提取的数据(房屋的图像)可用于保险和其他行业；

现代数据收集和科技技术允许对个人数据进行前所未有的利用，可能会超过立法的发展速度，并增加个人隐私威胁。

建模数据收集方法与特点

保险公司之前进行的风险建模和定价，通常只使用邮政编码这一特征。然而汇总到邮政编码的索赔数据仍然太不稳定，所以还需要进一步地调整。

另一方面，对于一些“外人”来说，保险公司客户的信息数据很难获得。本文使用的谷歌街景数据可以从来自Google街景的公开图像信息中提取出来。

图1.位于同一邮政编码中不同房屋的示例，根据当前保险公司的模型，这些房屋的居民具有相同的预期索赔频率。

此数据集包含20，000条记录的汽车保险数据集，数据来源于2012年1月至2015年12月期间收集到在波兰的保险投资组合的随机样本。

其中每项记录均涵盖汽车发动机第三方责任(MTPL)保险单的特点，包括投保人的地址、风险敞口(定义为一小部分有效年份在2013-2015年期间的保单)以及2013-2015年间发生的财产损坏索赔的统计数量。保险公司还提供了这些保单的财产损失索赔的预期频率，是根据他们目前最好的风险模型进行估计的，是根据客户的邮政编码进行分区的。

图2.使用注释功能将为数据库中提供的地址，匹配收集谷歌卫星视图和谷歌街景图像。

对图像中可见的房屋中以下特征作了说明：居民的年龄、状况、财富以及邻近地区其他建筑物的类型。根据Fleiss’kappa（属性型测量分析）统计数据结果表明，它们之间大多数是一致稳健的。

继续注释剩余的19,371个地址(还从本研究的范围中删除了129个地址，因为它们要么是另外区域的，要么是Google地图找不到的)，剩余的都将得到了一组单独的、随机选择的地址。

研究者比较了收集到的注释的分布情况，并在最后对四个注释器进行了小的修正，以匹配平均值和标准差。

表1。在进行了必要的简化后，风险模型中对7个新创建的变量进行了统计

建模过程

本段省略，可在论文原文处查看

下载地址：https://arxiv.org/abs/1904.05270

创新之处

通常保险公司的预测模型都是以常规的特征进行预测的，比如驾驶车辆习惯，索赔历史和客户财富级别等特征。

但是文中的模型使用了全新的谷歌街景地图的特征，比如街景地图中房屋所在周围环境，所在区域的密度，街景的质量和房屋类型年限等特征，评测结果也是比较令人欣慰，三个模型的基尼系数变动范围在20%—38%之间，我们能从图3中看见，经过20次的重采样实验得到的结果：具有街景新特征的模型比使用原有的优秀传统模型还要高出接近2个百分点。

当然由于数据样本量比较少，大概只有2万条左右，所以这也在一定程度上影响了基尼系数的提升。但是这在预测模型的研究方向中，给了我们一个新的思路，原来街景地图的特征会比传统的特征更加有效。当然未来肯定还会有更加有效的特征出现，来帮助我们提升预测准确度。

译者注：

基尼系数通常判定超过60%就是一个好模型，但是文章中的数据量有点少，所以这个系数可能没有60%，但是肯定不能说这个思路错的，希望大家可以尝试自己更换数据集来做复现。