栏目分类
热点资讯
你的位置:物联网软件开发多少钱 > 物联网软件开发公司 > 物联网软件开发多少钱 R谈话fastshap

物联网软件开发公司

物联网软件开发多少钱 R谈话fastshap

发布日期:2024-09-28 07:45    点击次数:172

图片

图片

图片

图片

图片

图片

图片

图片

SHAP(SHapley Additive exPlanations)是一种模子无关的阐明情势,因此它适用于任何模子。前边照旧先容过屡次这个SHAP了,在R谈话中完了SHAP也吵嘴常简陋的。

R谈话SHAP模子阐明R谈话shapviz完了SHAP可视化R谈话SHAP模子阐明之kernelshap

fastshap基于Rcpp和foreach,是以它的速率颠倒快(比之前先容的几种王人快),并且fastshap既不错完了局部阐明,又能完了全局阐明,还不错无缝对接shapviz的可视化。

装配
# Install the latest stable version from CRAN:install.packages("fastshap")# Install the latest development version from GitHub:if (!requireNamespace("remotes")) {  install.packages("remotes")}remotes::install_github("bgreenwell/fastshap")
准备数据和R包

咱们使用经过缺失值插补的泰坦尼克号数据集t1,该数据有1309行,6列,其中survived是成果变量,二分类,1代表亏欠,2代表存活。

library(fastshap)t1 <- titanic_mice[[1L]]dim(t1)## [1] 1309    6str(t1)## 'data.frame':    1309 obs. of  6 variables:##  $ survived: Factor w/ 2 levels "no","yes": 2 2 1 1 1 2 2 1 2 1 ...##  $ pclass  : int  1 1 1 1 1 1 1 1 1 1 ...##  $ age     : num  29 0.92 2 30 25 48 63 39 53 71 ...##  $ sex     : Factor w/ 2 levels "female","male": 1 2 1 2 1 2 1 2 1 2 ...##  $ sibsp   : int  0 1 1 1 1 0 1 0 2 0 ...##  $ parch   : int  0 2 2 2 2 0 0 0 0 0 ...

把pclass变为有律例的因子型:

t1$pclass <- as.ordered(t1$pclass)  # makes more sense as an ordered factor

本次使用ranger设立飞速丛林模子,对于其他模子,fastshap王人是复古的。

library(ranger)set.seed(2053)  # for reproducibility(rfo <- ranger(survived ~ ., data = t1, probability = TRUE))## Ranger result## ## Call:##  ranger(survived ~ ., data = t1, probability = TRUE) ## ## Type:                             Probability estimation ## Number of trees:                  500 ## Sample size:                      1309 ## Number of independent variables:  5 ## Mtry:                             2 ## Target node size:                 10 ## Variable importance mode:         none ## Splitrule:                        gini ## OOB prediction error (Brier s.):  0.1337358
局部阐明

为了阐明若何最简陋地使用Shapley值来量化特征孝顺,咱们需要一个新的不雅测值来揣测。底下咱们将为新建一个不雅测值,给这个不雅测取个名字叫jack.dawson:

jack.dawson <- data.frame(  #survived = 0L,  # in case you haven't seen the movie  pclass = 3L,     # third-class passenger  age = 20.0,      # twenty years old  sex = factor("male", levels = c("female", "male")),  # male  sibsp = 0L,      # no siblings/spouses aboard  parch = 0L       # no parents/children aboard)

使用fastshap进行模子阐明和DALEX通常,当先亦然需要设立一个阐明器,用来明白模子和数据的多样信息。

上期前区三区比为3:2:0,第1、2区表现活跃,最近10期前区三区比为20:16:14,第3区出号较冷。

奇偶比分析:近十期奇偶比为26:24,奇数码出现概率较热。本期看好奇数号码出现概率走高,参考奇偶比4:1。

在DALEX中,揣测函数默许会从模子对象中索求(默许使用predict()),关联词在fastshap中需要咱们自界说揣测函数,用于胜利复返数值(追念任务)或者类别概率(分类任务)。

# 自界说揣测函数pfun <- function(object, newdata) {  # prediction wrapper  unname(predict(object, data = newdata)$predictions[, "yes"])}# 揣测Jack's的糊口概率(jack.prob <- pfun(rfo, newdata = jack.dawson))## [1] 0.1314723

如若胜利使用以下代码得到的并不是类别概率:

predict(rfo, jack.dawson)## Ranger prediction## ## Type:                             Probability estimation ## Sample size:                      1 ## Number of independent variables:  5

用这个函数不错得到统统t1不雅测的平均糊口概率:

# 揣测统统东说念主的平均糊口概率(baseline <- mean(pfun(rfo, newdata = t1)))  ## [1] 0.3821045
# Difference between Jack and average(difference <- jack.prob - baseline)## [1] -0.2506322

不错发现Jack的糊口可能性低于平均值。底下咱们就使用SHAP来阐明为什么会这么。

底下就不错设立阐明器了,和DALEX通常,亦然使用explain()函数,物联网软件开发公司亦然需要提供只含揣测变量的数据框:

X <- subset(t1, select = -survived)  # 只含揣测变量set.seed(2113)# 设立阐明器(ex.jack <- explain(rfo, X = X, pred_wrapper = pfun, newdata = jack.dawson))##      pclass          age sex      sibsp parch## [1,]      0 -0.005012306   0 0.02174902     0## attr(,"baseline")## [1] 0## attr(,"class")## [1] "explain" "matrix"  "array"

fastshap包使用高效版块的蒙特卡洛(Monte-Carlo,MC)算法。因此,为了巩固性和准确性,应屡次揣测特征孝顺,并将成果取平均值。为此,只需将nsim参数栽培为一个相比大的值即可(默许是1)。底下咱们揣测Jack的1000个基于Shapley的特征孝顺,并赢得平均成果:

set.seed(2129)  (ex.jack <- explain(rfo, X = X, pred_wrapper = pfun, newdata = jack.dawson,                    nsim = 1000))##           pclass         age        sex       sibsp       parch## [1,] -0.07554003 -0.01240914 -0.1414107 0.001836116 -0.01103988## attr(,"baseline")## [1] 0## attr(,"class")## [1] "explain" "matrix"  "array"

fastshap使用的MC情势揣测的Shapley值的加和不会即是相应揣测和基线(即平均揣测值)之间的差值。关联词借用Python的shap库的妙技,咱们不错使用基于追念的救援来编削总额。为此,只需在调用explain()中栽培为adjust = TRUE:

set.seed(2133)  (ex.jack.adj <- explain(rfo, X = X, pred_wrapper = pfun, newdata = jack.dawson,                        nsim = 1000, adjust = TRUE))##          pclass         age        sex       sibsp       parch## [1,] -0.0697378 -0.02354202 -0.1485205 0.003980237 -0.01281207## attr(,"baseline")## [1] 0.3821045## attr(,"class")## [1] "explain" "matrix"  "array"

这个成果的加和与difference是不通常的:

sum(ex.jack.adj)  # 和jack.prob - baseline的成果不通常哦## [1] -0.2506322

构建好阐明器之后,就不错使用shapviz包进行可视化了。

咱们先创建一个简陋的瀑布图来可视化这几个特征是若何让Jack的揣测糊口概率较低的:

library(shapviz)shv <- shapviz(ex.jack.adj, X = jack.dawson, baseline = baseline)sv_waterfall(shv)

图片

显著,Jack是又名男性三等舱乘客,这两个变量对他的较低糊口概率孝顺最大。

然后是瀑布图的另一种体式:

sv_force(shv)

图片

从图形明白方面来看,这个图诚然和瀑布图抒发的道理完全通常,关联词不如瀑布图读起来简陋。

全局阐明

SHAP除了用于局部阐明外,还不错用于全局阐明。

如若对数据鸠合统统的不雅测王人进行一遍SHAP阐明,然后团员它们的成果,就不错得到全局的SHAP阐明。这个情势和CP团员成为PDP的情势颠倒类似。

底下的代码使用1000次MC近似揣测覆按数据中每个乘客的Shapley阐明,并将生成的矩阵强制编削为tibble(以便更好地打印)。栽培shap_only=FALSE不错能够shapviz使用。

这个历程很慢哈~

set.seed(2224)  ex.t1 <- explain(rfo, X = X, pred_wrapper = pfun, nsim = 100, adjust = TRUE,                 shap_only = FALSE)tibble::as_tibble(ex.t1$shapley_values)## # A tibble: 1,309 × 5##    pclass      age     sex     sibsp    parch##     <dbl>    <dbl>   <dbl>     <dbl>    <dbl>##  1  0.228  0.00994  0.312   0.0208   -0.00916##  2  0.138  0.331   -0.0717  0.0113    0.0712 ##  3  0.156  0.0213   0.116  -0.0240   -0.0189 ##  4  0.212 -0.0212  -0.183   0.0171    0.00782##  5  0.201 -0.0308   0.282  -0.0149   -0.0369 ##  6  0.168 -0.0393  -0.199  -0.000779 -0.00240##  7  0.177 -0.127    0.346  -0.00829   0.00371##  8  0.153 -0.0644  -0.186  -0.00392  -0.00976##  9  0.234  0.00345  0.296   0.0398    0.00432## 10  0.106 -0.115   -0.212   0.000223 -0.00402## # ℹ 1,299 more rows

可视化全局变量热切性(驻防和基于重排的变量热切性分裂),这个其实是各个变量的多个Shapley值完全值的平均值:

shv.global <- shapviz(ex.t1)sv_importance(shv)  

图片

变量热切性图的另一种推崇体式,蜂窝图,在Python中被称为shap summary plot:

sv_importance(shv.global, kind = "beeswarm")

图片

变量依赖图,类似于部分依赖图。在这里,咱们将望望特征孝顺age对其输入值的依赖性:

sv_dependence(shv.global, v = "age")

图片

其他可视化函数可参考对于shapviz的推文:R谈话shapviz可视化SHAP

如若你的数据量很大物联网软件开发多少钱,fastshap还复古使用并行化,借助doParallel包即可完了,寰宇我方尝试下即可。

本站仅提供存储就业,统统实践均由用户发布,如发现存害或侵权实践,请点击举报。