博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Feature Selection 特征选择
阅读量:6773 次
发布时间:2019-06-26

本文共 1031 字,大约阅读时间需要 3 分钟。

 

Feature Selection

Why

1.curse of dimensionality

 

 

 

Method

1. Filter: Scoring each feature, filter out good features. (Information Content)

  1.1 Chi-Square 卡方检验

  1.2 Correlation 相关检验
  1.3 Information Gain 信息获取

Comments:decent complexity, features not as good as wrapper.

2. Wrapper: Try each possibility, evaluate result of each subset. (Accuracy)

  1.1 Recursive feature elimination with cross validaton

Comments: features are better, but computition cost is higher, could overfit.

3. Embedded: Measure the contribution of each feature when creating model.

  1.1 Lasso

 

 

In Practice

1. XgBoosting

print(xgb.importance(matrix()))

 

 2.Decision Tree

Information Gain

 

3. Random Forest

library(party)cf1 <- cforest(ozone_reading ~ . , data= inputData, control=cforest_unbiased(mtry=2,ntree=50)) # fit the random forest varimp(cf1)

4. case 1, 用 caret

 4.1 cor(dataset[])

算出每个变量的相关系数, 取系数 >= 0.75的系数

 4.2 varimp

计算每个变量的重要程度,可以用不同model来衡量, 常用的有random forest

 4.3 Recursive Feature Elimination

 

 

 

 

转载于:https://www.cnblogs.com/fuxiaotong/p/6844889.html

你可能感兴趣的文章
分布式事务 & 两阶段提交 & 三阶段提交
查看>>
linux下编译upx 3.93
查看>>
MySQL 优化
查看>>
MCMC采样理论的一点知识
查看>>
bram和dram差别
查看>>
让人头疼的关键用户
查看>>
poj2001 Shortest Prefixes
查看>>
在Eclipse中安装python插件的方法
查看>>
Android 实现QQ、微信、新浪微博和百度第三方登录
查看>>
Could not find com.android.tools.build:aapt2:3.2.0-alpha14-4748712.
查看>>
我们在智能制造上能做什么、应该做什么?董明珠给出了两个答案
查看>>
MySQL · 特性分析 · MySQL 8.0 资源组 (Resource Groups)
查看>>
把Enum与Int32、String的相互转换的代码
查看>>
SQLDump***.txt
查看>>
800 8107.79
查看>>
SPEL语言-Spring Expression Language
查看>>
在阿里,我们如何管理代码分支?
查看>>
spring-使用注解实现Bean自动装配2
查看>>
流程DEMO-固定资产转移流程
查看>>
mysql进阶(一) mysql备份
查看>>