网易首页 > 网易号 > 正文 申请入驻

技术场景分析| 跟着小象“涨姿势”:做好特征衍生,解锁潜在价值

0
分享至

有人曾将建模形象地比作"蒸馏咖啡"的过程:咖啡豆是"10K/10Q/SEC Fillings";研磨工具为Excel表格等软件或语言;浓萃精华为最终的Thesis,即投资观点。

因此,一杯好喝的"金融咖啡",不仅需要优良的咖啡豆,还需要给力的研磨工具,方能得到一份精致的浓萃精华,来做出这样一杯满意的咖啡。

那么,在金融场景中,我们在解决诸如风控、营销、反欺诈、定价、投资决策等问题时,都会用到哪些建模工具呢?接下来两期小象将重点来讲解下“特征衍生”以及“多层次分析”两种建模工具。

本期的重点为“特征衍生”。

//

特征衍生

//

在实际业务中,通常我们只拥有少量基础变量,不适合直接建模,如用户地址(多属性值的分类变量)、用户日消费金额(弱数值变量)等。而基础变量经过适当的变换或组合后,往往能够拥有较强的信息价值,对实际建模工作起到很大的帮助作用,所以建模项目中需要对基础特征做一些衍生类的工作。

特征衍生又叫特征构建,是指从原始数据中构建新特征,也属于特征选择的一种手段。特征构建工作并不完全依赖于技术,它要求我们具备相关领域丰富的知识或者实践经验,基于业务观察和分析原始数据,思考问题的潜在形式和数据结构,从原始数据中提取一些具有实际意义的特征。

从场景来看,特征衍生适用于使用机器学习方法构建模型的所有金融场景,比如风控、营销、反欺诈、定价、投资决策等。

//

如何实现?

//

确定可供拓展的基础特征后,可使用如下几种方式衍生特征:

  • 特征扩展
  • 特征组合
  • 合成特征
  • 自动衍生

特征拓展

特征拓展是基于一个特征,使用特征值打平的方式衍生出多个标注类型的特征,也可以理解为离散化。对于分类变量,直接one-hot编码;对于数值型特征,先进行变量分箱,然后使用one-hot编码。比如,表1为信贷场景下逾期天数的离散化结果。

表1 -信贷场景逾期天数

采用特征拓展进行特征离散化有如下好处:

① 可以有效处理特征中的缺失值和异常值;

② 数据和模型会更稳定,降低模型过拟合的风险,提高模型的泛化能力;

③ 分箱后变量可以使用标准评分卡格式,即对不同的分段进行评分;

④ 标注特征方便后续进行特征交叉组合;

特征组合

特征组合是指将两个或多个输入特征通过数学运算进行组合。一般可分为如下两种情况:

(1)数值运算:对多个特征进行加,减,乘,除的四则运算。

(2)特征交叉:

  • 对多个特征进行交叉组合,或做交,并,补,笛卡尔集等运算。
  • 暴力交叉,即采用多项式特征交叉等方法,暴力交叉容易出现稀疏问题,
  • 可通过FM、FFM等算法处理稀疏特征;

在建模过程中,扩展线性模型时辅以特征组合一直都是训练大规模数据集的有效方法,机器学习模型很少会组合连续特征。不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接。

合成特征

合成特征是通过将单独的特征进行组合形成的合成特征。这是一种让线性模型学习到非线性特征的方式,其包括以下类型:

(1) 对连续特征进行分桶,划分为多个区间的分箱。

(2) 通过一些跨时间维度的计算逻辑对特征进行时间维度的比较,从而衍生出具有业务含义的特定字段。这种做法会具有更强的解释性,是传统的银行或者信用卡中心惯用的衍生方法之一。

(注:合成特征与组合特征关系在于:特征组合广义上包含合成特征,合成特征则改变了特征的线性关系,属于无中生有。)

自动衍生

自动衍生包括一些自动化衍生工具和深度衍生方法,可以缩减时间成本,构建维度更广更全面的新生特征。

(1) 自动化衍生:使用一些自动化衍生工具,诸如Featuretools之类的工具包,通过转换和聚合形成衍生特征。

(2) 通过算法自动进行特征交叉:这类特征大多不可以解释,但是可以将特征挖掘得较为深入和透彻。可以很轻松地从基础的几百个维度衍生至任意维度,比如可以通过XGBoost对特征进行离散,或者通过FM算法进行特征交叉,也可以通过神经网络进行表征学习,然后将内部的参数取出来作为模型的输入(比如使用word2vec算法的权重作为表征特征)。

//

中诚信征信的特征衍生方案

//

结构化数据自动特征生成

图1 结构化数据自动特征生成

结构化数据自动特征生成是建模时使用最多的方式。如图1所示,首先提取原始数据,经过简单的特征提取,比如时间切片、分箱、取log、数值统计等构造大量特征,然后采用符号回归、onehot编码、自编码器、Embedding等方法进行特征衍生,构造更多特征,将生成的特征送入模型,从而改善模型的效果。

知识图谱关联特征提取

图2 客户关系网络

利用知识图谱技术可以从借款人关系网络(如图2)中全面、科学的提取特征,进一步提升风控模型的准确率。比如:图3展示的是运营商通话记录反欺诈模型中入模特征重要性的排序结果,其中灰色表示我们人工衍生的特征,橙色为使用通话记录构建的图特征。不难发现图特征在模型训练中起到了重要作用。其中“人脉欺诈得分”在特征重要性中位列第二,这个特征就是基于图的PersonalPR值,其余的重要图特征为基于实际背景的度和聚散系数。

图3 反欺诈模型的特征重要性

神经网络提取时序数据特征

图4 RNN模型

我们可以通过神经网络进行表征学习,然后将内部的参数取出来作为模型的输入。如图4所示,首先对数据进行预处理,然后将数据输入到RNN模型中,图中的网络结构是双向RNN+3层全连接层,模型训练完成后,即可从网络中提取时序数据特征。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
悬念揭晓,上海男篮摊牌了,放弃25+大魔王,广东阵容保持竞争力

悬念揭晓,上海男篮摊牌了,放弃25+大魔王,广东阵容保持竞争力

最爱生活汇
2024-05-14 15:24:51
连杀四人的苏娟被执行死刑,戴镣铐和弟弟告别,一细节很奇怪

连杀四人的苏娟被执行死刑,戴镣铐和弟弟告别,一细节很奇怪

古书记史
2024-05-13 19:00:08
南通车祸12岁女孩去世,家人请5位出家人念经超度,爸爸精神崩溃

南通车祸12岁女孩去世,家人请5位出家人念经超度,爸爸精神崩溃

180°视角
2024-05-13 10:47:36
太狠!女孩给妈妈发母亲节红包,一句回复让网友泪目,评论区怒了

太狠!女孩给妈妈发母亲节红包,一句回复让网友泪目,评论区怒了

沫姐美食记
2024-05-14 11:20:01
榴莲价格下降90%!但为啥吃的人变少了?水果商:3个原因,很实际

榴莲价格下降90%!但为啥吃的人变少了?水果商:3个原因,很实际

小怪吃美食
2024-05-14 08:56:08
笑死!具俊晔代言耳机广告!全程耍酷!网友:像老年人戴助听器!

笑死!具俊晔代言耳机广告!全程耍酷!网友:像老年人戴助听器!

小咪侃娱圈
2024-05-14 16:52:54
上海一“神豪”现身直播间,疯狂打赏数千万!已潜逃境外,4名人气主播被抓,警方大揭秘

上海一“神豪”现身直播间,疯狂打赏数千万!已潜逃境外,4名人气主播被抓,警方大揭秘

上观新闻
2024-05-13 22:16:17
韩国外长到达北京,刚下飞机就向中方摊牌,尹锡悦承认中国很重要

韩国外长到达北京,刚下飞机就向中方摊牌,尹锡悦承认中国很重要

娱乐的小灶
2024-05-14 15:08:19
三部门:有序推进57座以上大客车及卧铺客车退出运输市场

三部门:有序推进57座以上大客车及卧铺客车退出运输市场

南方都市报
2024-05-14 15:20:10
大反转!宋凯博士自杀事件新进展,和南京林业大学无关

大反转!宋凯博士自杀事件新进展,和南京林业大学无关

平老师666
2024-05-13 21:50:47
南宁楼市全军覆没,南宁青秀区从14000元降至13000元,降了1000

南宁楼市全军覆没,南宁青秀区从14000元降至13000元,降了1000

有事问彭叔
2024-05-13 16:34:06
范冰冰现身香港与谢玲玲吃饭,穿旗袍气质高冷,吃饱后打包辣椒酱

范冰冰现身香港与谢玲玲吃饭,穿旗袍气质高冷,吃饱后打包辣椒酱

树娃
2024-05-10 10:21:28
普京即将访华,克宫用7个字定调,关键时刻,耶伦称不想对华脱钩

普京即将访华,克宫用7个字定调,关键时刻,耶伦称不想对华脱钩

有凤Talk
2024-05-14 18:27:28
哈马斯领导人辛瓦尔,又跑了!

哈马斯领导人辛瓦尔,又跑了!

娱宙观
2024-05-11 20:33:23
玄学:家里打扫的很干净的人,往往有这3种命运,很准

玄学:家里打扫的很干净的人,往往有这3种命运,很准

短暂陪伴987
2024-05-10 22:31:31
内含6千条寄生虫!在中国泛滥也无人敢吃,在印度却成了美食!

内含6千条寄生虫!在中国泛滥也无人敢吃,在印度却成了美食!

沫姐美食记
2024-04-24 21:47:35
多地开启养老金重算补发工作,工龄25年和35年上涨补发有多少钱?

多地开启养老金重算补发工作,工龄25年和35年上涨补发有多少钱?

社保小达人
2024-05-14 10:15:18
汪峰新女友疑曝光:比汪峰小19岁颜值不输章子怡,森林北身份被扒

汪峰新女友疑曝光:比汪峰小19岁颜值不输章子怡,森林北身份被扒

火鱼观点
2024-05-14 14:39:32
林彪异于常人的饮食习惯,一年到头只吃“老三样”,厨师苦不堪言

林彪异于常人的饮食习惯,一年到头只吃“老三样”,厨师苦不堪言

历史龙元阁
2024-05-02 14:55:57
布朗尼身高严重缩水!选他不等于得到詹皇 湖人仍尝试让父子同队

布朗尼身高严重缩水!选他不等于得到詹皇 湖人仍尝试让父子同队

罗说NBA
2024-05-14 04:31:31
2024-05-14 19:42:44
中诚信征信
中诚信征信
独立第三方信息服务商
277文章数 49关注度
往期回顾 全部

科技要闻

OpenAI再压谷歌,最强模型GPT-4o免费发布

头条要闻

智障老人被指性侵"00后"脑瘫女孩 女孩内裤上检出精斑

头条要闻

智障老人被指性侵"00后"脑瘫女孩 女孩内裤上检出精斑

体育要闻

"全世界最美球场"的主人 时隔21年重回意甲

娱乐要闻

《歌手》引爆全网,众多歌手请战!

财经要闻

多位百亿富豪信息遭泄露 980元包年可查

汽车要闻

不到十万纯电SUV 比亚迪元UP主打一个卷

态度原创

教育
家居
数码
艺术
军事航空

教育要闻

台州学校要家长交2万学费,教育部门:不用,神仙打架普通人遭殃

家居要闻

凝固音乐 时间不在意识轴中

数码要闻

Creative Pebble X系列:音效恰到好处

艺术要闻

广汇美术馆三展齐发!百年艺术精品荟萃,立当下向未来

军事要闻

美军首次展示AI战斗机 空军部长亲自试驾

无障碍浏览 进入关怀版