Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

x
用微信扫描二维码
分享至好友和朋友圈

  

  大数据文摘作品

  编译:李雷、元元、小鱼

  数据科学的功能是在数据中寻找有用的观点并加以应用。然而,数据科学并非凭空而来。在向分析目标迈进的过程中,数据从业者可能面临阻碍其进展的各种挑战。

  本文探讨了数据从业者在分析数据时遇到的挑战类型。为了研究这个问题,本文分析了Kaggle 2017年数据科学和机器学习状况调查报告(Kaggle 2017 State of Data Science and Machine Learning)中的数据。这是一项针对16,000多名数据从业者展开的专项调查(数据收集于2017年8月)。

  

  Kaggle的调查数据显示,数据科学家面临的最常见挑战包括脏数据(36%),缺乏数据科学人才(30%)和缺乏管理支持(27%)。

  数据来源:

  https://www.kaggle.com/kaggle/kaggle-survey-2017

  

  工作中的障碍与挑战

  

  

  数据从业者过去一年所面临的挑战

  在调查中10153名受访者被问到,“在过去的一年中,你工作中遇到了哪些障碍或挑战?(可多选)。”结果如上图所示,排名前十的挑战是:

  1. 脏数据(36%的受访者提及此项)

  2. 缺乏数据科学人才(30%)

  3. 公司政策(27%)

  4. 缺乏明确的研究问题(22%)

  5. 数据无法访问(22%)

  6. 结果未被决策者使用(18%)

  7. 向其他人解释数据科学(16%)

  8. 隐私问题(14%)

  9. 缺乏专业领域知识(14%)

  10. 小公司请不起数据科学团队(13%)

  结果显示,平均每个数据从业者就会遇到上图中的三项挑战(3是中位值)。不同职位所遇到的挑战数量不同。自认为是数据科学家(Data Scientist)或预测建模师(Predictive Modeler)的数据从业者称遇到了其中的四项挑战。自认为是程序员的数据从业者称只遇到了其中的某一项挑战。

  

  挑战分组

  

  我想将这20项挑战进行分组,把通常一起出现的挑战归为一组,因此我对数据进行了主成分分析(0表示未经历此项挑战;1表示经历过此项挑战)。我发现了一个相当清晰的、由5个主要成分构成的分组方案,其中特定挑战往往会与其他相关挑战一起出现。

  

  数据从业者遇到的挑战的主成分分析。

  图中表格数据是方差极大正交旋转后的成分矩阵,

  得分大于等于0.40的成分以粗体显示。

  上图中五个主要成分(挑战分组)是:

  1. 分析结果未被用于决策:这组挑战还包括公司政策、无法将研究结果纳入决策过程以及缺乏管理支持。

  2. 数据隐私、真实性、无法访问:这组挑战围绕数据本身展开,包括数据清洗的复杂程度、可访问性以及隐私问题。

  3. 扩展/部署工具的局限性:这组挑战与用于提取结果、部署模型以及将解决方案扩展到完整数据库的工具相关。

  4. 缺乏资金:资金缺乏引起的挑战会影响组织机构在外部数据源、数据科学人才以及可能的领域专业知识方面的购买力。

  5. 提出的错误问题:这组挑战包括难以对数据科学项目的结果保持合理的期望,并且对数据分析没有明确目的或方向。

  

  结论

  

  数据从业者在数据科学和机器学习工作方面会遇到一些挑战。一年中平均每个数据从业者可能会遇到其中三项挑战。最常见的数据科学和机器学习挑战包括脏数据,缺乏数据科学人才,缺乏管理支持以及缺乏数据分析明确的方向或目的。

  原文链接:

  http://businessoverbroadway.com/top-10-challenges-to-practicing-data-science-at-work

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。

跟贴 跟贴 0 参与 0
© 1997-2019 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 网站地图 | 意见反馈 | 不良信息举报

大数据文摘

专注大数据,每日有分享!

头像

大数据文摘

专注大数据,每日有分享!

3277

篇文章

73634

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码