a709390303 发表于 2020-4-18 22:24:37

怎样区分“脆而不坚”和“真才实学”的数据科学家? ...

<div contentScore="12927">全文共3862字,预计学习时长13分钟
http://pics0.baidu.com/feed/1ad5ad6eddc451da4dbbba5eb4d5d560d11632e0.jpeg?token=9f716ab3eb95759b5c14097ed3d9cf81
起首声明,笔者并不是在贬低自学和有理想的数据科学家,究竟上,笔者以为这一范畴特殊得当有豪情的自学者。
但你不得不认可,那些仅仅上过一门在线课程就自称专家,却对该范畴的根本理论一无所知(或不感爱好)的人,确实该被敲打敲打。
作为21世纪最性感的高薪职业,数据科学家受到越来越多人的追捧。现在,好像连与行业不相干的人都在倾销本身是数据科学家,这无可厚非。然而有一群“脆而不坚”的人,险些没有实践履历,一些乃至没有理论底子,却在一家家公司里行骗,就有点儿太过了。
笔者在与现有或潜伏数据科学家口试或互助的履历中,发现了一些细节,能区分脆而不坚和真才实学的数据科学家。
笔者整理出了一份清单来区分这些人,这份清单有助于雇用司理举行职员筛选;你也可以用它举行自查,假如存在这些缺点,就要赶紧在变得脆而不坚之前加以改正啦。
http://pics3.baidu.com/feed/14ce36d3d539b600510ddb4b6171b22cc75cb737.jpeg?token=ba05df733300f59272edb9517d6c3082
不费心往探索数据
数据探索是全部呆板学习项目标第一步。假如不花时间认识数据,不相识其特性,在制品产出前,错误的决议树将会浪费大量时间。
没有将数据可视化
启动任何数据相干项目标最佳方式是探索数据可视化。假如读者正在实践呆板学习,那么很大概要处置惩罚大量的高维数据;在Excel中读取.csv大概利用df.describe()函数并不是符合的数据可视化替换方案。
弗朗西斯·安斯库姆用闻名的四重奏分析了数据可视化的紧张性:
http://pics6.baidu.com/feed/9d82d158ccbf6c81aa63e3144319363332fa40a0.jpeg?token=64fdcf9dcdf1000e970adde78a73ece4
每个面板中的数据集都有根本雷同的汇总统计数据:x和y均值、x和y样本方差、相干系数、R平方值和最佳拟合线都(险些)雷同。假如未将数据可视化,而是依靠于汇总统计数据,大概会以为这四个数据集有着雷同的分布,但看一眼就知道环境显然不是如许。
数据可视化答应辨认数据中的趋势、伪迹、非常值和分布;假如跳过这一步,固然也可以瞽者摸象般做项目标剩余部门。
没有清算数据
假如数据是杂乱的会发生什么?数值输进错误;转化堕落;传感器紊乱。在为一个没有前程的项目浪费数月时间之前,办理这些题目很紧张。尤其关键的是,要在模子投进生产之前办理这些题目。记着:输进垃圾就会输出垃圾。
http://pics5.baidu.com/feed/fcfaaf51f3deb48f3239d9abf037bd2f2df57825.jpeg?token=53245cefead95d133e5f5700071d2c14
有许多很好的办法以辨认数据中的题目,但是没有很好的办法辨认全部题目。数据可视化是很好的出发点,只管这是一个相称繁复的手动过程,但是其回报相称丰富。
其他方法包罗主动非常值检测和条件择要统计。比方,人类身高的柱状图:
http://pics0.baidu.com/feed/4afbfbedab64034fa1a1613b50e4fe370a551d49.jpeg?token=90b2fa545a77915eab335b07cf224eb3
用这些数据来练习模子无疑会导致非常糟糕的效果。但是通过查抄数据,可以发现数值为100的非常值是以米而不是厘米为单元的。这可以通过将这些值乘以100举行修正。
精确地清算数据不但可以防止模子担当错误数据的练习,而且在这种环境下,还可以拯救100个本来大概被扬弃的数据点。假如不能精确地清算数据,往好了说,就是把钱留在了桌子上,往坏了说就是创建一个有缺陷的模子。
不必为特性选择和计划而烦恼
神经网络最酷的一点是,可以直接将全部的原始数据输进进往,它会学习到目的函数的一些近似值。现实上,这是最糟糕的一点。
这简直很方便,但是服从低而且易于瓦解。最糟糕的环境在于,这使得新手数据科学家依靠深度学习,造成其技能不停降落,而通常环境下,更传统的呆板学习方法是更符合的。固然没有“精确”的方法来举行特性选择和计划,但是必要为几个关键的效果积极:
·      数据格式化:盘算机是死头脑。数据必要被转换为模子易于明白的格式:神经网络,比方介于-1和1之间的数字;分类数据应为独热编码;定序数据(大概)不应表现为单个浮点字段;对指数分布的数据举行对数转换大概是有益的。可以说,数据格式中存在许多依靠模子的渺小差异。
·      降维:数据越多并不意味着越好。通常,在拟合模子之前,必要淘汰特性的数目。这通常涉及到删除不相干和冗余的数据,或将多个相干字段归并为一个字段。

·      创建特定于域的功能:基于数据创建自有功能通常是高效的。假如有计数数据,就大概必要将其转换为相干的二进制阈值,比方“≥100”对“
页: [1]
查看完整版本: 怎样区分“脆而不坚”和“真才实学”的数据科学家? ...