起首,你晓得本身想要猜测或检测甚么吗?你有足够的数据停止剖析以树立猜测模子吗?你有界说模子和练习模子所需的人员和对象吗?你曾经有了统计或物理模子来作为一个猜测基准吗?
这篇文章对你的人工智能和机械进修项目停止分化,评论辩论其各个部门所带来的影响,从而赞助你肯定公司能否真正预备须要应用机械进修、深度进修某人工智能。
你具有年夜量的数据
足够的相干数据是猜测和特点辨认的需要前提。有了它,你能够会胜利;没有它,则注定掉败。那末你须要若干数据呢?你测验考试归入模子的身分越多,所须要的数据就越多,不管你是在做通俗的统计猜测、机械进修照样深度进修。
以发卖猜测中罕见的成绩为例,好比,为了不延迟交货,且不会占用太多金钱和现货货排挤间,那末你下个月将在迈阿密出售若干水师蓝短袖衬衫?和你须要在迈阿密店和亚特兰年夜仓库中贮备若干存活?批发是强季候性行业,所以你须要从多年的汗青数据中总结出有统计学意义的月度数据,从而修改月度销量动摇,并树立一个年化趋向——这还只是一个尺度的时光序列剖析。机械进修比统计模子须要更多的数据,而深度进修模子是它的好几倍。
统计模子会剖析你的全国连锁店在 5+ 年间的衬衫月销量,并应用这一数据来猜测下个月的衬衫销量,能够有几十万(假定是 30 万)。然后你可以猜测迈阿密的衬衫销量占全国销量的百分比(假定是 3%),并零丁猜测出蓝色短袖上衣销量所占衬衫性销量的百分比(假定是 1%)。该模子会指出,下个月蓝色短袖衬衫总销量的 90% 阁下将售于迈阿密。你可以经由过程比较分歧产物的年度同店销量来核实猜测成果,同时剖析它们之间的差别水平。
如今,假定你想要斟酌一些内部身分,好比气象和风行趋向。短袖衬衫在热天或好天时是否是比阴雨地利卖的更好?能够如斯。你可以将汗青气候数据归入到你的模子中来做猜测,固然如许做有点愚笨,由于你须要做一个时光序列的统计模子,所以你能够会决议应用回归丛林,趁便再尝尝其它 7 种回归机械进修模子,然后将每一个模子测得的「cost」(一个归一化误差函数)与客岁的现实成果比拟较,从而找到最好模子。
比拟于客岁同时段的水师蓝衬衫销量,下个月会更好照样更差?你可以看看水师蓝服装网www.vhao.net一切的月度销量,并猜测出年度风行趋向,然后将其归入到你的机械进修模子中。或许你能够须要来自时髦媒体方面的信息对模子停止手动校订。(「为以防万一,假定下月销量会进步 20%。」)
或许你想树立一个深度神经收集来完美这个模子。你能够会发明,每添加一个隐蔽层,便可以将回归误差进步几个百分点,直到某一时辰,再添加隐蔽层也杯水车薪,尔后收益递加。这类情形能够是由于形式中没有更多的特点可供辨认,或许更能够的缘由是,曾经没有足够多的数据来支撑模子的深刻改良。
你有足够的数据迷信家
能够你曾经留意到,单小我须要单独树立下面评论辩论的一切模子。其实不是如许,建模子不只仅是把数据倒在漏斗中然后按个按钮这么简略。不论你应用哪一种对象——虽然供给商能够对此会有请求,它须要经历、直觉、编程才能和优越的统计学配景,如许能力轻松驾御机械进修,从而完成你的设法主意。
特别是某些厂商常常宣称,「任何人」或「任何营业脚色」都可使用商家事后练习过、可运用的机械进修模子。假如该模子正好可以处理手头的成绩,这话不假,好比将正式的魁北克法语文本翻译为英语,但更罕见的情形是,现有的练习过的机械进修模子其实不实用于你的数据。既然你曾经练习了模子,你就须要数据剖析师和数据迷信家来指点练习,这更像是一门艺术,而非工程或迷信。
在雇用数据迷信家时,最奇异的工作之一就是对任务岗亭的请求,特别是与受聘者的现实技巧比拟。告白上常常说「雇用:数据迷信家。STEM 博士。20 年经历。」第一个怪事是,该范畴的成长过程还未足 20 年。第二件怪事是,公司雇佣 26 岁的硕士卒业生——也即除学术界外没有任何任务经历,与 20 年经历的请求相去甚远——偏好那些曾经有相干经历的人,由于他们担忧高等人员太贵,虽然他们的请求是 20 年任务经历。是的,这很虚假,且十之八九长短法的年纪轻视,但实际情形就是这个模样。
你跟踪或取得那些主要的身分
即便你有年夜量的数据和许多数据迷信家,你也能够没法具有包括一切相干变量的数据。以数据库术语的话说,你能够有年夜量的行,但缺乏一些列。统计学下去说就是,你能够有没有法说明的方差。
一些自力变量的丈量(好比气象不雅测)很轻易取得并被归并到数据集中,乃至可在过后被归并。其它一些变量的丈量或获得进程能够较为艰苦,好比不实在际或本钱昂扬,即便你晓得这些变量是甚么。
举一个化学范畴的例子。当你在铜上镀铅时,你可以丈量氟硼酸镀液的温度和浓度,并记载阳极电压,但假如溶中没有合适数目的肽链,那末你就不会获得很好的成果。假如你没有称量放入溶液中的肽链,就没法晓得这类症结催化剂的剂量,那末你将没法应用其它变量来说明电镀质量的变更。
你有清算和转换数据的办法
数据简直老是那末喧闹。丈量进程能够会丧失一个或多个值;单个值能够会超越规模,或与统一计量进程中的其它值不相当;电子丈量能够因为电噪声而变得禁绝确;答复成绩的人能够其实不懂得成绩自己,或是假造谜底;诸如斯类。
在任何剖析进程中,数据过滤步调平日须要消费最多设置时光——是依据我的经历,它占到总剖析时光的 80% 到 90%。有些公司在它们的 ETL(提取、转换和加载)进程中清算数据,如许剖析师应当永久都看到不良数据点了,而其它公司则将数据与 ETL(和最初一步的转换步调)进程放在数据仓库或数据湖中。这意味着,即便是最轻易过滤失落的脏数据也会被保留上去,实际上,过滤器和转换步调须要跟着时光的推移而停止改良。
即便是过滤后的准确数据能够也须要在剖析前做进一步的转换。与统计学办法一样,只要当每种能够的状况都有类似的行数时,机械进修模子的后果才最好,这意味着,那些最受迎接的状况数能够会因为随机抽样而削减;异样,当一切变量的规模都被尺度化后,机械进修模子能力到达最好后果。
例如在微软的一篇博文中,微软小娜剖析了特朗普和克林顿的竞选捐钱,解释了预备机械进修数据集的方法:创立标签、处置数据、设计附加功效和清洗数据。这类剖析用 SQL 和 R 说话做了几个转换,以肯定与克林顿或特朗普相干的各类委员会和竞选资金,并基于捐赠者的姓名来肯定他们的性别,和改正拼写毛病,并修复类之间的不屈衡性(数据集中有 94% 都是克林顿的捐钱,且年夜部门是小额捐钱)。
你曾经对数据做了统计剖析
在剖析数据息争决成绩时,最应当防止的就是一个劲地往前冲。在你可以或许弄清晰产生的工作及其缘由之前,你须要退后一步,看一看一切的变量及其互相之间的关系。
摸索性的数据剖析可以疾速显示出一切变量的规模和散布,好比变量对是趋势于彼此依附照样各自自力、簇位于何处,或哪些处所能够会有离群值。当你的变量高度相干,常常削减剖析进程中的某个变量是很有效的,或停止一些相似于慢慢多元线性回归的办法来肯定最好的变量选择。其实不是说终究模子是线性的,然则在引入艰苦成绩之前,测验考试一些简略的线性模子很有效;假如你的模子前提太多,那末你可以以一个超定组(overdetermined system)扫尾。
你测试很多办法来找到最好模子
关于一个给定的数据集,找到最好形式的办法只要一种:全体试一遍。假如你的建模对象之前曾经有许多人做过,但仍具挑衅性,好比摄影特点辨认和说话辨认,你能够忍不住只想测验考试年夜赛中的「最好」模子,但不幸的是,那些模子常常是最为盘算密集型的深度进修模子,好比图象辨认须要卷积层,语音辨认须要长短时间记忆层(LSTM)。假如你须要练习那些深度神经收集,你能够须要比平常办公所需的更多的盘算才能。
你有足够的盘算才能来练习深度进修模子
你的数据集越年夜,你的深度进修模子就须要越多的层,练习神经收集的时光也就越多。具有年夜量的数据可以赞助你练习出一个更好的模子,层数多可以赞助你辨认更多特点,但它们也会因为练习时光的增长而对你发生晦气的影响。你能够等不了一年的时光来练习每个模子;一周是比拟公道的,特殊是由于你将很有能够须要调剂几十次模子。
处理练习时光成绩的一个办法是应用通用图形处置器(GPGPU),好比应用英伟达公司临盆的芯片,来做有关神经收集层的向量和矩阵盘算(也称为线性代数)。比拟于仅仅应用一张 CPU,同时应用一张 GPU 和一个 CPU K80 常常可以晋升 5 到 10 倍的练习速度,假如你能将全部收集的「核(kernel)」输出到 GPU 的当地存储器中的话,而假如应用一张 P100 GPU,则可以将练习速度晋升 100 倍。
在一张 GPU+一张 CPU 的组合以外,你还可以树立多个 CPU 和 GPU 的调和收集,以便在更短的时光内处理更年夜的成绩。除非你全年都在练习深度进修模子,且有一个伟大的本钱预算,不然你会发明,租赁云端 GPU 的应用时光会是性价比最高的选择。一些深度进修框架,包含 CNTK,MXNet 和 TensorFlow,支撑 CPU 和 GPU 的并行盘算,关于有着合适机能 GPU 的年夜型虚拟机(virtual machine,VM)收集来讲,它们已被证实具有公道的缩放系数(在一个测试中年夜约为 85%)。你可以找到这些框架,而且它们正愈来愈多地被装置到由重要云供给商上支撑的 GPU 虚拟机中。
你的机械进修模子优于你的统计模子
简略的统计模子为你的机械进修和深度进修项目奠基了基本。假如你不克不及晋升一个给定的模子的机能,那末你就应当对其停止调剂或测验考试分歧办法。一旦你晓得你在做甚么,你便可以在一个超参数优化算法的掌握下,同时为很多模子设置练习参数,然后用最好的成果指点你的下一步行为。
你可以安排猜测模子
终究,你将愿望及时运用你所练习的模子。猜测模子可以运转在办事器、云端、小我盘算机或德律风上,这取决于运用法式的分歧须要。深度进修框架供给了各类选项来将模子嵌入到网页和挪动运用法式中。亚马逊、谷歌和微软都是经由过程临盆能懂得语音的花费级装备和智妙手机运用法式来证实其适用性。
你可以或许按期更新你的模子
假如你曾经应用本身的数据练习好了模子,你会发明该模子的误差率(假阳性和真阴性)会跟着时光的推移而增长。根本上,这是由于数据会跟着时光的推移而漂移:你的发卖模子、竞争敌手、作风和经济都邑转变。为了顺应这类影响,年夜多半深度进修框架都有一个选项,可以在新数据上对旧模子停止再练习,并用新模子调换猜测办事。假如你每个月都如许做,应当可以或许包管你不会遭到数据漂移的影响。假如你不克不及,那末你的旧模子终究将变得缺乏为靠。
回到本文开首的那些成绩,你晓得本身想要猜测或检测甚么吗?你有足够的数据停止剖析以树立猜测模子吗?你有界说模子和练习模子所需的人员和对象吗?你曾经有统计或物理模子来作为一个猜测基准吗?
假如已万事俱备,那你还在等甚么?