手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
一觉醒来,东大文学部研究生许秀穿越到了泡沫刚破裂不久的东京。此时的日本经济萧条,民众迷茫,而唯一能慰藉心灵的文学却仿佛被人截断了一般。没有夏目漱石,没有川端康成,没有村上春树......这个时代的日本文学被一群许秀从未听过的低劣作家所统治。于是他拿起钢笔,为了生计,为了一段有趣且有意义的新人生,写下了一本名为《且听风吟》的中篇小说。至此,人们意识到,泡沫时代配的上文豪名号的作家终于出现了。...
“你在影迷心中是新一代的功夫巨星,但在女星心中却是恶魔,大家都说你是业界败类,娱乐圈的毒瘤,演艺界的害群之马,带坏了整个香江娱乐圈的风气,对此,你怎么看?”面对记者采访,王云轩郑重强调:“娱乐圈的风气本来就是歪的,绝不是我带坏的!”“娱乐圈的风气本来就是我带坏的,王京是跟我学坏的!”第二天,香江各大报纸竞相报道潜规......
一个美的不可方物的女人,她一路走来,无不充满着甜酸苦辣。她一生之中先后离过四次婚。她每次的快乐都是在短暂中度过,而痛苦、孤独、沉默、恼心一起向她拥来,有时她想到的是死!当另一个人出现之时,她才重新燃起了心中那一团火……......
[综武侠]越山歌作者:梦里眠文案宋乐和只在网上听说过性别流体这种概念,据说是一种心理上的性别认同。那个时候他可从来没想过自己这个淳朴男性会和这个’性别流体‘有什么关联。直到他眼一闭一睁,穿越到其他世界之后,自己也成了这个传说中的’性别流体‘。只不过他原来世界的’性别流体‘指的是心理上的认同,可他现在,面对的却是生...
《人鱼陷落by麟潜》人鱼陷落by麟潜目录全文阅读,主角是白楚年厄里斯小说章节完整质量高,包含结局、番外。? 《人鱼陷落》作者:麟潜文案:主线剧情结束,支线番外填坑中!【请二刷的朋友们不要在评论区剧透哦,照顾一下新读者的阅读体验Σ(〃°w°〃)?→】本文20200717入v我必须把他抱回家养殖起来,家里没有浴缸和大盆,于是不得不把他暂时放进洗衣机里。一个小时后我才重新记起这件事,此时他已经被洗得很干净。...
沈易遥在末世艰难求生十年,终于等来了二次异能觉醒的机会,却惨遭同伴背叛,命丧黄泉。再睁眼……一片荒芜只剩绝望的世界不见了;满是雾霾污浊不堪的空气不见了;恐怖血腥令人作呕的丧尸不见了;尔虞我诈背后捅刀的同伴不见了。只不过……眼前这位帅哥是谁?为什么掐她的脖子?...