representation(表示 (Representation):良好特征的特点)

时间:2023-08-13 22:17:08 阅读:7

表现 (Representation):精良特性的特点

我们探究了将原始数据映射到切合特性矢量的办法,但这只是事情的一局部。如今,我们必需探究什么样的值才算这些特性矢量中精良的特性。

制止很少使用的散伙特性值

精良的特性值应该在数据会合显现约莫 5 次以上。如此一来,模子就可以学习该特性值与标签是怎样关联的。也就是说,多量散伙值相反的样本可让模子天然会了解不同设置中的特性,从而推断何时可以对标签很好地做出猜测。比如,house_type 特性约莫包含多量样本,此中它的值为 victorian

?house_type: victorian

相反,假如某个特性的值仅显现一次大概很少显现,则模子就无法依据该特性举行猜测。比如,unique_house_id 就不适互助为特性,由于每个值只使用一次,模子无法从中学习任何纪律:

?unique_house_id: 8SK982ZZ1242Z

最好具有明晰明白的涵义

每个特性关于项目中的任何人来说都应该具有明晰明白的涵义。比如,底下的房龄适互助为特性,可立刻识别是以年为单位的房龄:

?house_age: 27

相反,关于下方特性值的涵义,除了创建它的工程师,其他人恐怕辨识不出:

?house_age: 851472000

在某些情况下,杂乱的数据(而不是糟糕的工程选择)会招致涵义不明晰的值。比如,以下 user_age 的泉源没有反省值得当与否:

?user_age: 277

实践数据内不要掺入特别值

精良的浮点特性不包含超出范围的特别断点或特别的值。比如,假定一个特性具有 0 到 1 之间的浮点值。那么,如下值是可以承受的:

?quality_rating: 0.82 quality_rating: 0.37

不外,假如用户没有输入 quality_rating,则数据集约莫使用如下特别值来表现不存在该值:

?quality_rating: -1

为处理特别值的成绩,需将该特性转换为两个特性:

  • 一个特性只存储质量评分,不含特别值。
  • 一个特性存储布尔值,表现对否提供了 quality_rating。为该布尔值特性指定一个称呼,比如 is_quality_rating_defined

思索高明不安定性

特性的界说不应随时间产生厘革。比如,下列值是有效的,由于都市称呼寻常不会改动。(注意,我们仍旧必要将“br/sao_paulo”如此的字符串转换为独热矢量。)

?city_id: "br/sao_paulo"

但搜集由其他模子推理的值会产生分外本钱。约莫值“219”现在代表圣保罗,但这种表现在将来运转其他模子时约莫容易产生厘革:

?inferred_city_cluster: "219"

版权声明:本文来自互联网整理发布,如有侵权,联系删除

原文链接:https://www.yigezhs.comhttps://www.yigezhs.com/wangluozixun/33606.html


Copyright © 2021-2022 All Rights Reserved 备案编号:闽ICP备2023009674号 网站地图 联系:dhh0407@outlook.com