官术网_书友最值得收藏!

2.1.4 時間特征

時間特征廣泛存在于各種實際的數據集中,比如交易產生的時間、用戶上線時間、歌曲播放時間、用戶分享文章的時間等。原始的時間特征通常以字符串的形式表示,比如“2019年4月10日17點29分”;或者以時間戳的方式表示(BigInt),比如“1451664824123”。Sophon中提供了格式化時間日期的算子,可以將原始時間特征轉化成格式化的時間日期類型值(比如Spark提供的DateType和Timestamp-Type)。


原始時間特征與機器學習的目標通常沒有直接關聯,因此需要進行特定的變換。我們把有關時間特征的提取方法大致分為以下三類:


? 連續型變換:比如計算用戶聽一首歌的持續時間,或者計算兩個交易之間的時間間隔等。這類變換輸出一個連續型的值,計算方法通常是求兩個時間戳的差。

? 離散型變換:比如提取出日期中的年份、月份、季度和星期幾等。

? 提取時間窗口:比如我們需要得到過去一周的交易數據,則可根據交易時間這一特征對數據進行過濾,最終得到時間窗口內的記錄。

主站蜘蛛池模板: 西乡县| 凤翔县| 嘉峪关市| 鄂伦春自治旗| 宁河县| 威海市| 晴隆县| 林口县| 衡南县| 永靖县| 南京市| 焦作市| 河池市| 容城县| 赞皇县| 南靖县| 武夷山市| 晋中市| 光泽县| 清远市| 贵溪市| 额尔古纳市| 临海市| 溧阳市| 晋城| 肥乡县| 米林县| 秀山| 田东县| 衡水市| 炉霍县| 大余县| 年辖:市辖区| 修武县| 达拉特旗| 塘沽区| 仁化县| 浮梁县| 策勒县| 涞水县| 昭平县|