data:image/s3,"s3://crabby-images/5c0a2/5c0a2c1a9aaaa58154a8236da714898430112c78" alt="网络数据采集技术:Java网络爬虫实战"
2.8 日期和时间处理
java.util包提供的处理日期和时间的类有SimpleDateFormat、DateFormat、Date以及Calendar。其中,SimpleDateFormat和DateFormat类用来实现日期和时间的格式化,常使用的方法有format(Date date)和parse(String source);Date类主要处理指定格式的时间;Calendar类主要用于年月日类型数据的转换。
在采集数据时,不同网站的时间使用格式可能不同。而不同的时间格式,会为数据存储以及数据处理带来一定的困难。例如,图2.13所示为某汽车论坛中的时间使用格式,包含“yyyy-MM-dd”和“yyyy-MM-dd HH:mm”两种格式;图2.14所示为某新闻网站中的时间使用格式为“yyyy-MM-dd HH:mm:ss”。
针对汽车论坛中的“yyyy-MM-dd”和“yyyy-MM-dd HH:mm”格式,可以统一转化成“yyyy-MM-dd HH:mm:ss”格式,以方便数据存储以及后期数据处理,如程序2-14所示。在程序2-14中,parseStringTime()方法的作用是将字符串类型的时间标准化成指定格式的时间,这里通过调用DateFormat类中的parse()方法和format()方法来实现。
data:image/s3,"s3://crabby-images/b232c/b232c6c70b8bc32111b81bfb10fc024fc9ebbdce" alt=""
图2.13 某汽车论坛中的时间使用格式
data:image/s3,"s3://crabby-images/231b8/231b8c19b1cbfd754fbee8807585548a16b99f89" alt=""
图2.14 某新闻网站中的时间使用格式
程序2-14
data:image/s3,"s3://crabby-images/0f836/0f8366ef04d4ab6e0053db982d68dba124542e00" alt=""
data:image/s3,"s3://crabby-images/783c9/783c9ae347bd2ffc797835d2fb0d71403d6586e4" alt=""
图2.15所示为程序2-14的输出结果。
data:image/s3,"s3://crabby-images/a5c98/a5c98594ccb84ac42c89b9cf06eb419b29b48be4" alt=""
图2.15 格式化时间
另外,采集数据时,通常需要记录每一条数据的采集时间。图2.16所示为采集的汽车销量数据,字段craw_time表示采集每条记录的时间信息。程序2-15给出了获取当前时间的一个通用方法。在该方法中,使用了Date类的无参构造方法创建了一个Date对象,进而获取当前时间。
程序2-15
data:image/s3,"s3://crabby-images/bc486/bc486c0e4cf5f8ad03dbf3e120eb6f0963309391" alt=""
data:image/s3,"s3://crabby-images/04317/043170031c2378ac2c87d484c93de7c2dc5fa609" alt=""
图2.16 采集的汽车销量数据
再者,一些网站的时间格式为UNIX时间戳(即从1970年1月1日开始经过的秒数)。图2.17所示为国外某艺术品网站,基于浏览器抓包(下一章中讲解),发现该网页的时间格式为UNIX时间戳,如图2.18所示。为将UNIX时间戳转化为指定格式的时间,需要构造一个通用的方法,如程序2-16所示。
程序2-16
data:image/s3,"s3://crabby-images/78a5e/78a5ed19142f1eacc75e446fa62fc827e4e21ef4" alt=""
data:image/s3,"s3://crabby-images/4e2ec/4e2ec5c830a588306a004ee0de91ec635d4fd053" alt=""
图2.17 国外某艺术品网站
data:image/s3,"s3://crabby-images/8b906/8b9067f167765321ec85e9207ba1ad8687452527" alt=""
图2.18 网页中的UNIX时间戳