如今,各大在线旅游平台极大地方便了人们的出行,用户可以轻松完成酒店住宿和景点门票的预订。

国内外酒店民宿预订平台种类繁多
为了吸引更多用户,许多平台鼓励商家设定宽松的取消预订政策,例如随时免费取消或限时免费取消。
全球客房销售量最大的网上酒店预订网站凭借可免费取消的优势,受到大量用户的欢迎。
然而,对于酒店而言,订单被临时取消会带来不少困扰:
- 被取消的房间无法及时出售,导致酒店损失收入;
- 为了尽快出售这些房间,酒店可能需要降低价格,从而减少利润;
- 增加额外的宣传和分销渠道费用。
在用户可以随时取消订单的情况下,酒店是否有办法尽量减少损失呢?
一名具有超过五年酒店管理经验的业务分析师利用公开的欧洲酒店预订平台数据,发现了更容易取消订单的用户特点,以帮助酒店及时进行止损。
通过分析近12万条酒店预订数据,得出了相关规律。
作为数据科学的爱好者,他首先对一个包含普通酒店与度假酒店数据的需求数据集进行了全面分析。该数据集包括32个维度的信息,包含用户国籍、预订时间、住宿时间、成人和儿童的数量、订单是否取消等。
Hotel Booking demand
酒店预订需求数据集
发布机构:葡萄牙里斯本大学
包含数量:共119390条数据,32个维度
数据格式:csv
数据大小:16.9 MB(压缩文件1.3 MB)
地址:https://hypeR.AI/datasets/14866

部分数据展示
统计数据显示,取消酒店订单的用户数量相当可观。
2018年OTA平台的预订订单中,有49.8%的用户取消了订单;在HRS Group上,这一比例甚至达到了66%。整体来看,2018年多家平台的平均预订订单取消率为39.6%。

各类预订渠道被取消的订单比例
接下来的探索性分析揭示了几个发现:
- 普通酒店与度假酒店相比,订单更容易被取消;
- 春节和夏季的取消率较高,而冬季取消率最低;
- 用户在OTA平台下单的比例最高,同时在该平台上被取消的订单也最多;
- 用户预订时间越早,取消的概率越大。
分析还表明,预订时间是影响酒店收益的重要指标之一。提前一年以上预订的取消概率最高,达57.14%;而一周内预订的取消概率最低,仅为7.73%。

预订提前的天数与取消订单概率成正比
看来,计划越早,变化越难以控制。
在对数据集进行全面分析后,作者开始建立预测订单取消的模型。
第一步:数据清洗
首先,对数据集中缺失的值进行处理。数字变量的缺失值用均值替换,分类特征的缺失值则用常数替换。同时,删除预订状态变量,因为这是模型将要预测的值。
第二步:选择最佳模型
在测试最佳算法前,将数据集按8:2的比例分开,80%用于训练,20%作为验证集。预测订单取消被视为一个监督分类问题,因此选择了几个现有的二分类模型进行训练与对比,最终选出了表现最佳的CatBoost模型。
通过CatBoost的预测结果,得出以下几点:
- 如果用户的国籍是葡萄牙,取消订单的可能性较高,但团体订票时酒店通常无法获得每位用户的国籍信息;
- 未提出特殊要求的用户,相比于提出特殊要求的用户,取消订单的可能性更高;
- 预订时间与入住时间的间隔越小,取消的可能性越低。
CatBoost模型在验证集上的表现:

在整个「酒店预订需求」数据集上的表现:

酒店:在取消之前,我们可以采取措施减少损失。
使用这一预测模型,酒店能够提前识别可能取消订单的用户,从而及时采取补救措施。
例如,可以提前联系那些取消可能性较大的用户,进行沟通,促使他们尽早取消,以便酒店预留更多时间出售房间。
或者,也可以与有取消倾向的用户联系,向其介绍酒店的优势,提供入住奖励,努力留住他们。
