【促销定价】背后的算法技术3-数据挖掘分析

快过年了,【运筹匠心】祝大家龙年大吉,身体健康,事业顺利!!!

导读:在日常生活中,我们经常会遇见线上/线下商家推出各类打折、满减、赠品、新人价、优惠券、捆绑销售等促销活动。一次成功的促销对于消费者和商家来说是双赢的。一方面,促销活动能让消费者买到低价的商品;另一方面,促销活动也能为商家带来可观的利润。因此,对于商家来说,如何科学合理地制定促销策略是必须仔细思考的问题。


作者1:张哲铭,算法专家,某互联网大厂

作者2:向杜兵,算法专家,某制造业龙头


大家好!我们是IndustryOR团队,致力于分享业界落地的OR+AI技术。欢迎关注微信公众号/知乎【运筹匠心】 。本期我们来谈一谈《促销定价背后的算法技术》。促销活动五花八门、玩法多变,但其底层的核心商业逻辑是“价格”。因此,本期案例将选择某零售商超“促销定价”场景,共分5篇文章依次讲解:(1)业务问题拆解;(2)数据预处理生成;(3)数据挖掘分析;(4)模型算法实现-价格弹性模型;(5)模型算法实现-运筹决策模型。

本篇文章讲解(3)数据挖掘分析。

共分为4个部分,依次为:

01 整体分析

02 聚合分析

03 相关分析

04 聚类分析

05 核心结论

注:本案例数据改编自【2019年全国大学生数学建模E题】公开数据集。

01 整体分析

经过(2)数据预处理生成,我们将订单中的SKU销量聚合至日维度,生成了待分析求解的促销定价数据大宽表(promotional_pricing_data1.csv),表结构如下:

  • 促销定价数据大宽表
    字段含义
    sku_id商品ID
    sku_name商品名称
    ori_prc原价
    sale_prc售价
    cost_prc成本价
    sku_cnt销量
    cate1_id一级类目id
    cate2_id二级类目id
    cate3_id三级类目id
    cate1_name一级类目名称
    cate2_name二级类目名称
    cate3_name三级类目名称
    sale_dt销售日期

    1)整体概览

    我们发现,经过(2)数据预处理生成加工后的数据集共有1105365条样本,无空值。

    2)类别型特征概览

    3)数值型特征概览

    我们发现,数据共有3187种sku,1级品类26种、2级品类156种、3级品类565种。75%的商品售价不高于18.8、日销量不超过4个,但也有超过千元的高价品和销量过千的高销品。


    02 聚合分析

    为了进一步挖掘数据,我们分别在天维度、品维度、价格维度和数量维度对数据进行聚合分析。

    1)天维度

    统计每日的销量、GMV(销售额)、成本、毛利额、折扣率等信息,画出趋势图。

    # 各日期下的销量、GMV(销售额)、成本、毛利额、折扣率等
    data_df['gmv'] = data_df['sale_prc'] * data_df['sale_cnt']
    data_df['cost'] = data_df['cost_prc'] * data_df['sale_cnt']
    data_df['profit'] = data_df['gmv'] - data_df['cost']
    data_df['discount'] = 1 - data_df['sale_prc'] / data_df['ori_prc']
    data_df['discount_amount'] = data_df['ori_prc'] - data_df['sale_prc']
    ret_df = IOR_DP.group_agg(df=data_df, 
                              grp_cols=['sale_dt'], 
                              agg_dict={'sale_cnt': 'sum', 'gmv': 'sum', 'cost': 'sum',
                                        'profit': 'sum', 'discount': 'mean'})
    ret_df['profit_ratio'] = ret_df['profit_sum'] /  ret_df['cost_sum']
    ret_df = ret_df.sort_values(by='sale_dt')
    pic1 = ret_df.plot(x='sale_dt', y=['gmv_sum', 'cost_sum', 'profit_sum', 'sale_cnt_sum'],
                       secondary_y= 'sale_cnt_sum', title = '日gmv/成本/毛利额/销量趋势图',
                       kind='line', figsize=(20, 5), fontsize=18)
    pic2 = ret_df.plot(x='sale_dt', y=['profit_ratio', 'profit_sum', 'sale_cnt_sum'], 
                       secondary_y= 'profit_ratio', title = '日毛利率/毛利额/销量趋势图',
                       kind='line', figsize=(20, 5), fontsize=18)
    pic3 = ret_df.plot(x='sale_dt', y=['discount_mean', 'sale_cnt_sum'], secondary_y= 'discount_mean',
                       title = '日平均折扣/销量趋势图', kind='line', figsize=(20, 5), fontsize=18)
    plt.show([pic1, pic2, pic3])
    

    我们发现:

    • GMV、利润额与销量呈强正相关,销量越高,GMV、利润额越高。
    • 利润率与销量、利润额相关性不明显,有时利润率很低,但利润额很高;有时相反。这说明“降价促销”是存在赚钱的可能性的。
    • 折扣率与销量呈正相关,趋势相同,但并不是折扣率越高一定是销量越高,如:商家在5.4后大幅调低整体折扣,但销量不降反升。这说明精细化定价是可行的,在合理的折扣区间制定高销的价格,增加GMV和利润。

      2)品维度

      统计各级品类/sku下子品类宽度(子品类个数)、sku宽度(个数)、sku总销量、sku价格等信息,画出分布图。由于篇幅有限,这里只列出sku维度下相关代码。

      # 各sku历史价格数/总销量/日售价均值/售卖天数/日均销量分布
      ret_df = IOR_DP.group_agg(df=data_df, 
                                grp_cols=['sku_id', 'sku_name'], 
                                agg_dict={'sale_cnt': 'sum', 'sale_prc':  ['nunique', 'max', 'min', 'mean'], 
                                          'ori_prc': ['nunique', 'max', 'min', 'mean'], 'cost_prc':  ['nunique', 'max', 'min', 'mean']},
                                sort_dict={'sale_cnt_sum': 'desc'})
      ret_df = ret_df.head(50)
      pic1 = ret_df.plot(x='sku_name', y=['sale_prc_nunique', 'sale_cnt_sum'],
                         secondary_y= 'sale_cnt_sum', title = 'Top50总销量的sku的历史价格数/总销量(降序)分布',
                         kind='bar', figsize=(20, 5), fontsize=18)
      top_sku = ret_df['sku_name']
      ret_df = IOR_DP.group_agg(df=data_df, grp_cols=['sku_id', 'sku_name'], agg_dict={ 'sale_dt': 'count',  'sale_cnt': 'mean'},
                                sort_dict={'sale_cnt_mean': 'desc'})
      ret_df = pd.merge(left=ret_df, right=top_sku, how='inner', on=['sku_name'])
      pic2 = ret_df.plot(x='sku_name', y=['sale_dt_count', 'sale_cnt_mean'], secondary_y= 'sale_cnt_mean',
                         title = 'Top50总销量的sku的历史售卖天数/日均销量(降序)分布',
                         kind='bar', figsize=(20, 5), fontsize=18)
      ret_df = IOR_DP.group_agg(df=data_df, 
                                grp_cols=['sale_dt', 'sku_name'], 
                                agg_dict={ 'sale_prc': 'mean'},
                                sort_dict={'sale_dt': 'asc'})
      ret_df = pd.merge(left=ret_df, right=top_sku, how='inner', on=['sku_name'])
      ret_df = ret_df.pivot_table(values='sale_prc_mean', index='sale_dt', columns='sku_name').reset_index()
      pic3 = ret_df.plot(title = 'Top50总销量的sku日均售价均值分布', kind='box', rot=90, showfliers=False, figsize=(20, 5), fontsize=18)
      plt.xlabel('sku_name')
      plt.show([pic1, pic2, pic3])
      

      我们发现:

      • 不同品类下的子品类和sku数量差异较大。以3级品类下sku数为例:最少1个,最多63个,中位值3个;
      • 不同sku的价格带不同。以售价均值为例:最小0.8元,最大1100元,中位值13.80元。这说明定价时每个sku的价格区间需要精细化制定。

        3)价格维度

        统计不同价格区间下sku宽度、总销量、总gmv、总成本、总毛利,画出分布图。

        ret_df = data_df[['sale_prc', 'sku_name', 'sale_cnt', 'gmv', 'cost', 'profit']]
        ret_df['sale_prc_range'] = pd.cut(ret_df['sale_prc'], bins)
        ret_df = IOR_DP.group_agg(df=ret_df, 
                                  grp_cols=['sale_prc_range'], 
                                  agg_dict={'sku_name': 'nunique', 'sale_cnt': 'sum', 'gmv': 'sum', 'cost': 'sum', 'profit': 'sum'},
                                  sort_dict={'sale_prc_range': 'asc'})
        ret_df = ret_df.rename(columns={'sku_name_nunique':'sku_cnt'})
        pic1 = ret_df.plot(x='sale_prc_range', y=['sku_cnt', 'sale_cnt_sum', 'gmv_sum', 'cost_sum', 'profit_sum'], 
                           secondary_y = 'sku_cnt', kind='bar', title='不同价格区间下sku宽度/销量/GMV/成本/毛利分布', 
                           figsize=(20, 5), fontsize=18)
        plt.show(pic1)
        

        我们发现,绝大部分sku的价格分布在20元以下,5-10元区间的sku占比最多。

        4)数量维度

        分别统计不同历史售卖天数和不同历史价格数下的sku宽度分布,画出分布图。

        # 不同历史售卖天数下sku宽度分布
        ret_df = IOR_DP.group_agg(df=data_df, grp_cols=['sku_id', 'sku_name'], agg_dict={ 'sale_dt': 'count'})
        ret_df = IOR_DP.group_agg(df=ret_df, grp_cols=['sale_dt_count'], agg_dict={ 'sku_id': 'count'}, sort_dict={'sale_dt_count':'asc'})
        ret_df = ret_df.head(70)
        pic1 = ret_df.plot(x='sale_dt_count', y='sku_id_count', kind='bar', 
                          title='不同历史售卖天数下sku宽度分布', figsize=(20, 5), fontsize=18)
        plt.show(pic1)
        # 不同历史价格数下sku宽度分布
        ret_df = IOR_DP.group_agg(df=data_df, grp_cols=['sku_id', 'sku_name'], agg_dict={ 'sale_prc': 'nunique'})
        ret_df = IOR_DP.group_agg(df=ret_df, grp_cols=['sale_prc_nunique'], agg_dict={ 'sku_id': 'count'}, sort_dict={'sale_prc_nunique':'asc'})
        pic1 = ret_df.plot(x='sale_prc_nunique', y='sku_id_count', kind='bar', 
                          title='不同历史价格数下sku宽度分布', figsize=(20, 5), fontsize=18)
        plt.show(pic1)
        

        我们发现:不同sku的历史价格数量不同,绝大部分的sku历史价格数量只有1个。针对该现象需要进一步分析,有2种可能:

        • 这部分商品为低价格弹性商品,即价格改变不会引起销量的变化;
        • 这部分商品是高价格弹性商品,但商家未进行太多的促销价格尝试,这会导致这部分商品精细化定价时样本不足,需要思考如何解决该问题。

          03 相关分析

          针对1级品类/2级品类/3级品类/sku,分别计算售价/折扣比例/折扣额与日销量间的pearson相关性系数,画出分布图。

          1)1级品类

          cate_level = 'cate1_name'
          corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)
          feature_cols = list(corr_df.columns)[1:]
          corr_df = corr_df.sort_values(by=feature_cols, ascending=[True] * len(feature_cols))
          pic1 = corr_df.plot(x=cate_level, y=feature_cols, title = '1级品类售价/折扣比例/折扣额与日销量相关性',
                              kind='bar', figsize=(20, 5), fontsize=18)
          

          2)2级品类

          cate_level = 'cate2_name'
          ret_df = IOR_DP.group_agg(df=data_df, 
                                    grp_cols=[cate_level], 
                                    agg_dict={'sale_cnt': 'sum'},
                                    sort_dict={'sale_cnt_sum': 'desc'})
          ret_df = ret_df.head(50)
          corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)
          corr_df = pd.merge(left=ret_df, right=corr_df, how='inner', on=[cate_level])
          feature_cols = list(corr_df.columns)[2:]
          corr_df = corr_df.sort_values(by=feature_cols, ascending=[True] * len(feature_cols))
          pic1 = corr_df.plot(x=cate_level, y=feature_cols, title = 'Top50销量的2级品类售价/折扣比例/折扣额与日销量相关性',
                              kind='bar', figsize=(20, 5), fontsize=18)
          

          3)3级品类

          cate_level = 'cate3_name'
          ret_df = IOR_DP.group_agg(df=data_df, 
                                    grp_cols=[cate_level], 
                                    agg_dict={'sale_cnt': 'sum'},
                                    sort_dict={'sale_cnt_sum': 'desc'})
          ret_df = ret_df.head(50)
          corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)
          corr_df = pd.merge(left=ret_df, right=corr_df, how='inner', on=[cate_level])
          feature_cols = list(corr_df.columns)[2:]
          corr_df = corr_df.sort_values(by=feature_cols, ascending=[True] * len(feature_cols))
          pic1 = corr_df.plot(x=cate_level, y=feature_cols, title = 'Top50销量的3级品类售价/折扣比例/折扣额与日销量相关性',
                              kind='bar', figsize=(20, 5), fontsize=18)
          

          4)sku

          cate_level = 'sku_name'
          ret_df = IOR_DP.group_agg(df=data_df, 
                                    grp_cols=[cate_level], 
                                    agg_dict={'sale_cnt': 'sum'},
                                    sort_dict={'sale_cnt_sum': 'desc'})
          ret_df = ret_df.head(50)
          corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)
          corr_df = pd.merge(left=ret_df, right=corr_df, how='inner', on=[cate_level])
          feature_cols = list(corr_df.columns)[2:]
          corr_df = corr_df.sort_values(by=feature_cols, ascending=[True] * len(feature_cols))
          pic1 = corr_df.plot(x=cate_level, y=feature_cols, title = 'Top50销量的sku售价/折扣比例/折扣额与日销量相关性',
                              kind='bar', figsize=(20, 5), fontsize=18)
          

          我们发现,不同品类/sku的售价/折扣比例/折扣额与日销量间相关性差异极大。如:

          • 对于可口可乐、散装东北大米等长保质期商品来说,售价越低/折扣比例越大/折扣额越大,销量越高。可能是因为该类商品可以囤货。
          • 对于进口香蕉、土鸡蛋等生鲜品来说,售价越低/折扣比例越大/折扣额越大,销量越高。可能是因为该类商品日常消耗较快。
          • 对于红枣风味酸牛奶等短保质期商品来说,售价越低,销量越高;折扣比例/折扣额和销量呈负相关,但相关性不大。可能是因为该类商品一旦打折就意味着临近保质期,大家不愿意购买。
          • 对于伊利高钙奶等高品质商品来说,则售价越高,销量越高,但相关性不大。可能是因为该类商品价格越高品质越佳。

            因此,在促销定价时,需要根据不同的sku制定不同的定价策略。


            04 聚类分析

            根据03节计算出来的3级品类平均售价/折扣比例/折扣额与日销量间的相关性系数,对3级品类进行聚类,画出聚类图。

            cate_level = 'cate3_name'
            corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)
            n_clusters = 4
            x_cols = list(corr_df.columns)[1:]
            x_df = corr_df[x_cols]
            from sklearn.cluster import KMeans#导入聚类模型
            model1=KMeans(n_clusters=n_clusters, n_init=1000).fit(x_df)#聚成3类传入自变量
            model1.labels_.size
            corr_df['label']=model1.labels_
            # 3D
            fig =plt.figure(figsize=(20, 10))
            ax = Axes3D(fig)
            pic2 = ax.scatter(xs=corr_df['sale_prc&&sale_cnt'], ys=corr_df['discount&&sale_cnt'], cmap='jet',
                       zs=corr_df['discount_amount&&sale_cnt'], c = corr_df['label'], alpha=1)
            ax.set_xlabel('sale_prc&&sale_cnt', color='r')
            ax.set_ylabel('discount&&sale_cnt', color='g')
            ax.set_zlabel('discount_amount&&sale_cnt', color='b')
            plt.title('售价/折扣比例/折扣额与日销量相关性分类图')
            plt.show(pic2)
            

            经过实验我们发现,聚4类即可将样本较好的分开,聚类结果也符合业务常识。详情如下:

            • label=0分类的3级品类,平均售价与日销量弱负相关,折扣比例/折扣额与日销量弱正相关,多为保质期较长,购物频次一般的品类,如:‘一次性内裤’, ‘丸类’, ‘乌龙茶饮品’, ‘冰冻贝类’, '冰淇淋’等。
            • label=1分类的3级品类,平均售价与日销量强负相关,折扣比例/折扣额与日销量强正相关,多为保质期较短,购物频次较高的品类,如:‘中式点心’, ‘低温加味牛奶’, ‘可乐’, ‘叶菜类蔬菜’, ‘吐司类’, ‘国产季节性水果’, ‘国产梨类’ '婴儿卫生用品’等。
            • label=2分类的3级品类,平均售价与日销量强负相关,折扣比例/折扣额与日销量强不相关,多为购物频次一般,但平时很少有折扣促销的品类,如:‘其他冲饮粉’, ‘其他肉干’, ‘其他进口洋酒’, ‘名酒’, '味精’等。
            • label=3分类的3级品类,平均售价/折扣比例/折扣额与日销量强均不相关,多为购物频次较低,平时也很少有折扣促销的品类,如:‘LED灯泡’, ‘一口酥/酥饼’, ‘一次性卫生筷’, ‘一次性塑料口杯’, ‘一次性手套’, ‘一次性纸口杯’, '一次性纸碗’等。

              05 核心结论

              综上诉说,我们利用数据挖掘技术,从各个维度较为全面的分析了数据的全貌,并深度挖掘了价格/折扣和销量之间的关系。最终,我们得到了一个核心结论:不同的sku的价格/折扣与销量之间的关系不同,促销定价做的越精细,效果越好。而精细化正是算法相较人工的优势所在。


              06 小结

              第一篇(业务问题拆解):我们把一个实际的促销定价问题拆解成了一系列的数学问题。

              第二篇(数据预处理生成):我们选择了一份公开的促销定价数据集,将其加工成了可分析求解的数据。

              本篇(数据挖掘分析):我们对数据进行了全方位的挖掘和分析,介绍了数据挖掘分析和可视化方法。敬请期待~~~

              下一篇(价格弹性模型):我们将介绍如何利用价格弹性模型量化商品价格与销量的关系。敬请期待~~~


              06 代码获取方式

              大家将推文转发朋友圈获X赞,截图发后台,管理员会定期回复数据代码连接哈~~~

              获20赞 :获取 本篇代码地址

              我们是**【运筹匠心】** ,咱们下期见~~~


              07 加粉丝群方式

              粉丝1群二维码:

              加不了群,请加管理员微信:IndustryOR


              参考文献
              1. Hua J, Yan L, Xu H,et al. Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and Multi-Period Optimization Approach[J]. arxiv, 2021.(https://arxiv.org/pdf/2105.08313.pdf)
              2. Kui Zhao, Junhao Hua, Ling Yan, et al. A Unified Framework for Marketing Budget Allocation[J]. arxiv, 20.(https://arxiv.org/pdf/1902.01128.pdf)
              3. 用相关系数进行Kmeans聚类,利用利润率、打折率、销售额、毛利润得到商品价格弹性标签,建立价格折扣力度模型(https://blog.csdn.net/weixin_45934622/article/details/114382037)
              4. 2019全国大学生数学建模竞赛讲评:“薄利多销”分析(https://dxs.moe.gov.cn/zx/a/hd_sxjm_sxjmstjp_2019sxjmstjp/210604/1699445.shtml)
              5. 策略算法工程师之路-基于线性规划的简单价格优化模型(https://zhuanlan.zhihu.com/p/145192690)