【财务数据价值链】第四步、第五步:数据探索与数据算法

2022-10-20 10:28

微信图片_20221021115601.jpg


在上一篇文章《财务数据价值链的第三步:数据清洗》中,我们为大家介绍了数据清洗的重要性、步骤以及方法,本篇文章将围绕数据价值链的第四步和第五步——数据探索与数据算法展开。通过探索数据的特征与分布,利用算法开展对海量数据的处理与分析,可以挖掘出更多的潜在信息,驱动科学决策,释放数据的真正价值。


微信图片_20221021115618.jpg

▲ 财务数据价值链的六个基本步骤


何为数据探索与数据算法?


数据探索的原理与应用


数据探索是运用专业的统计方法对数据的特征与分布进行呈现,以基础分析方法获得对于数据的初步认识,帮助财务人员掌握数据的特征、关联性及分布规律。数据探索主要包括描述性统计、推断性统计和相关性统计三个方面。描述性统计从集中趋势、离散趋势、分布形态三个方面对数据整体特征进行刻画,推断性统计根据获得的样本数据对所研究的总体特征进行推断,相关性统计则是对两个或两个以上随机变量之间的相关关系的研究。数据探索是数据价值链中对数据的初步分析,通过数据探索不仅可以更加凸显数据的特征,逐步形象化数据的变化趋势,有效衡量指标水平,还能够发现企业存在的问题,并挖掘出产生问题的原因,采取相应措施及时解决,为下一步的数据算法工作打造良好的基础。


微信图片_20221021115623.jpg

▲ 数据探索的内容及步骤


数据算法的原理与应用


数据算法是基于数据创建算法模型的计算过程,对海量数据开展深度信息挖掘,从而在经营管理中发挥数据的深度价值。算法可以从数据中“学习”或对数据集进行“拟合”,不同的算法对应着企业不同的信息需求,数据算法是数据价值链中的核心环节,面向业务需求,将采集、清洗后的数据由浅入深地进行价值挖掘,发挥数据的作用,赋能企业财务的数字化转型。常见的数据算法包括分析因果关系的回归算法,用于分类的分类算法和聚类算法,研究事物发展趋势的时间序列算法,以及发现事物关联的关联规则算法等。


微信图片_20221021115627.png

▲ 常见的算法模型


数据算法在财务领域的应用


不同算法依据自身的特性在不同场景、不同应用目标下发挥作用。在具体决策场景下,需要从应用目标出发,基于数据集和实际情况,选择契合度最高的算法。同时,在使用过程中,也需要充分考虑问题的实际情况,以算法为工具,服务于经营决策。下面列出三个典型场景,说明常见算法在财务领域的实际应用。


场景一:应收账款信用风险管理


某通信解决方案提供商A为电信运营商、政企客户和消费者提供技术与产品解决方案。该企业的项目普遍周期较长,造成了较长的应收账款回款周期和较大的资金占用,进而导致较高的信用风险,对方履行到期债务的不确定性增大。财务部门希望根据客户资信情况,确定其授信额度(给予客户的最大延期支付限额),对于资信情况表现不佳的客户,降低授信额度,改善应收账款回收情况。


1. 模型选择


财务部门选择分类算法中的Logistic回归算法构建客户违约(不履行到期债务)概率模型,设计信用与财务评级体系,并在此基础上建立授信额度计算模型。


微信图片_20221021115630.jpg

▲ 授信额度计算模型


2. 模型应用


构建违约概率模型。首先,以企业历史客户数据为样本,其中的70%为训练集,20%为测试集,剩余10%为验证集,运用Logistic回归算法构建违约概率模型。其次,从区域经济环境、公司治理、财务风险三个维度出发,选取公司规模、运营实力、盈利能力、偿债能力、现金流、社会责任等维度作为影响客户违约概率的因素,形成模型训练的参数。最后,利用训练集初步构建违约概率模型,通过测试集和验证集反复测验模型的有效性并进行调优,以构建出最终的违约概率模型。通过该模型,可计算得出违约概率p,从而得到T1。


计算最终授信额度。进一步地,根据客户的资信情况进行信用评级和财务评级,从而得到信用评级调整系数(T2)、财务授信额度(X),最终通过授信额度计算模型(L=T1*T2*X)得出不同客户的授信额度,实现对应收账款的信用风险进行管理,提升应收账款周转效率,改善经营现金流量。


场景二:销售量与订货量预测


某餐饮企业B过去依靠往日经验来决定每日的食材订货量,然而,由于经验不足,总是无法保证精准订货,导致门店的采购成本增加,每月利润难以保持稳定。实际上,每日食材的订货量应取决于每日各菜品的销售量,因此,科学预测每日销售量是精准配备食材、降低门店运营成本及提高门店利润率的关键。基于此,企业B希望可以根据旗下某门店各菜品的历史销售量,预测未来一周内的销售量。


1. 模型选择


从历史数据来看,门店销售量受季节更替因素的影响,大致依照一个固定周期大致呈规则性变化,因此,该门店选择应用时间序列算法中的ARIMA模型,以设计构建销售量预测模型,并应用规则模型将一些非常规因素也考虑进预测中。


微信图片_20221021115634.jpg

▲ 销售量与订货量预测模型


2. 模型应用


基础预测:该门店收集了自开业以来各菜品的销售量历史数据,运用ARIMA模型,调整目标参数,不断修正优化,构建出销售量的基础预测模型,基于历史数据推断出未来各菜品的销量走势。


调节预测:因为新菜品上市、促销活动、周边同类门店变动、学校/工厂/商圈人流变动及停水停电等突发事件也会对销售量产生影响,所以门店通过搜集、分析这类非常规因素,利用规则模型调节预测量并校正基础预测模型,进而获得准确性和合理性更高的最终预测模型。


自动预测,支持决策:基于以上销售量预测模型,帮助餐饮企业完成各菜品销售量的科学预测,进而精准、合理地预订食材,促进以销定产、产销结合,降低企业的综合运营成本,提升门店的营业利润率。同时,科学的销售量预测,也确保了食材的新鲜度,提高了门店的服务质量和顾客满意度。


场景三:潜在流失客户画像


某商业银行C从二季度开始频繁出现存量客户理财资产减少、账户交易活动次数下降、销户客户数量增加等问题,存量客户的流失率同比增长30%。而银行新开发客户的成本远高于存量客户的营销成本,因此,实现对客户流失率的精准测算和及时控制是十分必要的。经该调研得知,产品利率、银行服务等因素构成了客户流失的主要原因。该银行希望联合业务部门和财务部门,通过数据算法实现对客户特征的洞察与分析,预测出潜在流失的客户群体,并为其提供差异化的营销及管理方案。


1. 模型选择


历史流失客户数据和现有客户数据均呈现出维度多、目标类别未知及特征相似度高等特点,因此,该商业银行选择利用K-means(K均值,聚类算法)算法对潜在流失客户群体进行特征挖掘,根据客户的年龄、资产数额、消费偏好等数据将客户分群,从不同的维度对客户进行画像,预测出未来一年内可能会流失的客户群体与客户数量。


2. 模型应用


聚类建模:从该银行实体数据库中采集半年内的业务数据样本,从客户属性、资产、持仓产品、交易笔数、交易方式、投资偏好、投资收益、消费能力等多个维度进行描述,并对样本中多个异常数据进行清洗处理,使用K-means函数对样本数据聚类建模,得到的潜在流失客户数量以及客户分布情况。


微信图片_20221021115637.jpg

▲ 潜在流失客户群体分类


客户画像刻画:基于聚类分析的结果,首先,总结出三类特征最为明显潜在流失客户群体,得到流失客户的特征规律。其次,依据三组客户群体的特征维度,以客户属性、投资偏好、发展空间、风险接受度等特征对各群组客户进行全方位维度的刻画,完成对每一位客户的特征洞察和价值挖掘。


营销策略制定:根据客户画像及时预警客户的流失风险,并从客户的需求出发,制定个性化、差异化的营销策略。通过风险预警及个性化营销方案,合理配置资源,帮助客户实现价值最大化,提高客户的满意度和忠诚度,延长客户的生命周期,从而实现对银行存量客户数量的维持。


数据分析常用工具


数据分析的建模计算十分复杂,仅仅依靠人工无法顺利完成,需要采用合适的工具辅助进行分析。常见的数据分析工具包括Excel、SQL、SPSS、SAS、Python、R等。其中,Excel虽能够满足日常办公的基本功能,但不能非常有效处理大型的数据,而SAS、Python、R这类传统的数据分析工具虽然功能强大,但具有一定的技术门槛,往往需要使用者具备一定的编程能力。随着企业对数据分析需求的不断增加,以算子平台为代表的面向财务人员的人工智能大数据平台应运而生。借助算子平台,财务人员即便不懂编程,也能得心应手地开展数据分析。


算子平台将独立的数据处理逻辑和建模计算能力抽象为一个个算子。简单来说,算法中的一个函数、几行可以重复使用的代码、一个数学中的平方操作都可以认为是“算子”,算子即进行某种“操作”。算子平台对机器学习算法组件进行了封装,故使用者在进行数据分析时,无需编写代码,通过对算子的自由拖拽、编排和可视化配置,构建算子流,便可满足使用者数据清洗、计算、分析、建模等需求。


微信图片_20221021115642.jpg

▲ 中兴新云财务算子平台操作界面示意图

立即联系中兴新云,实现财务数字化