大数据处理实训平台介绍.docx
金蝶大数据处理平台 3.3.大数据处理平台功能介绍 3.3.1 大数据采集 1、Python 采集 平台内置多种类型互联网数据采集模块,包括上市公司财务报表的采集、电商平台数据 采集等。例如通过企业财务报表和多企业财务报表采集两个子功能模块实现对单一或多个上 市公司的财务报表进行采集,支持用户自行设置数据源地址、公司名称、报告类型、报表年 份等参数,获取需要的财报数据。 例如通过电商平台评论数据和电商产品列表数据两个子功能模块可实现对唯品会上产 品评论数据和产品列表数据的采集,支持用户自行设置商品详情页链接、商品关键字、排序 方式等参数。 数据采集模块保留了可拓展的自定义 Python 爬虫采集子功能模块,用户可按说明要 求自行编写 Python 代码实现数据采集,平台通过预留输出接口可进行数据的可视化输出, 并保存数据为 excel 格式。 2、其他方式采集 通过异构系统数据采集和自定义报表两个功能子模块实现其他方式数据采集,具体包括 数据库、文件以及自定义表格数据采集。其中数据库文件可支持 mysql、sql server、 oracle、access 类型;可支持的文件类型包括 excel、txt 格式;自定义报表可以新建表格, 自行设置表名、字段、行数据等。 3.3.2 大数据预处理 1、数据清洗 数据清洗的结果是对重复、错误、残缺、噪音等问题数据进行对应方式的处理,得到 标准、连续的数据,以便进一步进行数据统计、数据挖掘分析等。金蝶大数据处理平台可对 上传的 excel 表格的数据进行数据清洗,可自行添加多种清洗规则,包括数据去重、非法字 符清理、数据删除、字符替换\分割\合并、缺失值插补等。清洗完成后可在数据预览下下载 处理好的数据表格。 2、数据转换 数据转换是将数据转换成规范、结构化的形式,以便更好地理解和处理。数据转换模块 可对上传的 excel 表格中的数据进行数据转换,实现字段精度统一、日期格式转换和数据转 置等功能,将数据转化为适当的形式,以便之后数据挖掘分析等需要。数据转换完成后在数 据预览下可下载处理好的数据表格。 3、 Python 数据处理 除上述内置处理功能模块,平台保留了可拓展的自定义数据处理模块,由用户自行输 入处理代码,对选择上传的数据源进行处理,代码执行中的过程及问题可以在输出控制台模 块进行查询,通过预留输出接口可进行数据的可视化输出,或下载保存数据为 excel 格式。 3.3.3 大数据可视化 金蝶大数据处理平台的大数据可视化模块采用金蝶企业级数据分析平台,平台基于 WEB2.0 与云技术,采用 SOA 架构,完全基于 BOS 平台组建而成,技术架构上采用平台化 构建,支持跨数据库应用。该模块提供了一种轻建模、多维度、高性能的数据分析和数据探 索平台,包括数据建模、数据分析、数据斗方、仪表板、移动轻应用等五个子功能模块。 1、数据建模 数据建模模块用于为数据分析和数据斗方进行数据源的准备,数据建模可同时从多个数 据源获取,混搭使用,满足企业多数据源收集的现状。支持的数据源包括金蝶云星空下的实 体模型、当前数据中心;SQL Server、Oracle 等各种关系型数据库;Excel、CSV、TXT 文 件;OpenAPI。 数据建模支持实时提取和定时预提取两种数据提取模式,在不同的数据提取模式下实时 更新数据模型,可实现数据模型的动态跟新。 2、数据分析 数据分析模块是面向业务用户的数据分析和数据可视化工具。通过数据分析,用户可以 高效地对业务数据进行分析探索,快速创建自己所关注的数据分析内容。借助轻分析强大的 数据探索和数据可视化能力,业务用户可通过简单拖拽制作多维度透视的图表,可更高效地 对业务数据进行分析探索,快速创建自己所关注的数据分析内容。在数据分析界面中,共分 为五部分:字段区域、功能区域、图表类型区域、数据视图展示区域和筛选器/图例区域。 支持的图表类型包括:表格、柱形图、多系列/堆积柱形图、折线图、多系统折线图、面积 图、饼图、热力图、树图、散点/气泡图。 3、数据斗方 数据斗方模块是轻分析的卡片设计工具。通过数据斗方,业务系统的用户可以自由创作 各种数据可视化卡片,并把它们排列和布局到自己的个性化桌面端、移动端业务门户上。在 数据斗方页签中,共分为五部分:字段区域、图表类型区域、功能区域、卡片预览区域和属 性设置区域。其中,功能区、卡片预览区、属性设置区所展现的内容将根据用户选择的不同 图表类型进行相应的变化。支持的图表类型包括:列表、业务指标、仪表图、多系列柱/条 形图、堆积柱/条形图、百分比堆积柱/条形图、折线图、面积图、百分比面积图、柱/条/环 形进度图、饼图、环形图、组合图、雷达图、地图。 4、仪表板 仪表板模块支持对数据斗方、网页、文字及组合卡片等组件进行综合布局,并可定义组 件数据更新频率;支持将仪表板发布到应用菜单、轻分析中心和移动轻应用并授权给指定用 户或角色;支持大屏展现。让用户可以在同一屏幕上集中展现、比较和监视一组特定的数据 内容。同时,仪表板还提供筛选、钻取、再分析等交互操作。仪表板设计器上方为工具栏, 左侧为组件及大纲区域,中间部分为设计区域,右侧为属性设置区域。 3.4 大数据挖掘功能介绍 大数据挖掘功能主要包括大数据挖掘模块。数据挖掘(Data Mining)是一种决策支持过 程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自 动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者控制风险。大数 据挖掘模块包括回归、分类、聚类、时间序列预测、文本处理、Python 自定义挖掘等。 3.4.1 回归 回归分析是一种通过建立模型来研究变量之间的相互关系的密切程度、结构状态及进行 模型预测的有效工具。平台内置线性回归、岭回归、多项式回归、线性 SVM 和 SVM 五个 回归分析算法。 进行回归分析时,用户需先在数据源中导入标准数据(拥有标准结果),通过标准数据 进行模型构建,模型构建完成后,可在数据挖掘展示区看到数据可视化结果和目前模型在现 有测试数据中的预测准确度,再导入待预测数据(无标准结果)进行数据预测,系统会根据 已构建的模型得到结果的预测数据。 3.4.2 分类 分类算法反映的是如何找出同类事物的共同性质的特征型知识和不同事物之间的差异 性特征知识。分类是通过有指导的学习训练建立分类模型,并使用模型对未知分类的实例进 行分类。平台提供最近邻、决策树、逻辑回归、朴素贝叶斯和 SVM 五个分类分析算法。 进行分类分析时,用户需先在数据源中导入标准数据(拥有标准结果),通过标准数据 进行模型构建,模型构建完成后,可在数据挖掘展示区看到数据可视化结果和目前模型在现 有测试数据中的预测准确度,再导入待预测数据(无标准结果)进行数据预测,系统会根据 已构建的模型得到结果的预测数据。 3.4.3 降维-PCA PCA 降维算法是通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于 提取数据的主要特征分量,常用于高维数据的降维。进行 PCA 降维分析时,用户需先在数 据源中导入标准数据(拥有标准结果),通过标准数据进行模型构建,模型构建完成后,可 在数据挖掘展示区看到数据可视化结果和目前模型在现有测试数据中的预测准确度,再导入 待预测数据(无标准结果)进行数据预测,系统会根据已构建的模型得到结果的预测数据。 3.4.4 聚类-K-means K-means 算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中 K 个点 为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值, 直至得到最好的聚类结果。 进行 K-means 聚类分析时,用户需先在数据源中导入标准数据(拥有标准结果),通 过标准数据进行模型构建,模型构建完成后,可在数据挖掘展示区看到数据可视化结果和目 前模型在现有测试数据中的预测准确度,再导入待预测数据(无标准结果)进行数据预测, 系统会根据已构建的模型得到结果的预测数据。 3.4.5 时间序列预测-Naive Naive 预测法是最简单的预测方法:用最近的观测值作为观测值。Naive 预测法并不适 合变化很大的数据集,最适合稳定性很高的数据集。进行 Naive 预测分析时,用户需先在 数据源中导入标准数据(拥有标准结果),通过标准数据进行模型构建,模型构建完成后, 可在数据挖掘展示区看到数据可视化结果和目前模型在现有测试数据中的预测准确度,再导 入待预测数据(无标准结果)进行数据预测,系统会根据已构建的模型得到结果的预测数据。 3.4.6 文本处理-词云 文本词云:对文本中词频较高的分词,给与视觉上的突出,形成“关键词渲染”,从而 过滤掉大量的文本信息,是浏览者一眼扫过就可以领略文本的主旨。做文本处理-词云时, 用户需导入已清洗好的数据,再通过绘制词云,可在数据挖掘展示区看到词云图。 3.4.7 应用场景-指标权重分析 在信息论中,熵是对不确定性或随机性的一种度量,不确定性越大,熵值就越大,不确 定性越小,熵值就越小。不确定性越大,表明随机性越大,数据越离散,则包含的信息就越 大,在确定权重的时候往往就越小。熵值法是一种客观赋权法,因为它仅依赖于数据本身的 离散性。熵值法步骤如下: 1.数据归一化; 2.计算指标比重; 3.计算熵值; 4.计算差异系数; 5. 确定指标权。 模块中的层次分析法(AHP)是多目标决策问题的一个解决方案。它把有关的元素分解成 目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。层次分析法步骤 如下: 1.构建指标体系递阶层次的结构; 2.构建层次排列矩阵和判断矩阵; 3.计算各层的相对 权重; 4.对所获结果进行一致性检验。 3.4.8 python 数据挖掘 用户能在 python 数据挖掘子功能模块下选择数据源,按说明要求自行编写 python 代 码,实现对上传文件的数据挖掘,平台通过预留输出接口可进行数据的可视化输出,并保存 数据为 excel 格式。用户能进行个性化数据挖掘操作,达到自己的数据处理目的。 3.5 评论数据分析案例 案例背景: 随着互联网与电子商务技术的快速发展,越来越多的企业将产品的销售渠道搬到线上, 一方面线上平台可确保交易资金回笼的安全性,对企业来说更重要的是可以获得清晰的客户 及其反馈资料,便于企业控制产品的市场风险和质量风险。 科沃斯机器人股份有限公司的产品在各大电商平台均有销售,其中一款地宝 N8 扫地机 器人被打造成为爆款,为确保产品质量及在消费群体中的口碑,假设管理层拟通过对消费者 反馈的分析评估该产品的质量风险。 要求以唯品会平台中的该产品的评论数据为例,爬取该评论数据,并经数据处理后通过 词云的挖掘算法进行分析,可视化的展示评论关键字,如果存在显著的质量问题描述词汇, 则表明该产品存在质量风险,风险的大小以词云的突出强调强弱进行判断。 操作指导: 一、评论数据采集 从唯品会网站上采集商品评论数据,便于后续进行数据处理。 步骤一:获取需要分析的爆款产品在唯品会网站上的产品查看链接为:(产品有可能会更新, 导致链接失败,可通过唯品会的产品搜索,获取准确链接) https://detail.vip.com/detail-1710616844-6919054912492963660.html 步骤二:登录金蝶大数据处理平台,点击“大数据采集“-“电商平台评论数据”,点击参 数,打开参数设置项目,将上述产品链接粘贴至商品详情页链接,为减少数据处理项,在代 码区最后一行添加以下代码: _kd_spider_result = _kd_spider_result.loc[:,[ '用户名称','评论内容', '发表时间']] 然后点击“运行”: 步骤三:运行结束后,点击数据结果按钮,打开抓取的数据展示窗口,点击下载,可将采集 到的数据下载到 excel 表格中并保存。 二、评论数据处理 将前面采集的商品评论数据进行数据处理,便于后续进行数据挖掘分析。 步骤一:登录金蝶大数据处理平台,点击“大数据处理”-“数据清洗”,打开数据清洗页 面,点击上传文件,将前面步骤三下载的 excel 表格上传到平台中。 步骤二:选择数据源为之前上传的数据源,并点击下一步。 步骤三:在数据清洗规则页面点击添加规则,选择局部清洗,选择列删除,点击右侧的“+ ”号: 步骤四:由于只需要对评价内容进行分析,删除其他字段,因此勾选除评论内容外的全部字 段,点击选择: 步骤五:点击执行清洗,将除评价内容以外的字段全部删除: 步骤六:运行完成后下接鼠标至下方预览数据,点击下载: 三、评论数据挖掘分析 步骤一:登录金蝶大数据处理平台,点击“大数据挖掘”-“文本处理”-“词云”,打开文 本词云页面,点击导入数据,将前面步骤六下载的 excel 表格上传到平台中。然后点击绘制 词云,即可在数据挖掘日志下看到商品评论数据词云图。 步骤二:根据词云图看出,消费者对该商品的评价关键词最主要有“干净”、“不错”、 “满意”、“解放(双手)”等,未发现显著的质量负面评价词汇。因此根据对地宝 N8 扫地 机器人评价反馈数据分析,该产品的不存在质量风险。