区块链数据挖掘是什么工作,数据挖掘的工作

贝特思 • 2023-03-08 21:22 • 生活指南 • 阅读 91

数据挖掘工程师一般都做什么？

数据挖掘工程师是做什么的？

数据挖掘，从字面上理解，就是在数据中找到有用的东西，哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了，比如电商数据，如淘宝统计过哪个省购买泳衣最多、哪个省的女生胸罩最大等，进一步，可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像，就相当于用这些挖掘出来的属性来刻画一个人，这些还是最简单的东西，更深层次的比如预测（股票预测），但是比较难。

数据挖掘往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。

数据挖掘 = 业务知识 + 自然语言处理技术（ NLP ） + 计算机视觉技术（ CV ） + 机器学习 / 深度学习（ ML/DL ）

（ 1 ）其中业务知识具体指的是个性化推荐，计算广告，搜索，互联网金融等； NLP ， CV 分别是处理文本，图像视频数据的领域技术，可以理解为是将非结构化数据提取转换成结构化数据；最后的ml/dl 技术则是属于模型学习理论；

（ 2 ）在选择岗位时，各个公司都没有一套标准的称呼，但是所做的事情无非 2 个大方向，一种是主要钻研某个领域的技术，比如自然语言处理工程师，计算机视觉工程师，机器学习工程师等；一种是将各种领域技术应用到业务场景中去解决业务需求，比如数据挖掘工程师，推荐系统工程师等；具体的称呼不重要，重要的是平时的工作内容；

PS ：在互联网行业，数据挖掘相关技术应用比较成功的主要是推荐以及计算广告领域，而其中涉及到的数据主要也是文本，所以 NLP 技术相对来讲比较重要，至于 CV 技术主要还是在人工智能领域（无人车，人脸识别等）应用较多，本人了解有限，相关的描述会较少；

数据挖掘岗位需要具备的3 种基本能力

1. 工程能力

（ 1 ）编程基础：需要掌握一大一小两门语言，大的指 C++ 或者 Java ，小的指 Python 或者 shell 脚本；需要掌握基本的数据库语言；

建议： MySQL + python + C++ ；语言只是一种工具，看看语法就好；

推荐书籍：《 C++ primer plus 》

（ 2 ）开发平台： Linux ；

建议：掌握常见的命令，掌握 Linux 下的源码编译原理；

推荐书籍：《 Linux 私房菜》

（ 3 ）数据结构与算法分析基础：掌握常见的数据结构以及操作（线性表，队，列，字符串，树，图等），掌握常见的计算机算法（排序算法，查找算法，动态规划，递归等）；

建议：多敲代码，多上 OJ 平台刷题；

推荐书籍：《大话数据结构》《剑指 offer 》

（ 4 ）海量数据处理平台： Hadoop （ mr 计算模型， java 开发）或者 Spark （ rdd 计算模型， scala开发），重点推荐后者；

建议：主要是会使用，有精力的话可以看看源码了解集群调度机制之类的；

推荐书籍：《大数据 spark 企业级实战》

2. 算法能力

（ 1 ）数学基础：概率论，数理统计，线性代数，随机过程，最优化理论

建议：这些是必须要了解的，即使没法做到基础扎实，起码也要掌握每门学科的理论体系，涉及到相应知识点时通过查阅资料可以做到无障碍理解；

（ 2 ）机器学习 / 深度学习：掌握常见的机器学习模型（线性回归，逻辑回归， SVM ，感知机；决策树，随机森林， GBDT ， XGBoost ；贝叶斯， KNN ， K-means ， EM 等）；掌握常见的机器学习理论（过拟合问题，交叉验证问题，模型选择问题，模型融合问题等）；掌握常见的深度学习模型（ CNN ，RNN 等）；

建议：这里的掌握指的是能够熟悉推导公式并能知道模型的适用场景；

推荐书籍：《统计学习方法》《机器学习》《机器学习实战》《 UFLDL 》

（ 3 ）自然语言处理：掌握常见的方法（ tf-idf ， word2vec ， LDA ）；

3. 业务经验

（ 1 ）了解推荐以及计算广告相关知识；

推荐书籍：《推荐系统实践》《计算广告》

（ 2 ）通过参加数据挖掘竞赛熟悉相关业务场景，常见的比赛有 Kaggle ，阿里天池， datacastle 等。

想要学习数据挖掘的话可以看一下这篇文章《AI时代就业指南：数据挖掘入门与求职》

数据挖掘的主要工作

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘流程：

定义问题：清晰地定义出业务问题，确定数据挖掘的目的。

数据准备：数据准备包括：选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理–进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。

数据挖掘：根据数据功能的类型和和数据的特点选择相应的算法，在净化和转换过的数据集上进行数据挖掘。

结果分析：对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

数据挖掘是什么工作呢？

数据挖掘指的是在长期积累的数据中分析和挖掘有价值的信息以供决策。这个概念主要还是因为ERP（企业资源计划）和OA(办公自动化)软件系统的广泛使用和发展的基础上出现的一个概念。因为企业在使用这些软件系统的过程中，虽然运营的状态和管理以及成本有很大的节约，大大提高了企业的运营效率，可是这些系统却只能对企业的状态和管理进行一个状态性的记录，对长期记录下来的这些数据的分析和在挖掘能力是非常有限的，虽然众多软件供应商想出各种办法来利用其这些数据，比如出各种报表甚至自定义的报表，可是仍然受制于ERP和OA本身设计的缺陷，因为它们原本就不是设计来做数据分析的。所以在我们的软件系统实施的过程中，常常看到一个庞大的系统在运行，可是对于领导却只有每月看一两张报表的价值。所以，有人提出了数据挖掘的概念，长期使用ERP系统所积攒的数据就好像一大筐苹果，金苹果、银苹果、烂苹果都有，而数据挖掘工程师就是专门从中挑选出对企业有用的信息的工作。当然数据挖掘软件也是专门设计来做这个事情的。