搜索:   
现在的位置:首页 > 技术支持

一位大数据开发工程师的两年工作经验总结

来源:本站 作者: 发布时间:2019-01-06 21:26:11 人气: [ ] 查看评论

  今年广州的六月,在经历了大雨的洗礼之后,一切都变得更加明朗起来,新的工作,新的人和事。懒惰让我变得更焦虑,焦虑促使我进步,程序员的焦虑大家应该都有共同的感觉,时代的步伐太快了,在这个环境下的软件开发一定会淘汰掉那些不懂得学习,懒惰的人。

  今天呢,博主主要回顾这两年来,在大数据行业公司从事大数据类的前端开发的工作。最近刚刚换了一份工作,把我的经验稍作总结分享给大家,有什么建议大家在评论区踊跃。 谢谢。

  今天的主题,主要是从大数据开发的角度,到大数据治理的必要性,再到图形化建模的畅想,最后在数据质量的把关,然后到大数据可视化的应用,博主总结两年的见闻,和我学习的成果,也不知理解有无偏差吧,希望大家能给出建议。

  数据采集有线上和线下两种方式,线上一般通过爬虫、通过抓取,或者通过已有应用系统的采集,在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用python或者nodejs制作爬虫软件),ETL工具、或者自定义的抽取转换引擎,从文件中、数据库中、网页中专项爬取数据,如果这一步通过自动化系统来做的话,可以很方便的管理所有的原始数据,并且从数据的开始对数据进行标签采集,可以规范开发人员的工作。并且目标数据源可以更方便的管理。

  数据采集的难点在于多数据源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。还有本地文件、excel统计文档、甚至是doc文件。如何将他们规整的、有方案的整理进我们的大数据流程中也是必不可缺的一环。

  数据的汇聚是大数据流程最关键的一步,你可以在这里加上数据标准化,你也可以在这里做数据清洗,数据合并,还可以在这一步将数据存档,将确认可用的数据经过可监控的流程进行整理归类,这里产出的所有数据就是整个公司的数据资产了,到了一定的量就是一笔固定资产。

  数据汇聚的难点在于如何标准化数据,例如表名标准化,表的标签分类,表的用途,数据的量,是否有数据增量?,数据是否可用? 需要在业务上下很大的功夫,必要时还要引入智能化处理,例如根据内容训练结果自动打标签,自动分配推荐表名、表字段名等。还有如何从原始数据中导入数据等。

  经过数据汇聚的数据资产如何提供给具体的使用方使用?在这一步,主要就是考虑数据如何应用,如何将两个?三个?数据表转换成一张能够提供服务的数据。然后定期更新增量。

  经过前面的那几步,在这一步难点并不太多了,如何转换数据与如何清洗数据、标准数据无二,将两个字段的值转换成一个字段,或者根据多个可用表统计出一张图表数据等等。

  数据的应用方式很多,有对外的、有对内的,如果拥有了前期的大量数据资产,通过restful API提供给用户?或者提供流式引擎 KAFKA 给应用消费? 或者直接组成专题数据,供自己的应用查询?这里对数据资产的要求比较高,所以前期的工作做好了,这里的自由度很高。

  大数据开发的难点主要是监控,怎么样规划开发人员的工作?开发人员随随便便采集了一堆垃圾数据,并且直连数据库。 短期来看,这些问题比较小,可以矫正。 但是在资产的量不断增加的时候,这就是一颗定时炸弹,随时会引爆,然后引发一系列对数据资产的影响,例如数据混乱带来的就是数据资产的价值下降,客户信任度变低。

  答案只能是自动化平台,只有自动化平台能够做到让开发人员感到舒心的同时,接受新的事务,抛弃手动时代。

  这就是前端开发工程师在大数据行业中所占有的优势点,如何制作交互良好的可视化操作界面?如何将现有的工作流程、工作需求变成一个个的可视化操作界面? 可不可以使用智能化取代一些无脑的操作?

  从一定意义上来说,大数据开发中,我个人认为前端开发工程师占据着更重要的位置,仅次于大数据开发工程师。至于后台开发,系统开发是第三位的。好的交互至关重要,如何转换数据,如何抽取数据,一定程度上,都是有先人踩过的坑,例如kettle,再例如kafka,pipeline ,解决方案众多。关键是如何交互? 怎么样变现为可视化界面? 这是一个重要的课题。

  现有的各位朋友的侧重点不同,认为前端的角色都是可有可无,我觉得是错误的,后台的确很重要,但是后台的解决方案多。 前端实际的地位更重要,但是基本无开源的解决方案,如果不够重视前端开发, 面临的问题就是交互很烂,界面烂,体验差,导致开发人员的排斥,而可视化这块的知识点众多,对开发人员的素质要求更高。

  从数据血缘说起,数据血缘应该是大数据治理的入口,通过一张表,能够清晰看见它的来龙去脉,字段的拆分,清洗过程,表的流转,数据的量的变化,都应该从数据血缘出发,我个人认为,大数据治理整个的目标就是这个数据血缘,从数据血缘能够有监控全局的能力。

  数据血缘是依托于大数据开发过程的,它包围着整个大数据开发过程,每一步开发的历史,数据导入的历史,都应该有相应的记录,数据血缘在数据资产有一定规模时,基本必不可少。

  数据开发中,每一个模型(表)创建的结束,都应该有一个数据质量审查的过程,在体系大的环境中,还应该在关键步骤添加审批,例如在数据转换和映射这一步,涉及到客户的数据提供,应该建立一个完善的数据质量审查制度,帮助企业第一时间发现数据存在的问题,在数据发生问题时也能第一时间看到问题的所在,并从根源解决问题,而不是盲目的通过连接数据库一遍一遍的查询sql。

  监控呢,其实包含了很多的点,例如应用监控,数据监控,预警系统,工单系统等,对我们接管的每个数据源、数据表都需要做到实时监控,一旦发生殆机,或者发生停电,能够第一时间电话或者短信通知到具体负责人,这里可以借鉴一些自动化运维平台的经验的,监控约等于运维,好的监控提供的数据资产的保护也是很重要的。

  大数据可视化不仅仅是图表的展现,大数据可视化不仅仅是图表的展现,大数据可视化不仅仅是图表的展现,重要的事说三遍,大数据可视化归类的数据开发中,有一部分属于应用类,有一部分属于开发类。

  在开发中,大数据可视化扮演的是可视化操作的角色, 如何通过可视化的模式建立模型? 如何通过拖拉拽,或者立体操作来实现数据质量的可操作性? 画两个表格加几个按钮实现复杂的操作流程是不现实的。

  在可视化应用中,更多的也有如何转换数据,如何展示数据,图表是其中的一部分,平时更多的工作还是对数据的分析,怎么样更直观的表达数据?这需要对数据有深刻的理解,对业务有深刻的理解,才能做出合适的可视化应用。

  可视化是可以被再可视化的,例如superset,通过操作sql实现图表,有一些产品甚至能做到根据数据的内容智能分类,推荐图表类型,实时的进行可视化开发,这样的功能才是可视化现有的发展方向,我们需要大量的可视化内容来对公司发生产出,例如服装行业,销售部门:进货出货,颜色搭配对用户的影响,季节对选择的影响   生产部门:布料价格走势?  产能和效率的数据统计?  等等,每一个部门都可以有一个数据大屏,可以通过平台任意规划自己的大屏,所有人每天能够关注到自己的领域动向,这才是大数据可视化应用的具体意义。

  洋洋洒洒写了很多,对我近两年的所见所闻所学所想进行了一些总结,有些童鞋会问,不是技术么?为什么没有代码?   博主要说,代码博主要学的,要写的,但是与工作无关,代码是我个人的技能,个人傍身,实现个人想法的重要技能。 但是,代码与业务的关系不大,在工作中,懂业务的人代码写的更好,因为他知道公司想要什么。 如果你业务很差,那也没关系,你代码好就行了呀,根据别人的交代干活,也是很不错的。技术和业务是相辅相成的,稍后博主总结代码的精进。

  写完了,博主的焦虑一丝未少,我的代码规范性不够,目前技术栈js、java、nodejs、python 。

  主业js熟练度80%吧,正在研究阮一峰的es6(看的差不多)和vuejs的源码(有点搁浅),vuejs算是中等,css和布局方面可以说还可以,另外d3.js,go.js都是处于会用,能干活。 nodejs呢,express和koa无问题,看过一些express的源代码,还写过两个中间件。

  java、python都处于能做项目的程度,目前也不想抽很多精力去深入它们,就想要保持在想用能用的地步吧。

  “物超人”之后,接下来要做的一个事情叫做“下一代网管”。这里面的第一个业务就是窄带物联网(Narro....

  技术本应是普惠的,凭借技术领域的厚积薄发,OPPO已然为开发者带来更强劲、更简单高效的开发能力加持,....

  存储大量数据有三个最重要的指标,那就是速度,容量,容错性。速度和容量的重要性毋庸置疑,如果容量不够大....

  一款纯图形化的网络流量分析工具,既是图形界面,所以系统中务必要有各类图形库支持才行 很多数时候....

  2018年12月第一期《科学》杂志封面,向人们介绍了一位“数字神童”——史上最强棋圣“阿尔法零”。作....

  因此,如何才能够知道人们心里想的是什么呢?如何才能够知道他们实际上是在做些什么呢?借助大数据。特定的....

  如今大数据的深度和广度远不止这些,大数据已经在人类社会实践中发挥着巨大的优势,其利用价值也超出我们的....

  针对高维大数据的降维问题,提出了一种基于统计学析因设计的特征选择算法-FFD。首先,使用析因设计的因....

  工业大数据的云平台通过提高智能制造业的生产能力为技术创新带来了新的机遇。它们将使企业在研发、生产、运....

  2010中国深证IT领袖峰会高端对话上,BAT的三位大佬正在为云计算、大数据而争论。 李彦宏认....

  我们每个人都是数据的贡献者,全球平均每人大概携带200GB的数据,而智能家居作为围绕人与设备的新兴领....

  随着计算机、智能手机和其他电子技术的发展,网络数据急剧增加,进而促使社会科学家发现新问题,或利用新方....

  而据报告显示,在众多的售票交通工具中,搭乘高铁的人数占比最高,其实这也实属意料之中,毕竟相比其他交通....

  针对当前数据治理过程中面临的数据标准不统一、数据质量良莠不齐以及数据安全隐私凸显等问题,提出一种基于....

  针对大数据流式计算平台中输入数据流速急剧上升所导致的计算延迟升高问题,提出了基于流网络模型的动态调度....

  人类为了不让自己迷失在茫茫大自然中,先后发明罗盘、指南针等工具,卫星定位的问世,解决了“我在哪里”的....

  人工智能技术日趋成熟,已经成功应用到社会的多个领域。人工智能的技术优势,正在改变我们的工作过程。决策....

  MES(制造执行系统)诞生于20世纪90年代,逐渐被采用,有点像过去十年出现的ERP。推迟用于ERP....

  12月22日,“AI+云+医疗大数据&医疗器械“发展研讨峰会在北京举行。北京市科委、卫健委等领导出席....

  大数据在政务当中的应用对于提高问题解决的效率可谓大有帮助,但政务大数据平台的应用开发远不止提高问题解决效率这么简单。当...

  潮下,数据的价值不言而喻。在国内,大数据是一个专有领域,但从国际的技术发展趋势来看,大数据已经无处不....

  3DES是三重数据加密算法块密码的通称。它相当于是对每个数据块应用三次DES加密算法。由于计算机运算....

  顺应工业4.0的大趋势,工控行业涌现出众多新兴技术,例如,工业物联网、边缘自动化等。将这些技术应用在....

  年客流近千亿人次、存量资产高达9万亿的公交地铁行业,正面临着前所未有的大变局,一个远超共享单车和滴滴....

  第三次工业革命(也被称为电子信息革命)的到来,伴随的是电子计算机和互联网的普及,信息大爆炸的时代让我....

  近日,京东举办首届大数据峰会,此次峰会亮点颇多,京东打造的智能零售大数据“操作系统”全面亮相,并发布....

  要了解什么是EMC工程师,我们首先要了解什么是EMC。工程师这个职业相信大家都耳熟能详了,像硬件工程....

  近日,由世界品牌实验室独家编制的2018年世界500个最具影响力的品牌名单在纽约公布,亚马逊凭借着近....

  近年来,在世界各国研究人员的共同推动下,大数据、云计算、物联网等新一代信息技术日趋成熟,并已经逐步应....

  联想/MOTO之后的19家国产品牌销量几乎就是断崖式分布了,TCL+阿尔卡特+黑莓的销量也不过870....

  “5G的复杂性使得5G的准备工作需要非常系统和统筹。”马红兵指出,中国联通5G总体目标节奏是2019....

  电力教育培训具有十分悠久的历史,时代的进步、科学技术的发展不断推动着电力教育培训的进一步发展。传统的....

  随着互联网的发展和普及,互联网行业可以说进入的是一个空前的高潮,了解互联网的是人人谈电子商务,新媒体....

  区块链+教育,是改革的良性循环? 建国君民,教育为先,“国愚是智可以强国,国智则力可以强人”,依教建国,以智强国,是中国...

  不能让大数据熟悉你:经常去某网店买东西,很多时候回头客看到的价格会高于首次进店者,因为新客的拓客成....

  学习大数据,要从Java开始学起,如果已经有Java编程语言了,学习大数据就会相对轻松很多。在掌握了....

  大数据行业在这几年来非常火爆,许多高校都开设了大数据专业,很多学生选择报考这个专业。毕业生的就业方向....

  在大数据领域,相关专业的毕业生有着非常广泛的从业选择。从国防部、互联网创业公司到金融机构,从零售金融....

  大数据杀熟是指同样的商品或服务,老客户看到的价格反而比新客户要贵出许多的现象。2018年3月,“大数....

  中国信通院一直在ICT技术尤其是在前沿科技研究方面不断耕耘,同时顺应国家和全球的发展趋势,在互联网、....

  先进技术正在彻底改变牙科的未来,使得诊断设备和治疗方案有了巨大的发展。 想象一下:你的牙齿突然剧烈疼痛,你要做的就是跑...

  简单来说大数据就是我们这些日常生活中留下的数据的集合,有人会觉得大数据离我们很远,相隔十万八千里,甚....

  最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业....

  大数据的产生非常迅速,主要通过互联网传输。生活中每个人都离不开互联网,也就是说每天个人每天都在向大数....

  大数据的出现,正在引发全球范围内深刻的技术与商业变革。在技术上,大数据使从数据当中提取信息的常规方式....

  由于现在数据的需求很大,也催生了很多做数据交易的平台,当然,出去付费购买的数据,在这些平台,也有很多....

  大数据分析和数据分析是有区别和联系的。这里重点关注两者的是技术要求、使用场景、业务范围等方面的区别和....

  大量数据可能来自几乎任何产生数据的内容,包括搜索引擎和社交媒体,以及一些不太明显的来源,如电网和交通....

  现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数....

  在当今大数据环境下,针对图中节点的海量性和分析的复杂性对最大团问题的研究在速度和精度上都提出了更高要....

  随着互联网、云计算、社交网络的发展,网络空间中的信息总量在飞速膨胀,网络大数据时代已经到来。如何充分挖掘大数据中蕴含...

  12月6日-7日,“2018问道崂山·中国(青岛)大数据应用与解决方案高峰论坛-暨首届大快搜索合作伙伴生态系统大会&开发者技术沙龙...

  从医院的场景来看,检验、影像、放射、核医学、病理都是高需求科室,但未来人工智能在临床科室的应用与医技科室同等重要。以心脑...

  近日,为促进和规范医院信息化建设,国家卫健委制定了《全国医院信息化建设标准与规范(试行)》下简称《建设标准》。文件包括5...

  摘要:扎心了老铁 不知不觉,2018年仅剩6%,是不是感觉今年没做啥大事,发现一年又到头了? 临近年终,一年一度的跳槽、...

  编程语言何其多,C语言为啥这么牛?C语言是一门通用计算机编程语言,应用非常广泛,没有C语言基础,就无法学习物联网、大数据...

  大数据时代的到来,意味着海量数据的产生,给我们现有的数据存储技术带来了巨大的挑战。而随着时代的进步,大数据应用到越来...

评论】【加入收藏夹】【打印】【关闭】【进入论坛讨论】【回顶部

评分: 1分 2分 3分 4分 5分 平均得分: 分,有 人参与评分.
发表评论:(可直接用论坛账号评论) 共有条评论 查看全部评论

查看全部评论

相关导读

    无相关信息

最新资讯

热点资讯

推荐资讯

最新教程

关于我们| 客户案例| 服务项目| VIP服务| 联系我们| 客户服务| 免责声明|
Powered by d88尊龙 Code © 2016-2017 www.g22.com