大数据,咋一听起来都觉得很神秘,很高大上,从2013年开始听得越来越多,什么数据挖掘,数据分析、机器学习、算法,让我等听起来天马行空,雾里看花,有幸接触到了大数据项目,让我拨开云雾,原来大数据其实简单,真的简单,大量数据嘛,就是我们说的大数据,基于数据分析,获得有价值的信息。
目前我理解大数据,有数据采集、数据存储、数据分析、数据应用,前两者是基础,后两者是价值,采集存储数据不是目的,利用数据分析有价值的信息,才是我们选择的。
我们不展开聊,作为测试,我关心的是我要测试什么,如何测试,怎么衡量产品的质量情况,拿数据采集来说,从文本、mysql数据库、oracle数据、接口等,采集数据,然后经过清洗,存在hdfs、hbase、solr、es等等位置,该如何做,需要注意什么?
建议三步:
1、学习知识点
虽然我们不是开发,但是作为大数据的测试,我们必须掌握编程能力,java和python、shell三者是少不了的,另外从hadoop、hdfs、hbase、solr、hive、hue、sqoop、flume、kafka、zookeeper、YARN、oozie、spark等基本的原理和api是必须学习和了解的,这些是我们和研发沟通、是我们自己测试的必要条件,有这些知识,我们才能明白自己测什么,怎么测,哪里有风险,才有信心。
2、开发小工具
如果说这个数据有3条,我可能人为处理,如果要我制造10G有格式要求的数据,我想我还是选择自己开发个小工具。做大数据测试,给自己开发合适的工具,才能事半功倍,才能降低测试的复杂度,才能更准确的测试。
3、调整思维
常规的测试,都是开发完了,提测,然后测试开始测试,作为大数据,很多场景是无法模拟的,比如数据采集时候出现异常,导致数据采集重置,这样的场景人为模拟很难搞定,这时候我们更需要调整思维,和研发一起探讨实现的逻辑,分析逻辑判断是否有bug,和研发一起做单元测试,做日志埋点策略。另外,时间是宝贵的,我们要尽力提高效率,比如我们针对部署做了一键化部署,研发测试都使用,分布式部署再也不是问题了,比如我们提前根据接口文档,写好接口脚本,快速测试,或者利用脚本做测试数据等等,但是千万别陷入到自动化测试的坑里面了,能则用,不能则 选择用。
好了,时间不早了,这次零星的说说,比较杂,下次我们从头开始详细分析。
坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注、转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期待的方向,有更多兴趣的欢迎切磋,我们微信订阅号,联系方式如下:
推荐的文章
【解密】jmeter随笔(30)-读取自己jar包配置的代码实现
jmeter随笔(29)-关于自己的jar包和beanshell的使用
jmeter随笔(34)-WebSocket协议接口测试实战