从底层数据库抽取到数据后,很多数据分析师会用BI的ETL先处理数据,那么我们遇到ETL报错的情况应该如何处理比较妥当:
我不打算整理各种各样的报错给大家,让大家遇到报错的时候搜索定位问题,因为这个报错随使用者数据处理的方式等“千人千面”,效率并不高且看着让人脑瓜疼。
(遇到报错不要慌,点小黄点看看,看不懂也不要慌,因为这个报错本来就是底层代码上来的报错,能看懂的没几个;)
1、首先查看报错,点击到小黄点
(1)我们看报错的时候记得抓关键,无效表名或者报错是sql函数类错误,可以依次从前往后预览,我们主要关注sql节点和新建计算字段的节点;
注意,会出现ETL的sql节点点击编辑后再保存一下就正常的情况,这种很常见,原因如下:
SQL节点加载比较耗资源,为了节省资源,编辑ETL时,SQL节点不会预加载,所以需要重新提交一次加载数据,这样后面节点才能读取到数据。一般建议,尽量使用系统自带节点来处理数据,必要情况下再使用SQL节点。
如果是新建计算字段节点报错,那么就从函数入手,ETL我们支持的spark的语法,可以参照https://spark.apache.org/docs/latest/api/sql/index.html
(纠正一个大家的误区,观远BI,抽取数据集、ETL和卡片支持的是spark语法,这个语法不是观远制定的哦~)
(2)报错字段丢失等,主要找字段关联节点,依次顺着节点向前溯源;
2、如果通过报错很难理解且与最终找到的错误原因不对应的,可以群里反馈技术支持,提给产品做报错优化。