来论|数据工程人才需求甚大
2022-07-21 00:00人工智能、机器学习、大数据这些名词大家应该耳熟能详。但在背后有一个不可或缺的过程,就是数据工程。数据工程是一种应用科学,把各种不从数据转化成为有组织、可持续的数据流,以驱动数据相关的工作,例如探索数据分析(Exploratory Data Analysis,EDA)、机器学习、人工智能数据特徵工程与模型(Feature Engineering and Modeling)、商业智慧、报告(Business Intelligence - BI, Report)等。
数据或大数据是多样化、大量,而且速度很快的。但是大部分源数据都不是我们心目中所想,即时可以应用或分析的。如果数据是残缺不全,再多、再大的数据,也是没有用处的;当然亦没法提升机器学习、人工智能模型的表现。这也就是近年大数据的趋势,从「大数据」(Big Data)到「好数据」(Good Data)。
数据工程师(Data Engineer)是数据分析师/科学家(Data Analyst/ Scientist)的重要合作夥伴。他对大数据平台或工具,当然需有一定程度的认识,而基本数据分析、编程等,也是必须拥有的技能。常用的数据工程编程语言,包括有SQL、Python、Java (Scala)、Go等。
数据工程师通常负责应用大数据平台或工具,设计一个系统。该系统可以将一个或多个数据来源输入,对其进行转换,然后将其存储给数据分析师/科学家再加以应用。这些系统通常称为ETL/ELT管道,代表提取(Extract)、转换(Transform)和加载(Load)。
数据分析师/科学家有了这些优质材料,就可以打造出不同类型的机器学习、人工智能模型、商业智慧、报告等。作为用家,就可以享受到更优质的数码应用。
在大数据盛行的时代,不少商业决策都需要分析数据,对于数据工程师的需求只会与日俱增,可以成为香港年轻人进修的一条新出路,政府和教育机构也应培育更多相关人才,以应付所需。
赖志伟
香港电脑学会企业架构专家小组执行委员会成员
關鍵字
最新回应