来论|数据工程人才需求甚大

2022-07-21 00:00

人工智能、机器学习、大数据这些名词大家应该耳熟能详。但在背后有一个不可或缺的过程,就是数据工程。数据工程是一种应用科学,把各种不从数据转化成为有组织、可持续的数据流,以驱动数据相关的工作,例如探索数据分析(Exploratory Data Analysis,EDA)、机器学习、人工智能数据特徵工程与模型(Feature Engineering and Modeling)、商业智慧、报告(Business Intelligence - BI, Report)等。

数据或大数据是多样化、大量,而且速度很快的。但是大部分源数据都不是我们心目中所想,即时可以应用或分析的。如果数据是残缺不全,再多、再大的数据,也是没有用处的;当然亦没法提升机器学习、人工智能模型的表现。这也就是近年大数据的趋势,从「大数据」(Big Data)到「好数据」(Good Data)。

数据工程师(Data Engineer)是数据分析师/科学家(Data Analyst/ Scientist)的重要合作夥伴。他对大数据平台或工具,当然需有一定程度的认识,而基本数据分析、编程等,也是必须拥有的技能。常用的数据工程编程语言,包括有SQL、Python、Java (Scala)、Go等。

数据工程师通常负责应用大数据平台或工具,设计一个系统。该系统可以将一个或多个数据来源输入,对其进行转换,然后将其存储给数据分析师/科学家再加以应用。这些系统通常称为ETL/ELT管道,代表提取(Extract)、转换(Transform)和加载(Load)。

数据分析师/科学家有了这些优质材料,就可以打造出不同类型的机器学习、人工智能模型、商业智慧、报告等。作为用家,就可以享受到更优质的数码应用。

在大数据盛行的时代,不少商业决策都需要分析数据,对于数据工程师的需求只会与日俱增,可以成为香港年轻人进修的一条新出路,政府和教育机构也应培育更多相关人才,以应付所需。
赖志伟
香港电脑学会企业架构专家小组执行委员会成员

關鍵字

最新回应

相關新聞

You are currently at: std.stheadline.com
Skip This Ads
close ad
close ad