來論|數據工程人才需求甚大

2022-07-21 00:00

人工智能、機器學習、大數據這些名詞大家應該耳熟能詳。但在背後有一個不可或缺的過程,就是數據工程。數據工程是一種應用科學,把各種不從數據轉化成為有組織、可持續的數據流,以驅動數據相關的工作,例如探索數據分析(Exploratory Data Analysis,EDA)、機器學習、人工智能數據特徵工程與模型(Feature Engineering and Modeling)、商業智慧、報告(Business Intelligence - BI, Report)等。

數據或大數據是多樣化、大量,而且速度很快的。但是大部分源數據都不是我們心目中所想,即時可以應用或分析的。如果數據是殘缺不全,再多、再大的數據,也是沒有用處的;當然亦沒法提升機器學習、人工智能模型的表現。這也就是近年大數據的趨勢,從「大數據」(Big Data)到「好數據」(Good Data)。

數據工程師(Data Engineer)是數據分析師/科學家(Data Analyst/ Scientist)的重要合作夥伴。他對大數據平台或工具,當然需有一定程度的認識,而基本數據分析、編程等,也是必須擁有的技能。常用的數據工程編程語言,包括有SQL、Python、Java (Scala)、Go等。

數據工程師通常負責應用大數據平台或工具,設計一個系統。該系統可以將一個或多個數據來源輸入,對其進行轉換,然後將其存儲給數據分析師/科學家再加以應用。這些系統通常稱為ETL/ELT管道,代表提取(Extract)、轉換(Transform)和加載(Load)。

數據分析師/科學家有了這些優質材料,就可以打造出不同類型的機器學習、人工智能模型、商業智慧、報告等。作為用家,就可以享受到更優質的數碼應用。

在大數據盛行的時代,不少商業決策都需要分析數據,對於數據工程師的需求只會與日俱增,可以成為香港年輕人進修的一條新出路,政府和教育機構也應培育更多相關人才,以應付所需。
賴志偉
香港電腦學會企業架構專家小組執行委員會成員

關鍵字

最新回應

相關新聞

熱門文章