在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。
美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。
與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。
但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。
2026年3月1日,日本人工智慧(AI)安全研究所(Japan AI Safety Institute, J-AISI)發布《首席AI長指引 1.00版》(Chief AI Officer Guidebook (Version 1.00),下稱指引)與《首席AI長設置與AI治理實施實務手冊 1.00版》(Practical Manual for Establishing a Chief AI Officer and Implementing AI Governance (Version 1.00),下稱實務手冊)。兩份文件旨於促進AI時代下的永續企業經營(sustainable business operations),提升產品與服務品質、建立客戶與使用者的信任。 一、指引與實務手冊概覽 指引內容包含設立「首席AI長」(Chief AI Officer, CAIO)職位之目的、職責。實務手冊內容則進一步指出一種組織模式,其中首席AI長為獨立的高階主管,直接向執行長匯報,並在首席AI長下設立AI治理辦公室,以及建議設立一個「跨部門AI指導委員會(Company-wide AI Steering Committee)」,成員包括首席AI長、首席資料長、首席資訊長、首席技術官、首席資訊安全官、法律合規部門、資料保護官、人力資源部門以及關鍵業務部門。各業務部門與系統所有者應依照既有標準運作,並向人工智慧治理辦公室和資料治理組織提供必要資訊。 二、將AI特定風險納入資料治理框架:降低幻覺與偏見之具體作法 在AI系統的生命週期中,資料品質影響決定模型效能、可解釋應與透明度。 首席AI長的職責為整合AI、資料與技術策略,於確保企業信任與風險管理之基礎下,驅動企業創新與數位轉型,並最大程度提升企業價值。因此,首席AI長應與首席資料長、法務部門協調,規範資料的生命週期、設定品質指標(Quality Metrics),並嚴格核實第三方素材授權(licenses for third-party materials)。 以下介紹文件建議之AI資料生命週期(資料蒐集)之管理作法: (一)區分資料用途:針對每個使用案例與模型,區分(1)AI模型訓練用資料;(2)AI訓練完成後,用於驗證與評測模型產出品質的評估資料(evaluation data),此類資料不參與模型的優化調整,僅客觀確認模型的準確度;(3)於AI模型運行過程中,使用者輸入的資料(data entered during inference),包含提示詞、上傳的文件及系統日誌(Logs)。 (二)資料分類:企業應依資料機敏程度進行分類,如機密、個資、內部及公開資訊等分類,以便加以定義資料之蒐集方式、儲存方式、資料遮罩要求(masking requirement,包含去識別化),以及控管資料傳輸至外部AI服務之權限。 (三)落實可追溯性與透明度文件:應透過實務手冊18.3之資料表(Datasheets)進行標準化記錄,包含 1. 基本資訊,如資料及名稱與版本;資料所有者;資料建立日期、最後更新日期等。 2. 目的與使用範圍,如資料集的用於訓練、評估、優化等;資料使用範圍限內部,或可對外提供等。 3. 組成與範圍,如記錄資料筆數與特徵概況;目標期間、區域與族群,如年齡、產業;資料格式,如文字/影像/音訊等。 4. 資料來源與蒐集方法,包含資料來源(內部系統、客戶提供的資料、公開資料、供應商提供的資料等);資料蒐集方法(日誌、調查、網路爬蟲等);是否取得資料主體同意等。 5. 資料品質與預處理(preprocessing),包含:紀錄去識別化等資料轉換流程;規範資料標記之品質管理機制。 6. 代表性與偏見,如列出AI預期使用情境與目標客群的一致性;特定性別、年齡、地區是否存在代表性不足的偏差等。 7. 隱私與法源依據,如資料是否包含個人資料或敏感資訊;資料處理之法律依據,如資料主體同意、契約等;採取之隱私保護措施,如去識別化等。 8. 授權、權利與資料反覆使用之條件:使用條件,如授權條款、是否允許商業使用等。 9. 安全性與存取控制:儲存位置,如資料中心、雲端或本地以及是否加密;資料之存取權限,如控管檢視、編輯、匯出等權限。 10. 資料保存與銷毀:記錄訓練資料、評估資料、輸入資料等不同類型資料之儲存期限,並規定如儲存期限過後,需以不可回復之方式銷毀資料,或必要時,應匿名後歸檔等規定。 三、接軌國內實務:企業可參考EDGS規範健全AI風險管理需求 面對AI資料生命週期管理,建議我國企業可參考資策會科法所創意智財中心發布之《重要數位資料治理暨管理制度規範(EDGS)》。EDGS同樣強調數位資料歷程管理,從資料生成、保護到維護的管理流程,有效強化資料的完整性。透過導入EDGS,企業不僅能提升內部創新、數位轉型,更能在面對AI糾紛時,提供歷程紀錄,從源頭端落實首席AI長所要求的循證治理目標。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)
「智慧財產報告書」:開啟企業與市場之間的對話工具 良好的隱私權實踐工作有助於強化企業競爭力當含有大量個人敏感性特質個資之郵件不小心發送到陌生人的電子信箱時,將可能對當事人帶來無法預估的損害。加拿大隱私委員Daniel Therrien在國際隱私日時(1/28)提醒各企業,不要忽略隱私控管工作對企業競爭力帶來之影響。然這樣的理念不僅僅只適用在大型的企業,加拿大有98%的企業員工少於100人,對於這些成千上萬的小規模企業而言更是重要。 Daniel Therrien說:「我能理解資源有限的小規模企業每天面臨高壓的業務需求,但就相關反饋資料顯示,加拿大當地居民較傾向與具有良好隱私實踐工作之企業進行交易。」因此,良好的隱私實踐工作不僅是有助於消費者,更可協助企業符合加拿大個人資料保護與電子文件法(Personal Information Protection and Electronic Documents Act)之規定。 為協助小規模企業採取積極措施,以保障消費者資料及隱私不被外洩,提高競爭力,加拿大提供相關關鍵步驟供企業參考:(1)不逾越產品或服務目的之資料蒐集;(2)提供顧客清晰易懂之隱私權政策,以便顧客了解資料為何被蒐集,及如何處理、利用;(3)了解蒐集哪些資料、資料儲存期間及方式、有權限接觸之人及刪除方式; (4)對員工進行隱私保護教育訓練;(5)除非必要,否則請避免蒐集如健康狀況、財務資訊等具敏感性之資料;(6)企業應設置窗口或指定專人,針對顧客權利主張或提出與隱私有關之疑問時進行回應。