美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/05/28)
引註此篇文章
你可能還會想看
歐洲網路暨資訊安全局發布「重要資訊基礎設施下智慧聯網之安全基準建議」

  歐洲網路暨資訊安全局(European Union Agency for Network and Information Security, ENISA)於2017年11月20號發布了「重要資訊基礎設施下智慧聯網之安全基準建議」。該建議之主要目的乃為歐洲奠定物聯網安全基礎,並作為後續發展相關方案與措施之基準點。   由於廣泛應用於各個領域,智慧聯網設備所可能造成之威脅非常的廣泛且複雜。因此,了解該採取與落實何種措施以防範IOT系統所面臨之網路風險非常重要。ENISA運用其於各領域之研究成果,以橫向之方式確立不同垂直智慧聯網運用領域之特點與共通背景,並提出以下可以廣泛運用之智慧聯網安全措施與實作:   (一) 資訊系統安全治理與風險管理   包含了與資訊系統風險分析、相關政策、認證、指標與稽核以及人力資源相關之安全措施。   (二) 生態系管理    包含生態系繪製以及各生態系的關聯。   (三) IT安全建築    包含系統配置、資產管理、系統隔離、流量過濾與密碼學等資安措施。   (四) IT安全管理   帳戶管理與資訊系統管理之相關安全措施。   (五) 身分與存取管理   有關身分確認、授權以及存取權限之安全措施。   (六) IT安全維護   有關IT安全維護程序以及遠端存取之安全措施。   (七) 偵測   包含探測、紀錄日誌以及其間之關聯與分析之安全措施。   (八) 電腦安全事件管理   資訊系統安全事件分析與回應、報告之資安措施。

南韓個資保護委員會發布人工智慧(AI)開發與服務處理公開個人資料指引

南韓個資保護委員會(Personal Information Protection Commission, PIPC)於2024年7月18日發布《人工智慧(AI)開發與服務處理公開個人資料指引》(인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서)(以下簡稱指引)。該指引針對AI開發與服務處理的公開個人資料(下稱個資)制定了新的處理標準,以確保這些資料在法律上合規,且在使用過程中有效保護用戶隱私。 在AI開發及服務的過程中,會使用大量從網路上收集的公開資料,這些公開資料可能包含地址、唯一識別資訊(unique identifiable information, UII)、信用卡號等個資。這些公開的個資是指任意人可藉由網路抓取技術自公開來源合法存取的個資,內容不限於個資主體自行公開的資料,還包括法律規定公開的個資、出版物和廣播媒體中包含的個資等。由於公開資料眾多,在現實中很難在處理這些公開個資以進行AI訓練之前,取得每個個資主體的單獨同意及授權,同時,南韓對於處理這些公開個資的現行法律基礎並不明確。 為解決上述問題,PIPC制定了該指引,確認了蒐集及利用公開個資的法律基礎,並為AI開發者和服務提供者提供適用的安全措施,進而最小化隱私問題及消除法律不確定性。此外,在指引的制定過程中,PIPC更參考歐盟、美國和其他主要國家的做法,期以建立在全球趨勢下可國際互通的標準。 指引的核心內容主要可分為三大部分,第一部分:應用正當利益概念;第二部分:建議的安全措施及保障個資主體權利的方法;及第三部分:促進開發AI產品或服務的企業,在開發及使用AI技術時,注意可信任性。 針對第一部分,指引中指出,只有在符合個人資料保護法(Personal Information Protection Act, PIPA)的目的(第1條)、原則(第3條)及個資主體權利(第4條)規定範圍內,並滿足正當利益條款(第15條)的合法基礎下,才允許蒐集和使用公開個資,並且需滿足以下三個要求:1.目的正當性:確保資料處理者有正當的理由處理個資,例如開發AI模型以支持醫療診斷或進行信用評級等。2.資料處理的必要性:確保所蒐集和利用的公開資料是必要且適當的。3.相關利益評估:確保資料處理者的正當利益明顯超越個資主體的權利,並採取措施保障個資主體的權利不被侵犯。 而第二部分則可區分為技術防護措施、管理和組織防護措施及尊重個資主體權利規定,其中,技術防護措施包括:檢查訓練資料來源、預防個資洩露(例如刪除或去識別化)、安全存儲及管理個資等;管理和組織防護措施包括:制定蒐集和使用訓練資料的標準,進行隱私衝擊影響評估(PIA),運營AI隱私紅隊等;尊重個資主體權利規定包括:將公開資料蒐集情形及主要來源納入隱私政策,保障個資主體的權利。 最後,在第三部分中,指引建議AI企業組建專門的AI隱私團隊,並培養隱私長(Chief Privacy Officers, CPOs)來評估指引中的要求。此外,指引亦呼籲企業定期監控技術重大變化及資料外洩風險,並制定及實施補救措施。 該指引後續將根據PIPA法規修訂、AI技術發展及國際規範動向持續更新,並透過事前適當性審查制、監管沙盒等途徑與AI企業持續溝通,並密切關注技術進步及市場情況,進而推動PIPA的現代化。

南韓KCC課予廣電傳播業者進行數位轉換的法定義務

  為了促進地面廣播電視傳播數位化轉換進程,南韓通訊傳播委員會(Korea Communications Commission, KCC)於2009年6月4日公佈將強制進行HD節目(High-Definition program)改良與制定執行計畫。KCC於2009年6月31日公佈與廣電數位化轉換法令有關之命令修正草案公告,其中將對無法達到要求的廣電傳播業者課予罰鍰或不利益處分。   根據先前執行廣電數位化轉換法令之經驗,KCC提出了相關修正草案。該草案將課予廣電傳播業者進行HD節目製播改良之法定義務,且須改善數位傳輸環境,以使廣電數位化能順利在2012年年底完成。此外,業者必須提出每年的執行計畫報告與公開類比播送終止、實施數位化播送的情況,否則業者將受有不利益之行政處分,例如基地台許可執照將被廢止。   南韓於2008年2月針對廣電類比訊號之關閉制定特別法,並要求在2012年12月31日全面完成廣電傳播數位化。如今為了確保數位化進程可如期完成,強制廣電傳播業者進行相關數位化工作,整體效益有待觀察。

法國參議院關於資料在地化(Data Localization)之修法提案

  為實現歐洲公民資料一致保護水準之期待,全面革新歐盟各會員國資料保護規範的一般資料保護規則(General Data Protection Regulation, GDPR),已於2016年4月14日由歐洲議會正式通過,且將在2018年5月25日生效,該規則異於資料保護指令(Data Protection Directive,95/46/EC)之處,在於規則無待各會員內國法化,得以直接適用,然而生效前的過渡期間,歐盟各國為因應新修正規則預作準備;近期,法國政府在「數位共和國」(République Numérique)法案中,欲修改現行關於資料保護之法律,如法國資料保護法(Loi Informatique et Libertes Act N°78-17 Of 6 January 1978),以達歐盟資料保護水準。   法國國民議會(Assemblée nationale)於2016年1月一讀通過,參議院(Sénat)隨後在5月提出修正案中第26 條之一(Article 26 bis A),要求個人資料應儲存於歐盟或法國境內的資料中心,同時為符合與歐盟的國際承諾會員國,並禁止個人資料傳輸至非歐盟的第三國,而參議院修法理由是為了確保法國規範符合歐盟資料保護水準,並依據先前歐盟法院關於安全港無效之判決的結果為修訂。  然而,資料在地化條款目前仍不明確,但此規定恐對資料傳輸設下更多限制;雖然在GDPR第23條規範關於各國決定限制權利和義務的範圍,資料傳輸至第三國並不在此列,故為加速修法程序,聯合調解委員會(Commission mixte paritaire)將於近期內審查調整,國民議會和參議院的代表仍能針對此條款提出意見以達成最終共識,後續修法值得關注。

TOP