美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/02/16)
引註此篇文章
你可能還會想看
日本因新冠肺炎而將修正著作權法關於線上教學之著作利用部分提前施行

  日本著作權法在2018年修正時,在第35條針對教育相關資通訊(利用網路進行線上教學與傳送預複習資料)之權利對應規定進行增修。修正前,利用人在每次利用時,均需獲得個別權利人之同意並支付授權金;而修正後,僅需一站式的支付補償金即可,無須得到權利人之許可。   然而本條規定原訂於2021年4月施行,但因為新冠肺炎疫情蔓延影響,許多學校、教學機構因停課而使得線上教學之需求提高。日本文化廳為防止感染並考量停課措施有可能長期化,宣布將文學作品、論文及新聞記事等作為線上教學教材,自本月開始無須得著作權人之許可即可使用,亦即將修正施行日期大幅提前。   而作為日本著作權人補償金分配窗口之「教學目的公眾放送補償金管理協會」,也在今年(2020年)4月6日決定本年度相關作品之補償金以特例無償之方式處理。依據上開規定,本年度的線上教學,不論是文學或是音樂等作品,均無須取得著作權人之同意,即可免費使用。

微軟10.6億美元購買AOL專利

  美國線上服務(AOL)找到改善公司資金短缺的問題。主要出售該公司800項並將其他相關專利授權予微軟(Microsoft)使用,共獲得總價10.6億美元。這也使得AOL的生存獲得機會,但也同時減低AOL的價值。   AOL出售專利主要是因為公司股東認為AOL無法利用專利為公司賺得應有的利益,因此出售大多數的專利給微軟,且將留下300項專利權,同時授權予微軟使用,其技術主要為廣告、搜尋、網際網路、多媒體等其他相關專利。   AOL將出售專利所獲得現金收入,大部分提供給股東。消息公佈後,雖微軟股價下降1.1%,而AOL股價卻上漲43%,每股26.2美元。整體而言,微軟期望透過此專利交易,比起AOL更有效率獲取收益,而AOL出售專利的同時,也喪失未來透過這些專利獲得收入的機會;當AOL的股東看似獲得龐大的回饋金,他們也同時失去未來無法預期的更大的利益回饋。   微軟將透過這800件專利新武器迎戰正在進行的科技競爭訴訟。當然微軟不是唯一提出訴訟的公司。近幾年幾家科技公司,谷歌(Google)、甲骨文公司(Oracle)、及蘋果公司(Apple)亦捲入專利訴訟。小型公司在訴訟中往往比較弱勢,但亦有成功的案例。如,微軟需支付專利訴訟賠償金額加上判決訴訟費用,共2.9億美元給I4i公司。

英國提出因應GDPR自動化決策與資料剖析規定之細部指導文件

  2018年5月,英國資訊專員辦公室(Information Commissioner’s Office, ICO)針對歐盟GDPR有關資料自動化決策與資料剖析之規定,公布了細部指導文件(detailed guidance on automated decision-making and profiling),供企業、組織參考。   在人工智慧與大數據分析潮流下,越來越多企業、組織透過完全自動化方式,廣泛蒐集個人資料並進行剖析,預測個人偏好或做出決策,使個人難以察覺或期待。為確保個人權利和自由,GDPR第22條規定資料當事人應有權免受會產生法律或相類重大效果的單純自動化處理決策(a decision based solely on automated processing)之影響,包括對個人的資料剖析(profiling),僅得於三種例外情況下進行單純自動化決策: 為簽訂或履行契約所必要; 歐盟或會員國法律所授權; 基於個人明示同意。   英國2018年新通過之資料保護法(Data Protection Act 2018)亦配合GDPR第22條規定,制定相應國內規範,改變1998年資料保護法原則上容許資料自動化決策而僅於重大影響時通知當事人之規定。   根據指導文件,企業、組織為因應GDPR而需特別留意或做出改變的事項有: 記錄資料處理活動,以幫助確認資料處理是否符合GDPR第22(1)條單純自動化決策之定義。 倘資料處理涉及資料剖析或重大自動化決策,應進行資料保護影響評估(Data Protection Impact Assessment, DPIA),判斷是否有GDPR第22條之適用,並及早了解相關風險以便因應處理。 提供給資料當事人的隱私權資訊(privacy information),必須包含自動化決策之資訊。 應確保組織有相關程序能接受資料當事人的申訴或異議,並有獨立審查機制。   指導文件並解釋所謂「單純自動化決策」、「資料剖析」、「有法律效果或相類重大影響」之意義,另就可進行單純自動化決策的三種例外情況簡單舉例。此外,縱使符合例外情況得進行單純自動化決策,資料控制者(data controller)仍必須提供重要資訊(meaningful information)給資料當事人,包括使用個人資料與自動化決策邏輯上的關聯性、對資料當事人可能產生的結果。指導文件亦針對如何向資料當事人解釋自動化決策處理及提供資訊較佳的方式舉例說明。

簡介美國FTC垃圾電郵法制施行成效報告

TOP