美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/06/21)
引註此篇文章
你可能還會想看
WIPO馬拉喀什條約

  《馬拉喀什條約》全名為《關於為盲人、視力障礙者或其他印刷品閱讀障礙者獲得已出版作品提供便利的馬拉喀什條約》(Marrakesh Treaty to Facilitate Access to Published Works for Persons Who Are Blind, Visually Impaired or Otherwise Print Disabled),2013年由世界智慧財產權組織(WIPO)通過,並於2016年9月30日生效。《馬拉喀什條約》目標是在保護智慧財產權的同時,亦能擴大視覺障礙者資訊及資源獲取的管道,允許盲人及視障者得複製已出版作品、簡化無障礙文本的印刷流通與授權,增加視障者閱讀機會。條約並要求締約方必須在國內法中明文對著作權人權利的例外與限制規定,允許被授權實體(例如為視力及閱讀障礙者服務的非營利性組織),製作圖書的無障礙格式版本,包括點字文本、大字本、數位化音訊等,並允許跨國境交換,均無須請求著作權人授權。   美國是目前擁有最多無障礙格式英文文本的國家。2019年1月28日,美國總統批准《馬拉喀什條約》後,美國成為了該條約的第50個締約國。條約在美國國內實施後,居住在條約締約國的視力障礙者將能立即獲得約550,000份無障礙文本。

ITU研議修改國際電信規則

  ITU國際電信聯盟秘書長Dr. Hanmasoun I Toure於2012年5月一場在加拿大舉行的無線通訊座談會中,針對之前國際上傳言聯合國與ITU將嘗試介入管理網際網路之說法進行澄清,並主張自1988年修改沿用至今的國際電信規則(ITRs)已不能應付目前新興之電信商業模式。   新型態的電信商業模式引發網路中立爭議的戰火,已延燒多時。從前的網際網路服務供應業者(ISP),主要遵守網際網路協定,扮演好笨水管(Dum Pipe)的角色。但隨著網際網路內容與各類應用服務的急速成長,各類封包的傳輸加重了原有管道的乘載負擔,再加上網際網路管理技術的演進,業者可透過網管技術對資訊封包的傳輸做更細緻的調節,逐漸形成內容傳輸優先次序差異化的新興商業模式,並且持續發展中。   依目前的技術能力,網際網路中任何內容傳輸的速度,皆能透過寬頻管理機制(QoS)進行調節。過去,QoS在國際通訊上,於各國的終端網路中進行調節工作。但現有的封包式的網路傳輸架構(packet-base networks)動搖了原有的秩序,不僅質量參數(quality parameters)大部分未受明確定義,QoS的角色也逐漸模糊。導致各系統本身無法完全控制跨網資訊傳輸的品質,影響各類服務在使用者的終端設備上所呈現的服務品質。對於需與固網或各類終端設備連結的行動通訊業者而言,如何解決這類問題儼然已成了燃眉之急。   目前ITU剛結束於日內瓦的年會,從會中委員會對其文件是否具備國際效力之議題討論,不難看出ITU對於網際網路管理態度已由被動態度轉為積極。未來ITU更期望,藉由年底舉行2012年國際電信世界大會(WCIT-12),重新修訂舊有國際電信規則(ITRs),引領網際網路的新秩序。

聯合國討論網路身份管理計畫

  聯合國國家安全組織(U.N. National Security Agency)計畫於一項名為Q6/17之「網路使用者身份管理計畫」提案中,討論如何以修改網路架構之方式,確保網路通訊來源之真實性與可追溯性。此項計畫被認為可能對網路匿名性產生極大衝擊。   目前網路所賴以溝通訊息之TCP/IP通訊架構,仍允許使用者於一定範圍內保有於網路上匿名發言或活動之可能,例如Tor線上匿名軟體(Tor: anonymity online)之運作即是。然而,此種匿名式的運作架構,被抨擊可能威脅網路安全,例如駭客可利用大量偽造來源地址(spoofed source IP addresses),發動分散式阻斷服務(DDoS)攻擊。   有鑑於此,Q6/17提案乃嘗試藉由網路連線技術架構的調整,確保未來任何網路上之活動皆可追蹤出原始網路通訊來源(“IP Trackback”)。然而,此種作法被批評為將摧毀網路匿名特性,並對個人隱私造成侵害,或成為各國政府打擊政治異議人士的工具。發表匿名言論權利曾受許多國家憲法或國際條約的肯認,例如1995年美國最高法院於McIntyre v. Ohio Elections Commission一案,做出「匿名發表權乃受憲法保護之人民基本權」見解,歐盟亦有「網路通訊自由宣言(Declaration on Freedom of Communication on the Internet)」。故Q6/17嘗試消弭發表網路匿名言論之技術突破,是否能通過世界各國憲法之嚴格檢驗,仍值得後續關注研究。

英國資訊委員辦公室(Information Commissioner’s Office,ICO)認定英國電子零售業者Carphone Warehouse違反《Data Protection Act 1998》資料保護法

  英國電子零售業者Carphone Warehouse在2015年遭到網路攻擊,造成逾300萬客戶及1000名員工的資料外洩,外洩的資料包括客戶的姓名、地址、電話號碼、出生日期、婚姻狀況及1.8萬名客戶的金融卡資訊。   英國資訊委員辦公室(Information Commissioner’s Office,ICO)認為涉及之個人資料嚴重影響個人隱私,使得個人資料有被誤用的風險。ICO進一步調查後並發現,駭客僅是透過有效的登入憑證,就能藉由WordPress軟體存取系統,此事件亦暴露該組織技術安全措施之不足,因受影響系統中使用的軟件的重要元素已過時,且公司未能執行例行的安全測試。ICO認為,像Carphone Warehouse此類規模龐大的公司,應積極評估其資料安全系統,確保系統穩健而避免類似的攻擊。   據此,ICO判定該公司缺乏妥善的安全措施保障使用者資訊,已嚴重違反《Data Protection Act 1998》資料保護法,判罰40萬英鎊。   從今年5月25日起,隨著GDPR的生效,法律將更加嚴格。對此,ICO亦發布了有用的指導,包括GDPR指南,現在採取的12個步驟和工具包。國家網絡安全中心(NCSC)也為組織為保護自己所採取的步驟提供了有用的指導。

TOP