美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/02/17)
引註此篇文章
你可能還會想看
美國上訴法院推翻FCC對廣電節目猥褻言論之認定

  美國紐約第二巡迴法院上訴法院於2007年6月5日做出判決,認定FCC對於廣電節目是否違反猥褻言論規範之判斷標準為恣意專斷(arbitrary and capricious)的決定。此一案件起因於福斯電視台轉播2002年及2003年音樂告示排行榜頒獎典禮(Billboard Music Awards)時,歌手Cher及名人Nicole Richie分別在典禮中說出不雅言詞,事後FCC認定福斯電視台之轉播違反廣電節目之猥褻言論相關規範。福斯電視台對於FCC之認定不服,因而向法院提起訴訟。   依照過去FCC對猥褻言論之認定標準來看,「瞬間之咒罵言詞」(fleeting expletives)並不屬於猥褻言論,廣電節目中播出相關內容並不違反猥褻言論之管制規範。但自2003年起,FCC改變認定標準,認為所有不雅言詞均不可避免地帶有性暗示之內涵,因此廣電節目中凡涉及不雅言論之內容都是猥褻言論。   根據紐約第二巡迴法院上訴法院之判決指出,FCC的決定毫無疑問地改變了對於廣電節目是否違反猥褻言論規範之認定標準,且FCC對於改變認定標準一事所提出的理由並不具有說服力;FCC於訴訟過程中亦承認,即便在決定改變認定標準前,也沒有證據顯示廣播電視台曾密集播送充滿咒罵言論之內容。因此,紐約第二巡迴法院上訴法院認為,FCC改變認定標準一事乃是恣意專斷的決定,從而撤銷FCC對於福斯節目之認定。對於法院之判決,FCC主席Kevin Martin表示遺憾以及難以置信,將會委請律師研議是否繼續上訴最高法院。

美國馬里蘭州法案禁止雇主近用(access)其員工及應徵者之社群網站資訊

  日前報導指出,在美國有部分的企業在面試時要求應徵者交出其臉書(Facebook)帳號及密碼,以供企業做為評估是否錄取之參考。企業這樣的舉動,遭論者類比為要求應徵者交出自家大門的鑰匙。據悉,企業此一傾向在九一一後有明顯增加之趨勢。   為因應此一趨勢所帶來的隱私疑慮,馬里蘭州在四月初已立法(撰稿時,此法尚待該州州長簽署)禁止雇主要求瀏覽或進入員工與應徵者的臉書或其他社交網站頁面,當然也包括禁止雇主取得員工或應徵者的臉書或社交網站帳號與密碼,或企圖成為員工及應徵者的「朋友」。   馬里蘭州此一立法,除了在保護員工或求職者的隱私之外,也是為了保障言論自由;且此一看似亦在保護應徵者及員工之法律,其實對企業亦有助益:其使原本處於法律灰色地帶的爭議問題明朗化,因而可使企業瞭解應如何因應,而可避免許多不必要的訴訟。   雖然輿論對此立法有許多贊同之聲,但亦不乏反對此一立法者,例如馬里蘭州的許多商業團體即認為瞭解求職者的社交活動,對於剔除不適任的應徵者,有其必要。   馬里蘭州此一立法乃率全美之先,其他各州可能亦陸續會提出類似法案。

區塊鏈技術運用於智財保護

  區塊鏈技術具有去中心化、透明性、開放性、自治性、訊息不可篡改、匿名性等六大特徵,可加密記錄該系統上所有使用者之行為資訊,並使該資訊不易篡改。其最初被運用在虛擬貨幣比特幣(Bitcoin)的建構,發展至今應用已拓展至諸多領域,包括對智慧財產權的保護。美國的blockai網站即是將區塊鏈技術運用於智財保護的實例之一,美國過去由國會圖書館負責著作權之管理之作法,在程序上曠日費時且效率不彰,故blockai於2015年創立於美國舊金山,旨在提供著作人更簡單有效的選擇。其作法係由著作人於blockai註冊帳號後進行作品之註冊並取得一相應之著作權證書,並由blockai以區塊鏈技術建立公眾資料庫,透過區塊鏈不可篡改、透明開放等技術特徵來證明作品確由著作人創作,利於後續舉證維權。現階段blockai開立之證書雖未被授與法律上地位,但依區塊鏈的技術特徵,可望成為法庭攻防上著作人有力之科學證據。   揆諸我國相關法律,我國非採著作登記制,著作人為維護自身權利需先證明系爭著作為自己所創作,惟訴訟實務上著作人多半舉證不易。若參考美國作法導入區塊鏈技術落實著作權保障,或可作為科技整合法律之新標竿。 「本文同步刊登於TIPS網站(https://www.tips.org.tw)」

歐洲推動人體生物資料庫再利用沙盒

  非營利組織EIT Health於2020年2月展開公共人體生物資料庫(Public biobank)再利用之「數位沙盒」(Digital Sandbox)計畫的第二次公開徵求。參與的中小企業於提案後,可於2020年7月底前獲得通過與否的通知,並最快於2020年9月開始參與計畫。   EIT Health成立於2015年,是歐洲創新技術研究所(European Institute of Innovation and Technology)下的「知識與創新社群」(knowledge and innovation community)之一,主要資金來自歐盟「展望2020」(Horizon 2020)。有鑑於數位革命創造了大量極具研究價值的醫學生物資料,EIT Health於2019下半年提出公共人體生物資料庫再利用之「數位沙盒」計畫構想,該計劃主要目的在支持中小企業利用該生物資料實施創新服務或開發產品。   而依據歐盟一般資料保護規則(General Data Protection Regulation, GDPR)第89條規定,如果生物資料庫之利用係基於科學研究或公共利益之必要,可以在符合「適當的技術和組織措施」(Technical And Organisational Measures)之前提下得到豁免(exemptions)。依此條文,EIT Health之「數位沙盒」計畫參與者得不遵守GDPR第15條(資料主體之接近使用權)、第16條(更正權)、第18條(限制處理權)、第19條(關於更正或刪除個人資料或限制處理之通知義務)、第20條(資料可攜性權利)以及第21條(拒絕權)之規定。透過此計畫,有望幫助中小企業獲得公共人體生物資料庫、研究參與者(Sample holder)和登記冊的近用權限。此外,計畫亦提供最高35,000歐元的資金,以幫助中小型企業在開發創新產品時利用資料。

TOP