美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/01/12)
引註此篇文章
你可能還會想看
中國大陸網路安全法於6月1日正式施行

  中國大陸網路安全法於去(2016)年11月通過,於今(2017)年6月1日正式施行,該法主要係為了保障網路安全,維護網路空間主權與國家安全、社會公共利益,保護公民、法人和其他組織的合法權益,為第一個國家層級處理網路安全問題的法律,旨在確保維護網路空間的國家主權、保護使用者個資、防範網路攻擊及網路詐騙。   中國大陸網路安全法共七章79條,包括第一章總則、第二章網路安全支持與促進、第三章網路運行安全、第四章網路訊息安全、第五章監測預警與應急處置、第六章法律責任、第七章附則。其規範重點之一為關鍵資訊基礎設施正式納入網路安全保護範圍內,關鍵資訊基礎設施之定義不僅包括電力、運輸和金融等傳統關鍵行業,還包括法律規定涉及民生的其他基礎設施,表示任何關鍵資訊基礎設施相關廠商、供應商等外國公司,以及擁有大量中國大陸訊息的廠商,都有可能成為中國大陸網路安全法監管、執法調查、強制執行的主要對象。   中國大陸網路安全法亦要求關鍵資訊基礎設施相關廠商將個資與重要數據資料在地化,或是將這些數據資料傳輸至國外前,必須經過相關的監管機構進行自我安全評估或先加以批准。

流行音樂「取樣」之著作權概念

  流行音樂之抄襲,於我國著作權法之評價上,是以著作權法第91條第1項「擅自以重製之方法侵害他人之著作財產權者」來評價,我國智慧財產法院已有相關判決可供參酌,如智慧財產法院 103 年刑智上易字第 47 號刑事判決。惟流行音樂之創作,往往受到流行趨勢及過去其他作品的啟發,但將任何的風格上的模仿皆認為係著作權之侵害顯然並不恰當,而旋律相似度高達九成左右者屬於抄襲固然無庸置疑,然僅取樣(sampling)使用少數詞曲,用以表達概念或致敬之使用他人創作情形,其判斷標準,或可參考美國法院之判決見解。   2003年的Newton v. Diamond案中,第九巡迴上訴法院認可「微量取用」(de minimis use)原則,認為在有數十秒的取樣情形時,當一般聽眾不認為是挪用,即構成微量取用,並無實質近似,且若未取樣原曲之重要部分,亦不構成抄襲。但2005年時,聯邦第六巡迴上訴法院在Bridgeport Music, Inc. v. Dimension Films案中,對微量取用的情形提出「明確性規則」(bright- line rule),認為必須要取得授權方得取樣;而美國最高法院則在1994年的Campbell v. Acuff-Rose案中,認為雖有擷取他曲旋律,但整體曲風不同時,採取轉化性原則,認為構成合理使用。

歐盟個人資料保護委員會提出關於資料主體接近使用其個人資料權利之指引

  歐盟《一般資料保護規則》(General Data Protection Regulation, GDPR)第15條為「資料主體之接近使用權(Right of access)」,其第1項規定「資料主體有權向控管者確認其個人資料是否正被處理」,資料主體並得知悉其個資處理之目的、所涉及之類型等事項。該條係為使資料主體在獲得充分、透明且容易接近之資訊,使其得更輕易的行使如資料刪除或更正等權利。   因條文在文字上具抽象性,就具體內涵仍須有一定基準,故歐盟個人資料保護委員會(European Data Protection Board, EDPB)於2022年1月18日,針對GDPR中之接近使用權提出指引(Guidelines 01/2022 on data subject rights - Right of access),闡明在不同的情況中,資料主體應如何向資料控管者(Data Controller)主張接近使用權,並且說明資料控管者針對此項權利之義務內涵。   就具體內容,該指引包含:接近使用權之範圍、資料控管者應向資料主體提供之資訊內容、資料主體請求資訊之格式、資料控管者應如何提供資訊、GDPR第12條第5項所稱「資料主體之請求明顯無理由或過度者」之概念為何。指引並製作流程圖,以便利資料主體輕易的了解向資料控管者主張權利之步驟。   而對於資料控管者,指引亦說明其應如何解釋與評估資料主體之請求、應如何回覆特定請求、限制接近使用權之例子。該指引旨在從各方面分析接近使用權,經由舉例與設想特殊情形,以求為該權利提供更精確之指導。

韓國金融服務委員會發佈防止金融機構再度發生個人資料外洩之要求

  韓國於今年1月份爆發史上規模最大的個資外洩案,國民銀行執行長李健浩、國民銀行信用卡公司執行長沈在吾、樂天信用卡公司執行長朴相勳與農協銀行信用卡公司執行長孫京植等人,亦因此請辭以示負責。   為防止將來金融機構再次發生個人資料外洩等事件,韓國金融服務委員會(Financial Services Commission, FSC)與相關部會於3月份發佈一連串要求,以下為其基本原則 1. 金融機構將被要求在處理客戶的個人資料時的每一個階段,包括蒐集、保存、使用和銷毀客戶資料時,都必須擔負起更多的責任。 2. 確保金融消費者可主張關於其個人資料之相關權利,包括金融消費者可決定金融機構於何時如何使用其個人資料。 3. 提升金融機構對於其客戶之個人資料保護責任,包括提升首席資訊安全官(Chief Information Security Officer, CISO)獨立性與責任、加重金融機構於資訊安全違規時相關罰則。 4. 政府將採取更多措施以確保金融機構的網路安全。 5. 金融機構必須建立緊急應變機制,以確保面對未來可能的資料外洩事故時,可迅速有效的應對。   韓國政府於於3月底已對不需修改法律之部分開始執行,而涉及《使用和保護信用資料法》和《電子金融交易法》部分亦待議會修法。

TOP