美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/01/28)
引註此篇文章
你可能還會想看
英國Ofcom對媒體多元性標準徵求公眾意見

  2011年3月,英國文化、奧運、媒體與體育大臣(Secretary of State for Culture, Olympics, Media and Sport)Jeremy Hunt原已同意跨國媒體集團News Corporation併購英國天空廣播公司British Sky Broadcasting Group(BSkyB)並進行後續之審議流程。但在同年7月爆出News Corporation旗下的英國世界新聞報竊聽醜聞後,News Corporation立即取消該項併購申請。   在此一事件影響下,Jeremy Hunt要求英國電信主管機關Ofcom(Office of communications)對於跨媒體多元性管制架構進行檢討。現行媒體多元性管制主要在於同媒體之間合併必須通過公眾利益測試(public interest test),並有國家跨媒體所有權限制。Ofcom徵求意見如下: 1.跨平台媒體多元性如何測量,推荐最好方法為何? 2.在新聞市場中可否設定一絕對的市場佔有率限制? 3.在沒有合併案件的情形下,是否有其他事件可引發媒體多元性的持續追蹤、誰以及如何進行追蹤? 4.媒體多元性測量是否包含網站? 5.測量是否包含BBC?   Ofcom將於2011年11月18日截止收件,並於2012年初提出修改之方向。

在西班牙下載音樂無罪?!

  本週西班牙法官判決,認為行為人為私人用途而下載音樂,其行為並非藉以從中獲利,應認其為無罪。 即便,檢察官辦公室及音樂工會呼籲應對此下載音樂並且在郵件及聊天室提供音樂之被告,處以兩年有期徒刑,然而,在此案當中,卻無直接證據證明被告於銷售音樂之過程中獲利。   此判決震驚了音樂工會,如此一來,西班牙一千六百萬的網路使用者將可透過網路交換音樂而不會受到處罰。西班牙唱片工會聯盟 Promusicae 表示,他將對此項判決提起上訴。   由於歐洲不同的法律規定,關於分享檔案的訴訟也會因不同國家而有極大的差異。然而,大多數的歐洲國家傾向對此處以較高的刑罰。就同為歐盟成員的芬蘭而言,上週便有 22 人因為非法分享電影、音樂遊戲及軟體而被處以 427,000 歐元。   至於西班牙此項為個人用途而下載音樂之行為,據其司法院院長指出,則有待立法修正解決。

美國眾議院法制委員會全體一致通過專利法2007年改革法案

  美國眾議院法制委員會於七月十八日全體一致通過「專利法2007年改革法案」( Patent Reform Act of 2007),根據美國軟體與資訊工業協會( Software & Information Industry Association,簡稱SIIA)的總裁Ken Wasch表示,該修正案的通過是美國專利制度現代化的重要指標,而一個有效率且公正的專利制度對於繼續美國國內經濟發展並領導全世界經濟時具有舉足輕重的地位。眾議院的議員Howard Berman表示,對於美國專利核發品質低落、花費高昂及時間冗長的訴訟程序已經嚴重地阻礙到創新力與創造力。這次修法的目的在於改善專利的品質、嚇阻專利所有人權利的濫用、以異議專利的有效性的方式以提供更有意義且低花費的替代式專利訴訟、並讓美國專利法能與其他國家的專利法調合。   該法案除了通過的部分包括「不正當行為」(Inequitable Conduct )、「犯罪地的限制」(Restrictions on Venue)、「損害賠償的取得」(Awards of Damage)修正。最令人注意的是,刪除了最具爭議的「專利權核准後審查程序」( Posted- granted Review),該程序並無時間的限制,而始得專利侵權訴訟中之被告能夠對專利之有效性向美國專利商標局提出再審的請求。法制委員會對此程序舉行多次公聽會,但修正案仍以增加現有「專利再審制度」( Reexamination)的方式取代之。   實務界認為,本修正案會使得專利的價值降低,而使得一些非以製造產品為公司營運目的,但專事經營擁有並實施專利權為主要歲收來源的「專利巨人」(Patent Tolls)公司生存困難。

加拿大可能推動更嚴格的身份盜用法律

  加拿大的身份盜用問題嚴重,根據Canadian Council of Better Business Bureaus估計,每年因身份盜用所造成的經濟整體損失超過二十億加幣。此外,去年十一月Ipsos-Reid的調查顯示,73%的加拿大人擔心身份盜用問題,且28%的加拿大人曾親身遭遇、或是有周遭認識之人因此受害。   然而,與身份盜用猖獗的現況相較,加拿大個人資料和隱私保護法制一直飽受批評,被認為無法遏止此一問題擴散。加拿大資料安全之基礎規範為「個人資訊保護與電子文件法」(Personal Information Protection and Electronic Documents Act),但以具有重要嚇阻效果的刑法而言,卻只處罰濫用他人身份資訊,如身份詐欺、冒用、偽造等行為,但對於初步蒐集、處理和盜賣身份資訊之行為,卻難以透過現行刑法規範。   身份盜用可能造成的影響層面相當廣泛,例如個人的財務和信用損失、商業或財金產業的損失,甚至是整體納稅人的傷害。   職是之故,加拿大勞工部、魁北克經濟發展部等政府首長乃宣布,聯邦政府有意推動刑法之修改,使檢警對於先期身份盜用(或違法資料蒐集)之行為,有更大的調查和追訴空間,並希望此一政策方向能獲得國會的後續支持。

TOP