美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/02/06)
引註此篇文章
你可能還會想看
德國聯邦議院通過能源效率法,節能目標將入法

德國聯邦議院於2023年9月21日通過《能源效率法》(Energieeffizienzgesetz, EnEfG)草案,確立德國能源效率目標,並規範公部門及企業的具體效率措施,及首次定義資料中心的能效標準,本法並要求德國2030目標應符合歐盟能源效率指令(EU Energy Efficiency Directive, EED)。預計聯邦參議院將在10月底審議該法律,之後將盡快生效。本次修法重點如下: 1.能源效率目標:EnEfG規定2030年德國減少初級和最終能源消耗的目標,以及2045年減少最終能源消耗的目標。以最終能源消耗而言,此代表著2030年減少約500TWh(與目前水準相比)。未來,聯邦政府將在立法期開始時,定期向聯邦議院通報目標實現情況,並在必要時決定調整工具組合。 2.聯邦及各邦的節能義務:從2024年起,聯邦政府和各邦政府有義務採取節能措施。至2030年,聯邦及各邦的最終能源消耗每年各分別節省45TWh和3TWh。 3.公部門在節能減排方面樹立榜樣:為了使聯邦和邦層級的公部門在提升能源效率方面能做為表率,未來將導入能源或環境管理系統。此外,EnEfG也規定節能措施的實施,目標是每年最終能源消耗減少2%。 4.企業能源或環境管理系統:EnEfG要求能耗較大(超過平均7.5GWh)的企業導入能源或環境管理系統,最終能源消耗總量為2.5 GWh以上的企業,則需要在實施計畫中,記錄和公布節能措施。此種作法不僅提高能源消耗的透明度,同時也讓企業可自行決定導入哪些措施以及預計的成果。 5.資料中心的能源效率及餘熱要求:新的資料中心應遵守能源效率標準,還必須利用餘熱(Abwärme)。未來,所有大型資料中心營運商應使用再生能源電力,並於公共登錄冊中記載能源消耗的資訊,以及向客戶告知其具體能源消耗狀況。 6.餘熱的避免與利用:未來應盡可能避免生產過程中產生餘熱。如果無法避免,則應利用餘熱。此外,有關企業餘熱潛力的資訊將綁定並公布在一新平台上。

日本「新產業構造部會」提出2030年「新產業構造願景」

  日本政府認為IoT、Big Data以及人工智慧等破壞式創新技術的出現,目前世界正處於「第四次工業革命」之重大變革,而究竟IoT、Big Data及人工智慧的發展會對經濟、社會產生什麼程度的影響,公私部門有必要共同對應及討論共同戰略願景。因此,經濟產業省於2015年9月17日在「產業構造審議會」下設置「新產業構造部會」,以公私協力的方式共同策定未來產業願景。 該會議的具體檢討事項包括: 1. 具體變革狀況檢視:IoT、Big Data、人工智慧等技術,究竟會對產業構造、就業結構,以及經濟社會系統具體產生如何的改變。 2. 變革之影響:上述的變化可能創造機會,亦會產生風險。因此,於經濟社會層面要怎麼解決迎面而來的挑戰,是否有可能克服相關限制,亦為應關注的焦點。 3. 把握國際上的動向:上述的機會及風險,各國政府及企業等應對的戰略究竟為何。 4. 日本政府具體之特定處方籤:於上述背景下,日本政府及民間企業,應提出個別之戰略及對應方法。   綜上所述,公私部門應協力做成包含時間進程的「指南針」,最後提出2030年「新產業構造願景(新産業構造ビジョン)」,對將來經濟社會系統進行預測。

歐盟正式批准基因改造馬鈴薯商業化種植,擬朝向規劃尊重各國決定權的決策程序

  今(2010)年3月,歐盟委員會正式批准Amflora基因改造馬鈴薯商業種植,此舉係歐盟自1998年以來首次核准種植的基因改造作物。   歐盟委員會內的消費者健康及安全政策部門代表John Dalli表示,經過徹底的科學分析與相關安全檢驗後,將排除與解答對於此一基因改造馬鈴薯之疑慮,因此並無不予核准之正當理由。再者,本次所核准的範圍係Amflora馬鈴薯經處理過後作為穀物飼料之用,將不會提供作為人類食品使用。此外,未來歐盟委員會將決定進口使用基因改造玉米品種與其製成之食品及飼料產品等,這將涉及多種歐盟委員會先前所核准的基因改造玉米品種,如MON810、MON863及NK603等。   但事實上,各界仍對於本次核准的Amflora馬鈴薯與其他三項基因改造玉米的標記基因存有抗藥性的疑慮與爭議,針對於此,去(2009)年6月間,歐盟食品安全管理局(European Food Safety Authority,簡稱EFSA)內的科學小組已再次進行安全檢驗,最後指出,以目前科技水準得出結論,基因改造作物中的標記基因不會對人體健康或是生態環境帶來負面影響。   為能解決批准基因改造作物商業化種植的問題,歐盟委員會考量將進一步規劃如何在決定種植基因改造作物的過程中強化各會員國的決定權,歡迎各界就此提出建議與發表意見,期望由消費者健康及安全政策部門提出一項具備共通性與科學證據基礎的決策過程,以供各會員國於過程中充分反映其立場,並自行決定是否將核准基因改造作物於境內的商業化種植。

YouTube網站被控侵害著作權

  美國新聞記者兼直昇機飛行員 羅伯特爾( Robert Tur )於 7 月 14 日 控告近來迅速竄紅的影片分享網站 YouTube 侵害著作權,特爾指稱 YouTube 網站鼓勵用戶拷貝受到保護的影片資料,此舉違反了 2005 年一項美國最高法院的判決( MGM v. Grokster ) ,該判決認為 P2P 軟體業者若蓄意鼓勵或誘使客戶從事線上盜版行為,即可能構成著作權侵害。   羅伯特爾聲稱,他所拍攝的 1992 年洛杉磯暴動事件以及 1994 年高速公路上追捕辛普森的直昇機空拍報導影片,未經他的同意就被上傳並在 YouTube 網站上廣為流傳。 特爾亦聲稱, YouTube 網站從他的作品中獲利,同時也侵害了他的著作權,因此提出了 15 萬美元賠償要求並要求網站不得再使用他的影片資料。   YouTube 網站發表聲明指出,自獲悉特爾提出告訴的消息後,網站就已經將他的影片撤下,另一方面認為網站的行為完全符合「一九九八年 數位千禧年著作權法案」﹙ Digital Millenium Copyright Act of 1998 ﹚之規定,應受到該法案免責條款的保護 。

TOP