美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/01/01)
引註此篇文章
你可能還會想看
英國資訊專員辦公室強調歐盟資訊保護改革成本充滿不確定性

  英國資訊專員辦公室進行獨立調查時發現, 1、40%的企業沒有充分認識提出的主要條文; 2、87%的企業無法估計公司中業務為因應改革可能支出的成本; 3、82%的受訪者是無法量化其當前資訊保護的開支; 4、在少數的大型組織觀測調查中發現,估計資訊保護的平均花費時常會受到扭曲; 5、當公司擁有超過250名員工或處理超過10萬筆個資紀錄時,絕大多數都已經聘請資訊保護專人; 6、重點業別包括服務業、金融保險業以及公共管理等,需要針對資訊管理有所計畫。   而調查報告在2013年5月14日於柏林舉辦的第三次歐洲資訊保護日會議中提出,資訊專員Christopher Graham表示「必須說,有少數人不同意為面臨21世紀的挑戰,而需要修訂歐洲資訊保護法。但真正進步之實現在於,今日或將來的法律面,針對個人資料有更好的體現。關鍵點在於確實地衡平理論面與執行面中資訊保護權利之平衡點。」   「已經談論過很多關於『什麼是最好的商業』,但這必須基於合法證據。此次的改革的結果會是非常重要的,我們希望敦促歐盟委員會可以考慮並將重點放在制定法律,為消費者提供真正的保障。」   「同樣的,企業和其他的利益相關者必須參與具建設性的義務與隱私權權利的重要性改革,在此過程中仍然可以受到影響」

歐盟執委會授權各國決定GMO的提案遭抨擊  10月環境部長會議將繼續協商

  歐盟執委會(European Commission)於今(2010)年7月授權歐盟各會員國自行決定禁止或准許基因改造(GM)農作物的提案,過去幾個月來即已不斷遭受外界質疑,在近日(9月27日)召開的農業部長會議上又受到主要歐盟會員國的強烈抨擊;歐盟消費者健康及安全政策部門代表John Dalli表示,這個問題將會在10月14日召開的環境部長會議繼續進行協商。   事實上,歐盟執委會的提案同時引來了GMO支持者與GMO反對者的譴責,他們認為這項議案會給農民與農產業者製造法律上的不確定空間,徒增困擾;此外,綠色和平組織歐盟農業政策執行長Marco Contiero也表示,各會員國都不應該接受執委會的這項提案,反而必須對執委會施加壓力,以確保農作物的安全並預防環境污染。農業會議上,許多會員國農業部長也擔心執委會的提案不但會分裂農產品國際市場,並也可能與WTO規則相衝突。   由於預期執委會7月份的提案可能將被撤回或大幅修改,參與農業會議的各國部長也都同意在這過渡時期成立專責的工作小組,以資因應該提案所引致的眾多批評。就現階段看起來,GMO爭議還會在歐盟繼續上演,後續的相關討論值得繼續觀察。

德國發布國家資料戰略─《透過資料利用取得進展》

2024年德國預計制訂或修正多部法規,以達成2023年8月公布的德國資料戰略《透過資料利用取得進展》(Fortschritt durch Datennutzung)文件中所設定的目標。該戰略由內政部、經濟與氣候行動部、數位與交通部聯合訂定,規劃德國資料政策與法規的工作進程,以期打破資料封閉的現狀、拓展資料應用的範圍。 德國資料戰略目標與重點摘要如下: 1.更多的資料: (1)公部門資料:藉由統整跨部門的資料增加資料的可近用性,並透過新訂法規提升資料近用機會,包括《交通資料法》(Mobilitätsdatengesetz)確保交通資料的品質和使用規則、《聯邦透明度法》(Bundestransparenzgesetz)作為取得政府資料的法源依據、《研究資料法》(Forschungsdatengesetz)簡化科研資料的取得,以及為增加健康資料二次利用起草的《健康資料利用法》。 (2)私部門資料:德國政府將訂定並提供資料共享之契約範本,以降低資料的交易、操作成本,並評估增修公平競爭相關法規來協助企業間的資料合作。另將新訂《員工資料保護法》(Beschäftigtendatenschutzgesetz),重整散於歐洲人權法院及德國國內與員工資料相關之規範。 2.更好的資料:德國將積極參與國際資料標準訂定與遵循,確保資料的品質、互操作性,以及標準化的資料描述。相關工作包括草擬關於業者使用cookie等數位追蹤技術如何取得使用者同意的管理規範,並將依歐盟準則評估是否訂定不法重新識別之刑責;另外預計建立文化、農業等主題資料室用以協助政府決策。 3. 資料利用和資料文化:為使資料可持續地利用與發展,政府機關方面將設置資料專責人員,並在以政府資料訓練大型語言模型技術時由新設的資料諮詢中心協助。公民數位能力方面,將於STEM 2.0教育計畫中規劃培育資料概念,促進未來社會發展出更多樣的資料應用機會。 德國資料戰略涉及政府、企業、研究單位和公民各層面,顯示資料的重要性逐漸成為德國重大的課題,亦是我國在建立資料治理時如何確保資料品質、交換義務與使用規則的參考方向。

軟體安全性缺失成為買賣標的

  瑞士的網路安全公司WSLabi於2007年7月9日宣佈一項訊息,未來將在線上公開交易或交換一些軟體的安全性漏洞和弱點予軟體相關研究人員、安全代理商和軟體公司,價格從數百美元至數萬美元不等。而此意謂拍賣軟體瑕疵的新興市場即將被打開。   WSLabi公開拍賣軟體弱點與漏洞的作法引起了很大的爭論。以往軟體安全業者於發現軟體的弱點後,會與軟體開發者合作修補安全性弱點和漏洞,待修補完成後再公開宣佈修補軟體安全性弱點之相關訊息。但該公司的新作法將導致軟體公司未來可能因為無法及時修補弱點而商譽受損。因此該項計畫雖尚未實行,卻引起了不同看法的爭辯:支持者表示,此一計畫將有助於改善軟體弱點及安全漏洞的問題,並可鼓勵對於軟體的弱點的深入研究;然反對者卻認為,如果軟體的弱點和安全漏洞因而落入有心人的手中,利用於犯罪或幫助他人犯罪,將會對資訊安全形成極大威脅。再者,把其他公司開發的軟體弱點在市場上交易,可能也會引發道德與合法性的問題。   WSLabi於瞭解這項做法可能引起侵害著作權(重製、散布、販賣軟體等行為)、營業秘密與犯罪防治等法律上的爭議及國家安全的問題後表示,他們將會審慎地過濾選擇買主,不會將研究之結果出售予犯罪者或敵國政府。雖然如此,他們的說法仍引起質疑,畢竟判斷買主是否為善意或確定身份並非易事。

TOP