美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/02/28)
引註此篇文章
你可能還會想看
歐洲議會呼籲尊重網路人權

  歐洲議會於2009年3月26日,以大多數支持Lambrinidis報告中關於網路上個人自由保護之投票結果,反對法國政府和著作權行業提出的修正案。歐洲議會的態度是「保障所有公民接近使用網路就如同保障所有公民接受教育」,而且「政府或私人組織不能以處罰之方式拒給這種接近使用的權利」。歐洲議會議員要求會員國政府需體認到網路是一個有效增加公民權利義務之特殊機會,就這方面而言,使用網路及網路內容是一個關鍵要素。   這份報告被歐洲議會議員所採用,得以認識到提供安全措施來保護網路使用者(特別是孩童)之必要性,由於使用者可能會因使用網路,而暴露在成為罪犯或恐怖份子的犯罪工具的風險中。報告中提出方案對抗網路犯罪,但同時也要求在安全及網路使用者基本權利保障中尋求平衡點。 此報告否定法國所提之修正案,歐洲議會又再度否決由法國努力推動「網路侵權三振法案」(three strikes file-sharing law)。歐洲議會認為對於所有網路使用者的監測活動及對於侵權者之處罰有違比例原則。歐洲議會亦公開支持「網路權利憲章」(Internet Bill of Rights)以及推動「隱私權設計」(privacy by design)宗旨。

美國參議院通過「寬頻資料促進法」

  2008年10月,美國參議院通過「寬頻資料促進法」(Broadband Data Improvement Act),由總統簽署後施行。此新法賦予機關提升寬頻有關資料正確性的義務,以精確的資料作為相關政策制定時之衡量基準。美國政府認知,必須架構最完善的寬頻網路基礎,方能保持美國在科技領域的世界領先地位,因此聯邦政府有責任持續拓展寬頻接取網絡,並著手佈建次世代寬頻技術。而此前提,在於取得精確資料供後續施政依循。     以往美國聯邦通訊委員會(FCC)蒐集寬頻相關資料的方式,常被批評不合時宜,2008年3月FCC主動改善其蒐集資料的方式,要求寬頻業者必須透過地域性人口調查方式,提供使用者人數、速度、及技術類型等資料。此新法更要求FCC表列出欠缺寬頻設施的地區,兼調查該等地區人口及收入水準,而改善寬頻接取的情形,為加速佈建寬頻環境的第一步。     除此以外,新法的要求尚包括:1、美國商業部及其他機關應促進所蒐集相關資料的正確性,以擬定較妥適政策來提升寬頻技術架構;2、FCC針對寬頻佈建展開年度例行調查,以五碼郵遞區為一地理單位,列出尚未有寬頻的地區。並依據未有寬頻服務地域的人口數據,劃定可提供最多連線且傳輸高畫質影像的寬頻服務層級。此外,研究其他25個國家與美國寬頻服務的異同點;3、美國國勢調查局(Census Bureau)應持續調查社區居民是否擁有電腦,採取撥接或寬頻連線;4、設置補助金來促進網路普及。     惟有評論家指出,該法雖立意甚佳,但直至下個會計年度通過配套法案前,政府根本沒有足夠預算可執行此法律,該法可能只是政策測溫,並無太大實質效益。

奈米技術可能對健康與環境產生危害,專家呼籲應加強檢測與管制

  美國環境保護局(US Environmental Protection Agency)考慮對使用於殺菌或抑菌功效之奈米銀予以列管,這項決定與Samsung推出的洗衣機產品有關,這項新產品強調在洗衣的過程中,加入一種可以殺菌的奈米銀物質(nano-silver),不過這項物質卻被認為可能會釋放對人體及環境有害的物質,導致EPA決定加強管理。   奈米技術是有關極小化物質的創造與使用的技術,且極小化物質的尺寸僅比原子大一點,約在一奈米及一百奈米之間,一奈米等於是十億分之一尺,人類的頭髮大約是八萬奈米。除了洗衣殺菌的功能外,奈米銀已因為殺菌的功能而被廣泛用在諸多產品中,包括鞋、襪、儲存容器等等。目前政府與業界一般假設,以既有管理化學物與其他物質的法規來管理奈米物質,尚稱妥適。   就在EPA考慮對使用在殺蟲劑中之奈米銀予以列管之際,環境科學專家也呼籲政府及業界應正視奈米物質潛藏的危害,儘速制訂檢測及管制之法規。舉例而言,本(十二)月初在自然雜誌(Nature)所刊登的一篇有關奈米技術安全性挑戰的文章指出,雖然現今許多有關奈米毒性的探討都是基於學說假設,但這些學說其實具有高度的可信度。   新近有關奈米物質毒性的研究調查報告更顯示,從細胞培養物及動物體內可發現,奈米物質的大小、表面積、可溶性與其可能的形狀等,均可能與毒性之所以產生的原因有關。專家因此擔心,在研究人員積極推出奈米級產品的同時,恐怕對於奈米物質可能產生毒性的問題,未予以適度的重視。因此,EPA目前跨出的雖僅是管理奈米技術的一小步,但環境專家認為,對於公眾健康與環境安全的保障來說,這代表邁向正確方向的一大步。

淺析英國建築能源效率政策—Green Deal之融資運作政策研究

TOP