美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/01/18)
引註此篇文章
你可能還會想看
美國航空公司控告Google銷售不當的關鍵字廣告

  美國航空公司(American Airlines, 以下簡稱AA),世界最大的航空公司,控告Google私自銷售包含AA的名稱或註冊商標之搜尋關鍵字 AA日前向德州北區地方法院提出訴訟,控告Google將關於AA的名稱或註冊商標的搜尋關鍵字,如「American Airlines」或「AA.com」,銷售給其它公司作為廣告用途。   AA表示,Google甚至將該等搜尋關鍵字銷售給AA的競爭者。換言之,當使用者於Google搜尋引擎查詢關於前述之AA名稱或註冊商標之關鍵字時,Google除了提供相關連結之外,也可能會在「贊助者連結」中提供AA競爭者的連結,而引導使用者前往其競爭者的網頁。   AA於聲明中指出:「我們希望能減輕此類行為所造成的損害」。截至目前為止,AA並未透露求償金額等細節。   Google則在其聲明中指出:「我們相信本公司的商標政策已經在商標所有人的權益以及消費者的選擇之間取得適當的平衡,並且我們的立場在相關案例的判決中已經被證實是合法的」。

五年投資一百五十億 生醫科技島計劃啟動

  經過一年以上的準備,行政院科技顧問組六日宣布啟動「生醫科技島計畫」計劃。自今年起以五年投入一百五十億元預算,建立「國民健康資訊基礎建設整合建置計畫( NHII )」、「台灣人疾病及基因資料庫( Taiwan Biobank )」、及「臨床試驗研究體系」三大重點。未來除了減少健保成本一百億元以上,也希望協助業界創造數百億元市場商機。   生醫科技島計畫為國內所帶來的效益方面, NHII 將可減少醫療支出三%,共一百億元規模,至於促進民間投資及產業升級方面,預期五年內可帶動民間及政府投資四百億元以上;至於 Taiwan Biobank 方面,除了領先新加坡及中國大陸建立華人特定族群基因資料庫的供給中心,更可帶動國內的新藥開發、基因治療、藥物副作監測,及疾病篩檢及防治等醫藥發展。   行政院科技顧問組指出,其中 Taiwan Biobank 計劃因為涉及「科技對倫理、法律及社會( ELSI )」等議題有較多社會疑慮,將根據現有的醫事法及立法院正進行三讀的個人資料保護法立法精神,預計今年先進行五千人基因資料蒐集,待兩年後正式的基因資料保護相關法律定出新法後,將會加速完成二十萬人的資料蒐集。

美國商會呼籲我國政府儘速通過智財三法

  我國近年來對智財權保護不遺餘力,政府除祭出各種方案使智慧財產之觀念深入人心外,相關修法動作也持續進行,今年度經濟部智慧財產局更展開大規模的修法,並分別就各修正議題舉辦多場之法案公聽與說明會。諸此種種努力逐漸獲得國際間的肯定,美國政府也釋出善意,在今年初公布之二00五年三0一報告書中,特別將我國從「特別三0一優先觀察名單」中,調降為一般觀察名單。   據美國商會表示,台灣投資環境近年最大的改善,莫過於對智慧財產權的重視,以及落實智財權保障的有效執法機制。不過美國商會也認為,網路盜版猖獗及智財權案件審理費時冗長,將是台灣未來智財權保護的兩大挑戰。尤其在網路盜版方面,保智大隊前幾年查獲的案件中,只有2%與網路侵權有關,但今年到十一月底,比例上升80%,顯示網路盜版加劇,因此建議我國應加速規範P2P傳輸業者的立法,以遏止下載未經授權的音樂、影片,或其他受著作權保障的作品。   美國商會呼籲,為維持得來不易的成績,立法院應儘速在本會期通過智慧財產法院組織法草案、智慧財產案件審理法草案,及在著作權法新增技術立法,以規範P2P(網路點對點傳輸)業者等智財三項法案;與此同時,美國商會也建議未來智財法院的法官,應具備技術背景並體認國際投資競爭、偽藥及假農藥等公共衛生議題對於生技等創新產業發展之重要性。

德、法、盧森堡三國推動跨國境數位測試場域(Digitalen Testfeld))「自動化與聯網駕駛」計畫測試應用

  德國,法國和盧森堡共同推動「數位測試場」:自動化與聯網駕駛之跨國境測試。三國交通部門部長在2017年9月15日法蘭克福國際車展中決定擴大測試場域的範圍。令自動駕駛的測試場域,現在擴及到三國,並進行跨國界的測試。   三方「數位測試場域」推動的目的在於將科技從實驗室帶到跨國境的實地測試。「行動4.0是邁向歐洲單一市場的一個重要里程碑」,德國交通部長希望「自動駕駛領域是由歐洲來主導的市場」。並由德、法與盧森堡共同簽署三邊「數位測試場域」協議。   二月初同意的「數位測試場域」,是德法在2016年9月開始執行的「法德電動與數位方案」計畫跨國界測試自動駕駛的一部分。以共同合作,兩國希望推動電動車和自動駕駛領域的創新。如今又加入第三個國家:盧森堡。   目前,測試場域的選擇,從德國薩蘭邦梅爾茲,經過薩爾路易和薩爾布呂肯,最後到法國梅斯。此次,將盧森堡的貝唐堡設置的測試車道納入成為一個跨越三個國家的車道測試圈。   計畫所進行測試著重以下應用:車間通信(車對車)和與透過LTE/5g等行動通訊信號與基礎設施通訊;自動化和聯網駕駛下的超車、切車、煞車;普及化的智慧交通引導系統與預警服務。   數位測試領域讓工業,研究和政策獲得在實際交通狀況的經驗。研究資金提供對象,聯邦政府將提供約1億歐元給測試領域的研究項目。研究測試補助重點在以下領域:駕駛人和車輛之間的相互作用;交通管理和規劃;聯網與資料管理;社會層面。

TOP