美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2025/12/02)
引註此篇文章
你可能還會想看
Skype多了測謊功能?

  以色列BATM公司研發出Skype整合性軟體-KishKish,未來將提供消費者以付費的方式使用測謊功能。此軟體係透過分析談話者聲音中的緊張程度,告知軟體使用者「對方是否說謊」。如此一來,使用者便可透過軟體分析出來的指示,而即時修正詢問的問題。據說,美軍已開始運用此套軟體!   雖然KishKish的使用如此便利,但是根據英國專家表示,網路使用者若不當使用KishKish,將可能違反「資料保護法」(Data Protection Act)而負擔民事責任,甚至還可能涉及「調查權規範法」(Regulation of Investigatory Powers Act,RIPA)將被處以兩年以上有期徒刑或科以罰金。   至今,Skype仍尚未公布其價格及發布日期。

美國4州及司法部指控資料處理商(Agri Stats)的資料共享行為涉及聯合行為

美國明尼蘇達州、加州、北卡羅萊納州及田納西州之檢察總長於2023年11月加入「美國司法部(U.S. Department of Justice, DOJ)在同年9月對於肉品產業資料提供者(Agri Stats, Inc.,以下簡稱Agri Stats)提起的反壟斷訴訟」中,主張Agri Stats透過報告方式將肉品數據資料分享給訂閱服務之肉類加工商,此類資料共享行為削弱了市場競爭關係造成聯合行為,違反了休曼法(Sherman Act)。以下先就此案背景進行說明,以釐清此案象徵意義。 於2023年2月,美國司法部反壟斷部門撤回3項與資訊共享相關的聲明,該3聲明是為了醫療保健產業而發布,其中就資料分享之安全使用方式亦可讓其他產業的資料提供業者評估其資料分享行為是否造成反壟斷行為,惟在目前AI/演算法技術變革之下,利用共享所得之資料反推競爭對手之競爭策略具有可行性,因此當年認為有助於促進競爭之資料共享行為,現在反而有造成聯合行為之可能,故廢棄該3項已過時的聲明。 於2023年9月28日,美國司法部反壟斷部門於明尼蘇達州指控Agri Stats違反休曼法。Agri Stats為專門彙整、分析美國豬肉與家禽(肉雞、火雞)相關商業資料的資料處理商,並將其分析報告提供給具競爭關係的肉品加工商,肉品加工商可透過將Agri Stats分析報告反推以監控/預測出競爭對手之價格、供應量、營運計畫等,並依分析報告建議進行價格調高與減產的行為,而被美國司法部認定為聯合行為。 該訴訟所涉及的肉品加工商占了全美家禽(肉雞與火雞)銷售量的9成以上,豬肉銷售量的8成以上。目前已有前述4州加入該訴訟,法院後續會如何認定,將影響產業間的資料交換作法,也顯現出資料商業化前須先做好資料管理,確保在合規的範圍內進行資料利用,國內廠商可參資策會科法所公布之《重要數位資料治理暨管理制度規範(EDGS)》對自身資料管理機制進行檢視。 本文同步刊登於TIPS網站(https://www.tips.org.tw/)

日本通過國家戰略特別區域法修正案

  日本國會在2020年5月27日通過《國家戰略特別區域法》修正案(国家戦略特別区域法の一部を改正する法律),亦即「超級城市法」(スーパーシティ法)。所謂超級城市,係指符合(1)在交通、物流、支付、行政、醫療、照護、教育、能源/水、環境/垃圾、防災/安全等10大領域中,至少滿足其中5個領域日常生活需求;(2)加速實現未來社會生活;(3)透過民眾參與,建立從民眾觀點出發之理想社會等三大條件之未來都市。   超級城市法修正重點有二,首先為實現超級城市構想之相關制度整備,包括(1)賦予蒐集、整理、提供各種類型服務相關資料之資料聯合平台(データ連携基盤)業者法律上地位;(2)因相關制度涉及不同法規及主管機關,故超級城市法內特別設計可併同檢討跨領域法規修正之特別程序;(3)其他規定︰如明定各中央政府機關應提供具體協助、應檢討制定Open API規範,以及本法施行後3年應檢討施行狀況等。其次,本次修法新增地區限定型之監理沙盒制度(地域限定型規制のサンドボックス制度),針對自駕車、無人機等科技創新實驗,透過強化事後監督體制,事前放寬道路運輸車輛法、道路交通法、航空法、電信法之限制,以加速實驗進行。

簡介美國700MHz頻段之使用規劃

TOP