美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/06/10)
引註此篇文章
你可能還會想看
美國國家標準暨技術研究院發布「人工智慧風險管理框架:生成式AI概況」

  美國國家標準暨技術研究院(National Institute of Standard and Technology, NIST)2024年7月26日發布「人工智慧風險管理框架:生成式AI概況」(Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile),補充2023年1月發布的AI風險管理框架,協助組織識別生成式AI(Generative AI, GAI)可能引發的風險,並提出風險管理行動。GAI特有或加劇的12項主要風險包括: 1.化學、生物、放射性物質或核武器(chemical, biological, radiological and nuclear materials and agents, CBRN)之資訊或能力:GAI可能使惡意行為者更容易取得CBRN相關資訊、知識、材料或技術,以設計、開發、生產、使用CBRN。 2.虛假內容:GAI在回應輸入內容時,常自信地呈現錯誤或虛假內容,包括在同一情境下產出自相矛盾的內容。 3.危險、暴力或仇恨內容:GAI比其他技術能更輕易產生大規模煽動性、激進或威脅性內容,或美化暴力內容。 4.資料隱私:GAI訓練時需要大量資料,包括個人資料,可能產生透明度、個人資料自主權、資料違法目的外利用等風險。 5.環境影響:訓練、維護和運行GAI系統需使用大量能源而影響碳排放。 6.偏見或同質化(homogenization):GAI可能加劇對個人、群體或社會的偏見或刻板印象,例如要求生成醫生、律師或CEO圖像時,產出女性、少數族群或身障人士的比例較低。 7.人機互動:可能涉及系統與人類互動不良的風險,包括過度依賴GAI系統,或誤認GAI內容品質比其他來源內容品質更佳。 8.資訊完整性:GAI可能無意間擴大傳播虛假、不準確或誤導性內容,從而破壞資訊完整性,降低公眾對真實或有效資訊的信任。 9.資訊安全:可能降低攻擊門檻、更輕易實現自動化攻擊,或幫助發現新的資安風險,擴大可攻擊範圍。 10.智慧財產權:若GAI訓練資料中含有受著作權保護的資料,可能導致侵權,或在未經授權的情況下使用或假冒個人身分、肖像或聲音。 11.淫穢、貶低或虐待性內容:可能導致非法或非自願性的成人私密影像或兒童性虐待素材增加,進而造成隱私、心理、情感,甚至身體上傷害。 12.價值鏈和組件整合(component integration):購買資料集、訓練模型和軟體庫等第三方零組件時,若零組件未從適當途徑取得或未經妥善審查,可能導致下游使用者資訊不透明或難以問責。   為解決前述12項風險,本報告亦從「治理、映射、量測、管理」四大面向提出約200項行動建議,期能有助組織緩解並降低GAI的潛在危害。

菲律賓最高法院延長網路犯罪法適用限制之時間

  菲律賓最高法院於2013年2月5日延長了之前(2012年10月9日)對於網路犯罪防制法(Cybercrime Prevention Act of 2012),所做出的120日暫時限制適用令(Temporary Restraining Order),表示此一法令暫時尚無法正式施行。對此,菲國參議員多表示贊成,而對於該法主要的批評包括過度侵害言論自由、違反程序正義、比例原則以及一事不兩罰原則,並可能導致「寒蟬效應」,先前聲請停止該法施行的相關人士則認為該法過於模糊且規範範圍過廣。   該法之具體適用爭議如:(1)ISP業者僅因刊登誹謗性言論,即可能遭致處罰。(2)該法12條授權主管機關可即時蒐集利用電腦系統之特定通訊資料。(3)網路使用者可能被認定為網路犯罪之幫助或教唆者而被處罰。(4)政府可能依據此法蒐集網路使用者之各種資料。   不過,菲國檢察總長Francis Jardeleza 對此則表示,此法雖有缺陷,但亦尚未至完全可廢止之程度。另外,尚有菲律賓全國記者聯盟(National Union of Journalists of the Philippines, NUJP)與菲律賓網路自由聯盟(Philippine Internet Freedom Alliance, PIFA)對此限制適用令表示支持,並認為對於法令與自由衝突爭議正方興未艾。

淺談美國建築能源科技法制政策發展近況

美國FDA發布保密證書指引草案,可防止研究人員被迫揭露研究參與者可識別個人之敏感性資料

  美國FDA(Food and Drug Administration)於2019年11月22日發布「保密證書(Certificates of Confidentiality, CoC)」指引草案。保密證書之目的在於防止研究人員在任何聯邦、州或地方之民事、刑事、行政、立法或其他程序中被迫揭露有關研究參與者可識別個人之敏感性資料,以保護研究參與者之隱私。保密證書主要可分為兩種,對於由聯邦所資助,從事於生物醫學研究、行為研究,臨床研究或其他研究,於研究時會收集可識別個人之敏感性資料之研究人員而言,保密證書會依法核發予該研究人員,稱為法定型保密證書(mandatory CoC);而對於從事非由聯邦所資助之研究的研究人員而言,原則上保密證書不會主動核發予該研究人員,惟當研究涉及FDA管轄之產品時,可由FDA自行裁量而核發保密證書,稱為裁量型保密證書(discretionary CoC),本指引草案旨在提供裁量型保密證書之相關規範。   FDA建議裁量型保密證書之申辦者先自問以下四個問題,且所有問題之答案應該皆為肯定:(1)申辦者所參與之人體研究是否收集可識別個人之敏感性資料?(2)申辦者是否為該臨床研究之負責人?(3)申辦裁量型保密證書之人體研究是否涉及受FDA管轄之產品的使用或研究?(4)申辦者之研究措施是否足以保護可識別個人之敏感性資料之機密性?   於FDA完成審查後,將向申辦人傳送電子回覆信件,表明是否核准裁量型保密證書。若結果為核准,則該電子回覆信件即可作為保密證書。該保密證書之接受者應執行法律所規定以及FDA於電子回覆信件中所要求之保證事項,以保護人體研究參與者之隱私。

TOP