美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/06/13)
引註此篇文章
你可能還會想看
英國發布「人工智慧:機會與未來決策影響」政策報告,並聚焦人工智慧運用及管理

  英國科學辦公室於2016年11月9日,發布一份政策報告:「人工智慧:機會與未來決策影響(Artificial intelligence: opportunities and implications for the future of decision making)」,介紹人工智慧對於社會及政府的機會和影響,此份政策報告並提出以下各項重要建議: (一)關於人工智慧及應用界定與發展   人工智慧是指由人工製造系統所表現出來的智慧。不僅是將現有的流程自動化,還包含制定目標,並利用電腦程式實現這些目標,常見案例包括線上翻譯、語音辨識、搜尋引擎篩選排序、垃圾郵件過濾、透過用戶回饋改善線上服務、預測交通流量、環境或社會經濟趨勢發展觀察等。 (二)未來對社會及政府利益及衝擊   人工智慧針對提高生產力有巨大的潛力,最明顯的就是幫助企業或個人更有效地運用資源,並簡化大量資料的處理,例如Ocado 及 Amazon這樣的公司正充份利用人工智慧改善倉儲及銷售網路系統,使得客戶可便利快速購得網購商品。   目前,政府也日益增加相關技術的運用,以提高公共服務效率,使資源達到最佳化分配;減少決策者被誤導的可能;使政府決策透明化;確保各部門更了解人民的意見。然政府在利用人工智慧及巨量資料時,應遵守倫理使用指南,並遵守英國資料保護法及歐盟一般資料保護規則等相關法規。   在巨量資料、機器人、自動系統對於勞動市場的衝擊一直都是關注的議題,對於面臨未來工作結構的轉型及相關技術人員的進修及培養,應及早規劃,以適應未來的轉變。 (三)關於相關道德及法律風險管理課題   人工智慧可能潛在相關道德倫理問題。許多專家認為政府應積極管理並降低風險發生可能性,可從以下兩個面向思考: (1)研究機器學習與個人資料運用結合時,對個人自由、隱私和同意等概念的影響。 (2)調適由人工智慧作決策行為時的歸責概念和機制。   有關實際案例之研究,則包括,執法單位在應用預測技術時,應避免以種族、國籍、地址作為標準,並嚴守無罪推定原則,以防止民眾受到歧視或不公平的指控;透過人工智慧可從公開資料推測出某些私人訊息或其親朋好友的消息,此訊息即可能超出原先個人同意披露的內容;原先匿名化及去識別化的訊息,因人工智慧功能加強,導至可能被重新識別,故須定期檢視該保護措施是否足夠。另外,人工智慧的演算偏差可能導致偏見的風險,為了降低這種風險,技術人員應採取對應措施。   針對責任及疏失的判斷,目前尚無太多的實務案例,但為保持對使用人工智慧的信任,仍需有明確的歸責制,可能有必要讓首席執行長或高級主管對人工智慧做出的決策負最終責任。許多專家也建議,部分技術內容須保持透明度,以確定技術使用時是否有盡到相關注意義務。   人工智慧已成為未來發展趨勢之一,對於社會整體層面影響將越來越深,新的技術除了可提升生產力,帶來便利的生活,同樣也會帶來衝擊。為促進相關產業發展及推展新技術的使用,應打造技術發展友善環境,並對於公眾安全進行相關風險評估,如果風險屬於現有監管制度範圍,應評估是否可充分解決風險,或是須要做相對應的調適。另外,在人工智慧融入現實世界同時,相關業者應注意相關產品安全性、隱私權保護和從業人員的倫理教育,以提高大眾對新技術的接受及信賴,並確保對於未來挑戰及轉變已做好萬全準備。

中國大陸食品安全法修訂草案二審稿,將基因改造食品標識明確列入

  2014年12月22日,中國大陸食品安全法修訂草案二審稿增加關於食品貯存和運輸、食用農產品市場流通、基因改造食品標識(中國大陸用語為轉基因食品標籤)等方面之內容。二審稿規定,生產經營基改食品皆應按照規定進行標識,未按規定進行標識的,沒收違法所得和生產工具、設備等物品,最高可處貨值金額五倍以上十倍以下罰款,情節嚴重者責令停產停業,直至吊銷許可證。對於基因改造標識,中國大陸已於《農業轉基因生物安全管理條例》有規定,此次二審稿為保障消費者的知情權,增加加重食品安全違法行為的法律責任,採取多種手段嚴懲,並希望以法律形式將其確定。   我國食品安全衛生管理法於2014年12月10日修法中,對於基改食品標識部分並未修訂,僅在第22條及24條規定了要標識「食品之容器或外包裝,應以中文及通用符號,明顯標示下列事項…(包含基因改造食品原料)」以及「食品添加物之容器或外包裝,應以中文及通用符號,明顯標示下列事項中…(含基因改造食品添加物之原料)」。然而,我國與中國大陸此次修法雖皆有明訂,但明訂方式、標準等並未描述,又如美國佛蒙特州有意立法通過之基改食品標識法也在今年2015年1月因有爭議舉行公聽會,使該法令生效前恐有中止之情事。目前看來,不同國家有不同的基因改造食品標識政策,但國際間仍致力建立一套統一的規範。

美國聯邦資料戰略〈2020年行動計畫〉

  美國白宮於2018年3月發布〈總統管理方案(President’s Management Agenda)〉,其中發展「聯邦資料戰略(Federal Data Strategy)」,將資料作為戰略資產,藉以發展經濟、提高聯邦政府效能、促進監督與透明度,為方案中重要之工作目標之一。「聯邦資料戰略」之架構上主要包括四個組成部分,以指導聯邦資料之管理和使用:1.使命宣言:闡明戰略之意圖與核心目的;2.原則:有十大恆定原則對於機關進行指導;3.實作規範:有四十項實作規範指導機關如何利用資料之價值;4.年度行動計畫:以可衡量之活動來實踐這些實作規範。   於2019年12月23日,〈2020年行動計畫〉之最終版正式發布,其將建立堅實之基礎,在未來十年內支持戰略之實踐。詳言之,〈2020年行動計畫〉之內涵主要包含三大部分與二十個行動: 機關行動:旨在支持機關利用其資料資產,包括六大行動:(1)行動1:確認用於回答對於機關而言具有優先性之問題所需之資料;(2)行動2:將機關之資料治理制度化;(3)行動3:評估資料與相關基礎設施之成熟度;(4)行動4:確認提高員工資料技能之機會;(5)行動5:確認用於機關開放資料計劃之優先資料資產;(6)行動6:發布與更新資料庫存。 實踐共同體之行動:由特定機關或一群機關就一共通主題所採取之行動,可加速並簡化現有要求之執行,包括下列四大活動:(1)行動7:成立聯邦首席資料官委員會;(2)行動8:改善用於AI研究與發展之資料與模型資源;(3)行動9:改善財務管理資料標準;(4)行動10:將地理空間資料實務整合至聯邦資料事業中。 共享解決方案行動:為所有機關之利益、由單一機關或委員會試行或發展之活動:(1)行動11:開發聯邦事業資料資源儲存庫;(2)行動12:創建美國預算管理局聯邦資料政策委員會;(3)行動13:制定策畫之資料技能目錄;(4)行動14:制定資料倫理框架;(5)行動15:開發資料保護工具組;(6)行動16:試行一站式之標準研究應用程序;(7)行動17:試行一種自動化之資訊收集評論工具,該工具支持資料庫存之創建與更新;(8)行動18:試行用於聯邦機構之增強型資料管理工具;(9)行動19:制定資料品質評估與報告指引;(10)行動20:發展資料標準之儲存庫。   〈2020年行動計畫〉確定機關之初步行動,其對建立流程、建立能力、調整現有工作以更好地將資料作為戰略資產至關重要。未來之年度行動計畫將會在〈2020年行動計畫〉之基礎上進一步發展出針對聯邦資料管理之協調方案。

產業創新條例因應放寬公司研發抵減、加強留才制度之修正草案

TOP