美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/04/14)
引註此篇文章
你可能還會想看
金融穩定委員會報告指出金融領域採用AI之模型、資料品質與治理風險

.Pindent{text-indent: 2em;} .Noindent{margin-left: 2em;} .NoPindent{text-indent: 2em; margin-left: 2em;} .No2indent{margin-left: 3em;} .No2Pindent{text-indent: 2em; margin-left: 3em} .No3indent{margin-left: 4em;} .No3Pindent{text-indent: 2em; margin-left: 4em} 金融穩定委員會(Financial Stability Board, FSB)於2024年11月14日發布《人工智慧對金融穩定的影響》報告,探討人工智慧(Artificial Intelligence, AI)在金融領域的應用進展及對全球金融穩定的影響,分析相關風險並提出建議。 報告指出AI具有提升效率、加強法規遵循、提供個人化金融產品及進階資料分析等益處,但同時可能加劇某些金融部門的脆弱性(Vulnerability),進而構成金融穩定風險。報告特別提出之脆弱性包括:「第三方依賴及服務供應商集中化」、「市場相關性」、「資安風險」,以及「模型風險、資料品質和治理」。 在模型風險、資料品質與治理中,廣泛應用AI可能導致模型風險上升,因某些模型難以驗證、監控及修正,且模型的複雜性與透明性不足將增加尋找具獨立性和專業知識的驗證者的挑戰。此外,在大型語言模型(Large Language Model, LLM),大規模非結構化資料的使用及訓練資料來源的不透明性,使資料品質評估更加困難。特別是在預訓練模型(Pre-trained Model)中,金融機構對眾多資料來源的評估方式不熟悉,進一步增加管理難度。 若金融機構未建立健全的治理架構以審查AI的使用及其資料來源,模型風險與資料品質問題將難以控制。金融機構有責任應對與AI相關的模型風險和資料品質挑戰,包含對模型進行驗證、持續監控、執行結果分析和評估資料品質的預期要求。 報告呼籲各國金融主管機關加強對AI發展的監測,評估現行金融政策框架是否充分,並增強監管能力。建議可定期或不定期調查AI應用情形,並透過報告及公開揭露制度獲取相關資訊。此外,主管機關可考慮利用監督科技(SupTech)及監管科技(RegTech)等AI驅動工具強化監管效能,以應對AI在金融領域帶來的挑戰與風險。

歐盟對於「被遺忘權」公布指導方針與實施準則

  歐盟資料保護主管機關(European Union Data Protection Authorities, EU DPAs,以下簡稱DPAs)所組成的第二十九條資料保護工作小組(The Article 29 Working Party,以下簡稱WP29) ,於2014年11月26日宣布將適用5月13日Google西班牙案(C-131/12)判決結果之指導方針(guideline)。該項宣示確立了被遺忘權效力所及之範圍,以及各國DPAs受理資料主體(data subject)所提出訴訟之標準。   WP29表示,一如該判決所示,將連結於搜尋結果清單中移除,必須以全球網域為範圍,才能使資料主體權利受到完整、有效之保護,並且所依據歐盟資料保護指令95/46/EC才不至於受到規避。因此,儘管搜尋引擎營運者如Google認為,該項指令效力僅限制於歐洲,以及全球網域中低於5%歐洲網路使用戶,所以他們只需要將具爭議的連結,從歐盟網域的用戶搜尋結果中移除即可。但WP29則強調,倘若判決僅以歐盟網域為限制範圍,對於欲為歐盟公民隱私保護的立意來說,可能將無法全面保護。鑑此,歐洲隱私監管機構(Europe’s privacy regulators)亦於2014年11月26日表示,搜尋引擎營運者如Google公司,將連結於搜尋結果清單中移除,必須以全球網域為範圍,而非只是僅以歐盟境內網域為資料主體得要求實行被遺忘權(right to be forgotten)的範圍,以符合歐洲法院判決的要求結果。   自該判決所確立之資料保護權利主張,以資料主體發現某一搜尋係以其姓名為基礎,而搜尋結果的清單顯示通往含有該個人資訊網頁之連結,則資料主體得直接與搜尋引擎營運者聯絡(approach);次之,若搜尋引擎營運者不允其要求,資料主體則得轉向各國DPAs,在特定情形下,要求將該連結從搜尋結果清單之移除 。係該判決以歐盟資料保護指令95/46/EC為法規依據,經由釐清相關爭點、樹立指導方針及準則(criteria),謹分別列出如下: (一)搜尋結果是否連結至個人資訊,並且包含資料主體之姓名、筆名或暱稱; (二)是否資料主體在公領域居有重要角色或具公眾形象,以及是否公眾應具有取得前述資料之法益; (三)是否資料主體為少數例子,(意即顯見DPAs可能要求移除該搜尋結果) (四)是否資料具正確性; (五)是否資料具關聯性且不過份,並(a)連結至資料主體之工作生活;(b)搜尋結果(the search result)連結至據稱對訴訟者為憎恨、評論、毀謗、汙辱或具侵犯性資訊;(c)資料清楚反映為個人意見,或顯然受過驗證為事實。 (六)是否根據資料保護指令第8條,該資料具敏感性如個人健康狀況、性向或宗教信仰; (七)是否該資料已經過時,或是對於資料處理目的來說,其存在已為冗贅; (八)是否該資料處理已足生對資料主體之偏見,並且對其隱私已具有不對等的負面影響; (九)是否搜尋結果與資料連結,已造成資料主體暴露於危險威脅,例如竊取身分或受到跟蹤; (十)是否資料主體(a)自願使公眾知悉其資訊內容,或(b)可合理據知其所資訊內容將使公眾所知悉,或(c)意圖使公眾知悉其資訊內容; (十一)原有資訊是否以新聞目的為出版,而該項標準不得單獨為拒絕請求移除之基礎; (十二)資訊之出版者是否具有法律依據或義務,使該個人資料得公諸於世; (十三)是否該資料涉及刑事犯罪,而應由DPAs以公權力使犯罪者資訊公諸於世,原則上DPAs可能考慮對犯罪發生年代相對久遠、犯行較輕者,為搜尋結果之移除;而較不可能對近期發生、犯行嚴重者,為搜尋結果之移除。   以上13項準則皆立基於大眾取得資料權之法益為衡量,供各國依個案判斷是否受理資料主體所提出訴訟,以俾利未來各國DPAs處理相關爭訟之遵循依據。

英國股權式群眾募資簡介-以近期監管規則發展為中心

美國眾議院發布反壟斷五大法案,恢復數位市場競爭並防堵科技平台壟斷

  美國眾議院反壟斷委員會於2021年6月11日宣布五大反壟斷立法議案,目標是透過立法提升消費者、勞工和中小企業競爭空間,防止大型科技平台壟斷數位市場。2019年美國國會反壟斷委員會調查互聯網巨頭Amazon、Google、Facebook、Apple(GAFA)涉嫌濫用市場支配地位進行壟斷、抑制競爭、侵害用戶隱私、破壞新聞出版多元化。2020年10月發布《數位市場競爭調查》(Investigation of Competition In Digital Markets)強調恢復數位經濟市場競爭力重要性。2021年美國眾議院隨即提出五大反壟斷改革法案具體落實政策方向。 終止平台壟斷法案(Ending Platform Monopolies Act) 防止占主導地位的平台利用其對多個業務的控制能力,由董事或受託人持有公司25%以上的股票、盈利或資產,或以其他方式掌握實質控制權,要求用戶使用其平台購買產品或服務進而取得優勢地位。 美國選擇與創新線上法案(American Choice and Innovation Online Act) 禁止平台的歧視行為,包括使自家產品、服務及業務在平台上享有對手沒有的競爭優勢,禁止自我偏好或歧視其他同類業者之行為。 平台競爭與機會法案(Platform Competition and Opportunity Act) 禁止具獨占優勢平台藉由收購其他具競爭力對手,以擴大或鞏固線上平台市場力量。 透過啟動服務交換強化相容性和競爭力法案(Augmenting Compatibility and Competition by Enabling Service Switching Act) 透過啟動服務交換,滿足互操作性和資料可攜性,降低企業和消費者進入壁壘與轉換成本,使資料更容易移動到其他平台。 併購申報費現代化法案(Merger Filing Fee Modernization Act) 提高企業向政府申請併購案之審議費用,例如超過50億美金以上併購案審議費用從美金28萬提升至225萬,確保美國司法部和聯邦貿易委員會執行反壟斷資源。

TOP