美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2025/12/08)
引註此篇文章
你可能還會想看
美國國防部發布《國防部資訊技術發展戰略》,以促進IT變革並為未來奠定基礎

美國國防部(Department of Defense, DoD)於2024年6月25日發布「關鍵點:國防部資訊技術發展戰略」(Fulcrum:DoD Information Technology (IT) Advancement Strategy),將持續促進DoD之IT變革,並為未來奠定基礎。 本戰略描述作戰人員在推動IT方面應達成之目標與重要性,並列出提供聯合作戰IT能力、資訊網路與運算現代化、最佳化IT治理、栽培第一數位人力等四大目標(Line of Effort, LOE),簡述如下: (1)提供聯合作戰IT能力(Provide Joint Warfighting IT Capabilities):在現今不斷變化且充滿競爭的全球環境中,該目標以使用者為中心,提供具功能性、可擴增、永續且安全之IT功能。並以改善作戰人員可用資訊為重點,以利在快節奏、多領域(multi-domain)作戰中獲得決策與競爭優勢。 (2)資訊網路與運算現代化(Modernize Information Networks and Compute):該目標著重於迅速滿足任務與商務需求,利用卓越技術與以資料為中心的零信任(Zero Trust)資通安全方法,提供安全且具更快資料傳輸速度、更低延遲與高度彈性的現代化網路。 (3)最佳化IT治理(Optimize IT Governance):該目標將提高傳送效率、節省成本,且透過從治理到資料獲取系統的簡化政策,以轉變治理制定更好的決策,包括使用強大資料功能。 (4)栽培頂尖的數位人才(Cultivate a Premier Digital Workforce):該目標將確保作戰人員為新興技術之布署做好準備,並持續致力於識別、招募、發展並留住最佳數位人才。其擴展DoD網路人力框架(DoD Cyber Workforce Framework, DCWF),著重於更廣義的數位人力,包括資料、人工智慧、軟體工程的工作角色。

美國法院擬修正《聯邦證據規則》以規範人工智慧生成內容之證據能力

2025年5月2日,聯邦司法會議證據規則諮詢委員會(Judicial Conference’s Advisory Committee on Evidence Rules)以8比1投票結果通過一項提案,擬修正《聯邦證據規則》(Federal Rules of Evidence,FRE),釐清人工智慧(AI)生成內容於訴訟程序中之證據能力,以因應生成式AI技術在法律實務應用上日益普遍的趨勢。 由於現行《聯邦證據規則》僅於第702條中針對人類專家證人所提供的證據設有相關規定,對於AI生成內容的證據能力尚無明確規範,所以為了因應AI技術發展帶來的新興挑戰,《聯邦證據規則》修正草案(下稱「修正草案」)擬新增第707條「機器生成證據」(Machine-Generated Evidence),並擴張第901條「驗證或識別證據」(Authenticating or Identifying Evidence)的適用範圍。 本次增訂第707條,針對AI生成內容作為證據時,明確其可靠性評估標準,以避免出現分析錯誤、不準確、偏見或缺乏可解釋性(Explainability)等問題,進而強化法院審理時的證據審查基礎。本條規定,AI生成內容作為證據必須符合以下條件: 1. 該AI生成內容對於事實之認定具有實質助益; 2. AI系統於產出該內容時,係以充分且適當之事實或資料為輸入依據; 3. 該輸出結果能忠實反映其所依據之原理與方法,並證明此一應用於特定情境中具有可靠性。 本修正草案此次新增「AI生成內容」也必須合乎既有的證據驗證要件。原第901條a項原規定:「為符合證據之驗證或識別要求,提出證據者必須提供足以支持該證據確係其所聲稱之內容的佐證資料。」而修正草案擬於第901條b項新增「AI生成內容」一類,意即明文要求提出AI生成內容作為證據者,須提出足夠證據,以證明該內容具有真實性與可信度,方符合第901條a項驗證要件。 隨著AI於美國法院審理程序中的應用日益廣泛,如何在引入生成式AI的同時,於司法創新與證據可靠性之間取得平衡,將成為未來美國司法實務及法制發展中的重要課題,值得我國審慎觀察並參酌因應,作為制度調整與政策設計的參考。

美國加州法院期透過數位方式管理證據生命週期,帶動司法效率提升

2024年9月23日起,美國加州洛杉磯高等法院於康普頓(Compton)與比佛利山莊(Beverly Hills)法院試行數位證據系統,旨於簡化小額訴訟程序,使訴訟當事人透過數位證據系統平臺進行數位證據開示,節省郵寄實體證據副本所花費的時間、人力、物力。洛杉磯高等法院為全美最大之一審法院,法院轄區人數逾1千萬人,其所推動之數位證據系統具參考價值。 以下說明數位證據系統的重點: 1.數位證據系統適用的案件範圍 適用於「小額訴訟當事人於聽證會前之證據開示程序」。 關於證據開示程序,訴訟當事人應至少於訴訟聽證會前10 日完成證據開示。證據開示程序的傳統做法為當事人將證據副本「郵寄」給對造,而數位證據系統允許訴訟兩造於聽證會前,以「電子方式」交換證據。 依加州法規定,小額訴訟指原告向被告(個人、企業或政府單位)請求給付的金額在1.25萬美元以下。 2.數位證據系統可上傳的數位證據類型 訴訟當事人輸入「案號、聽證會具體日期、個人資訊(電子信箱或手機號碼)及6位數字金鑰」以驗證身分、註冊數位證據系統帳號後,可於數位證據系統分批上傳多種文件格式,包含時戳證據(Time stamp evidence)、圖片、影片、文字檔(如Word、OpenOffice)、PDF檔案、HTML檔案、簡報檔案等。並勾選上傳資料之當事人身分(原告或被告),確認上傳證據。 當事人應於確認上傳之每筆證據的註解中,簡述(briefly)該證據資訊。 經當事人確認、成功上傳至數位證據系統的每筆證據,都會擁有其唯一的(unique)證據編號(Exhibit Number)。 該系統最終會製作出一份「涵蓋該案件所有數位證據資訊的證據清單(Exhibit List)」PDF檔案,包含:案號、數位證據編號、證據縮圖及證據之簡述資訊等資訊,以便當事人依證據清單,參考(refer to)證據編號進行證據開示。 3.數位證據系統的檔案權限控管之設定 (1)上傳、編輯、刪除權限 訴訟當事人可上傳數位證據。 於系統上傳、未確認送出數位證據的階段,當事人則可編輯、刪除數位證據。 (2)線上瀏覽權限 上傳證據之當事人、司法人員擁有線上瀏覽「所有經當事人確認上傳之數位證據」的權限。 於系統確認數位證據後,上傳證據之當事人可於系統「勾選欲共享之數位證據」後,輸入對造之姓名、電子信箱,與對造共享其指定之數位證據。 (3)下載權限 訴訟期間至結案後60日內,訴訟兩造均可於數位證據系統下載數位證據。 4.證據於數位證據系統的保存期限 於小額訴訟結案後60日內,系統將自動刪除該案上傳之數位證據。 美國加州推動數位證據平臺,使當事人於平臺驗證身分、上傳時戳等數位證據,由平臺產出涵蓋案號、證據編號及證據資訊之證據清單,透過系統之權限控管加強證據管理,以數位證據開示減輕傳統證據開示程序之負擔。關於司法資料交換,參照我國由司法院、法務部、臺灣高等檢察署、內政部警政署及法務部調查局於2024年4月正式啟用之「司法聯盟鏈共同驗證平台」,以「b-JADE證明標章」作為數位資料管理之標準,透過數位資料歷程管理與資料存證機制,鞏固證物保管機制。 上述之國內外趨勢之資料管理之作法可被資策會科法所發布之《重要數位資料治理暨管理制度規範(下稱EDGS)》所涵蓋,美國加州數位證據系統,透過管理證據生命週期之各階段,首先由當事人上傳、確認證物資訊及建置清單;其次設有不同程度的檔案使用權限;並訂有證據資料之保存期限,以便進行證據管理、加速司法訴訟之證據開示程序。而為方便資料管理者控管數位資料,EDGS同樣強調資料之生命週期管理,由「檔案標題或檔案的相關資訊,需要能對應特定的數位資料」,輔以建立「資料清單」有助於盤點多筆資料。並透過「控管資料權限」等保護措施,搭配「評估資料的維護期限」,以達到管理資料歷程的目標。建議企業將EDGS納入資料管理規劃,確保資料管控有方。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

歐盟發布未成年網路安全指引

歐盟執委會於2025年7月發布《確保未成年網路高度隱私、安全和保障的措施指引》(Guidelines on measures to ensure a high level of privacy, safety and security for minors online,下稱指引),依據《數位服務法》(Digital Services Act)第28條未成年網路保護規定,未成年人可存取的網路平臺提供者應採取適當措施確保未成年人享有高度隱私及安全保障,且不應迫使數位平臺提供者為評估使用者是否為未成年人而處理額外的個人資料,前述指引目的即為協助數位平臺提供者遵守《數位服務法》第28條之規定。 數位平臺的條款及條件允許未成年人使用該服務,及其服務面向包含未成年人或主要由未成年人使用,或其提供者知曉部分接收者為未成年人,則該數位平臺可被視為提供未成年人存取,數位平臺提供者即應符合比例適當性、保護兒童權利、隱私安全保障設計、年齡適宜設計等一般性原則。指引要求數位平臺提供者需要以準確、可靠和穩定的方式確認使用者的年齡,常見的年齡確認方式有三種:自我聲明、年齡估測、年齡驗證,數位平臺提供者應評估所採方式之必要性及適當性,以最小侵害措施達成高度安全性,並以準確性、可靠性、韌性、低侵害、不歧視為原則。 但指引也引發對於其技術可行性及執法的疑慮,歐洲數位權利組織(European Digital Rights, EDRi)認為政府忽略數位平臺設計與商業模式的根本性問題,依賴年齡認證可能限制未成年人的權利,且對於誤判、規避風險、互通性、與會員國身分系統的整合等問題仍有諸多疑問。雖然指引非法規不具強制性,但歐盟執委會已將指引作為合規評估標準,使數位平臺提供者面臨實施成本及合規證明的壓力。面對日新月異的網路世界,該如何避免未成年人接觸不良網路內容成為許多國家關心的議題,值得持續追蹤相關動態作為我國未成年網路安全政策之參考。

TOP