美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2025/11/19)
引註此篇文章
你可能還會想看
簡析歐盟「能源效率指令」-- 以建築能源效率為核心

哈佛研究者以私募基金展開人類胚胎複製

  哈佛大學的醫學研究人員最近公開表示,他們已經展開複製人類胚胎、創造幹細胞的工作,由於布希政府在數年前即已頒布禁令,禁止聯邦政府資助新的幹細胞系,故哈佛幹細胞研究所的這項計劃將以私人募集的基金進行。   人類胚胎幹細胞的研究一直具爭議性,因為抽取細胞需要破壞人類胚胎。哈佛幹細胞研究計劃以創造特定疾病的幹細胞系為目標,希望研發出多種不治之症的療法。哈佛大學認為這項計劃的潛在好處,大於人類生命神聖遭挑戰的關切,蓋其長期目標是,創造從病患細胞組織取得的胚胎幹細胞,修正基因缺陷,將修復細胞植回病患體內。校長薩默斯在聲明中說:「雖然我們了解且尊重反對此項研究者所持的信念,我們同樣誠摯地面對我們的信仰,相信攸關無數受苦孩童與成人生死的醫學需要,賦予這項研究繼續前進的正當性。」

網路拍賣之法制趨勢

美國科羅拉多州通過《人工智慧消費者保護法》

2024年5月17日,科羅拉多州州長簽署了《人工智慧消費者保護法》(Consumer Protections for Artificial Intelligence Act,Colorado AI Act,下簡稱本法),其內容將增訂於《科羅拉多州修訂法規》(Colorado Revised Statutes,簡稱CRS)第6篇第17部分,是美國第一部廣泛對AI規範的法律,將於2026年2月1日生效。 本法旨在解決「高風險人工智慧系統」的演算法歧視(Algorithmic Discrimination)的問題 ,避免消費者權益因為演算法之偏見而受到歧視。是以,本法將高風險AI系統(High-risk Artificial Intelligence System)定義為「部署後作出關鍵決策(Consequential Decision)或在關鍵決策中起到重要作用的任何AI系統」。 而後,本法藉由要求AI系統開發者(Developers)與部署者(Deployers)遵守「透明度原則」與「禁止歧視原則」,來保護消費者免受演算法歧視。規定如下: (一)系統透明度: 1.開發者應向部署者或其他開發者提供該系統訓練所使用的資料、系統限制、預期用途、測試演算法歧視之文件以及其他風險評估文件。 2.部署者應向消費者揭露高風險人工智慧系統的預期用途,也應在高風險人工智慧系統做出決策之前向消費者提供聲明,聲明內容應該包含部署者之聯絡方式、該系統的基本介紹、部署者如何管理該系統可預見之風險等資訊。 (二)禁止歧視: 1.開發者應實施降低演算法歧視之措施,並應協助部署者理解高風險人工智慧系統。此外,開發者也應該持續測試與分析高風險人工智慧系統可能產生之演算法歧視風險。若開發者有意修改該系統,應將更新後的系統資訊更新於開發者網站,並須同步提供給部署者。 2.部署者應該實施風險管理計畫,該風險管理計畫應包含部署者用於識別、紀錄降低演算法歧視風險之措施與負責人員,且風險管理計畫應定期更新。在制定風險管理計畫時,必須參考美國商務部國家標準暨技術研究院(National Institute of Standards and Technology, NIST)的《人工智慧風險管理框架》(AI Risk Management Framework, AI RMF 2.0)與ISO/IEC 42001等風險管理文件。 美國普遍認為科羅拉多州的《人工智慧消費者保護法》為目前針對人工智慧系統最全面之監管法規,可作為其他州有關人工智慧法規的立法參考,美國各州立法情況與作法值得持續關注。

TOP