美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?no=55&tp=1&d=6621 (最後瀏覽日:2024/09/15)
引註此篇文章
你可能還會想看
美國情報體系發布「情報體系運用人工智慧倫理架構」

  美國國家情報體系(United States Intelligence Community)係於1981年依據行政命令第12333號(Executive Order 12333)所建立,其任務為蒐集、分析與提供外國情報與反情報資訊美國國家領導人,服務對象包含美國總統、執法單位以及軍事單位。其於2020年6月提出「情報體系人工智慧倫理架構」(Artificial Intelligence Ethics Framework for the Intelligence Community),為人工智慧系統與訓練資料、測試資料之採購、設計、研發、使用、保護、消費與管理提出指引,並指出人工智慧之利用須遵從以下事項: 一、於經過潛在風險評估後,以適當且符合目的之方法利用; 二、人工智慧之使用應尊重個人權利與自由,且資料取得應合法且符合相關政策與法規之要求; 三、應於利用程序內結合人類判斷與建立問責機制,以因應AI產品之風險並確保其決策之適當性。 四、於不破壞其功能與實用性之前提下,盡可能確認、統計以及降低潛在之歧視問題。 五、AI進行測試時應同時考量其未來利用上可預見之風險。 六、持續維持AI模型之迭代(Iteration)、版本與改動之審查。 七、AI之建立目的、限制與設計之輸出項目,應文件化。 八、盡可能使用可解釋與可理解之方式,讓使用者、審查者與公眾理解為何AI會產出相關決策。 九、持續不定期檢測AI,以確保其符合當初建置之目的。 十、確認AI於產品循環中各階段之負責人,包含其維護相關紀錄之責任。

Thomson Reuter宣佈全球前百大創新機構

  Thomson Reuters於11月14日當週,宣佈全球前100家最具創新機構,美國持續領先,而亞洲及歐洲分別屬第二及第三。然而,中國由於智慧財產保護及全球產品商品化實行因素,未能排入百大企業中。其名單結果來自於Thomson Reuters 2011全球百大創新專案,透過專屬方法分析專利資料及相關指標,來確認這些企業和機構於創新活動領先於全球之地位。   Thomson Reuters智慧財產解決方案事業部總裁David Brown表示:「創新使企業和國家成長繁榮,主要是為了追求克服經濟的衰退並達到競爭優勢」。   2011全球百大最具創新企業的市場資料,與2009年比較顯示,2010年百大企業增加了超過400,000工作機會,較前年提高3%,增加的比率高於同一期間的標準普爾(S&P)500企業的幅度。Brown表示:「全球百大創新組織創造的工作機會代表了創新為經濟成長具意義影響的指標」。除此之外,2011百大創新組織的市場價值加權平均收益較前一年度增加12.9%,而標準普爾500企業市場價值加權平均收益僅增加7.2%。   排名企業依地域分佈,其中40%來自為美國,31%為亞洲,29%為歐洲,亞洲主要為日本和南韓,前者占27%,後者占4%。歐洲主要區分為法國(11%),德國(4%),荷蘭(4%),列支敦斯登侯國(1%),瑞典(6%)及瑞士(3%)。法國為歐洲創新領導國。儘管大陸於專利申請數量佔領優先,但缺乏全球影響力及專利獲證比率之重要因素,故未進入前百大名單。   Thomson Reuters排名的方法,主要是以四大衡量基準:專利獲證比率(patent approval success rate),專利組合對於全球的影響(global reach of patent portfolio),對文獻引用的專利影響(patent influence in literature citation)及專利總數量(overall patent volume),選出前百大名單,如:Apple,Microsoft,Intel,LG和Motorola,全文內容可參考http://www.top100innovators.com/。

全球Open Data成功及挑戰之關鍵報告

  根據全球資訊網基金會(World Wide Web Foundation)及英國開放資料協會(Open Data Institute)指出,全球77個國家正進行Open Data政府開放資料政策,但實際運作上,各國政府提供公眾近用之資料集佔不到全世界政府資料的10%,呈現各國Open Data政策實行還有很大進步空間。   全球資訊網基金會與英國開放資料協會所合作的網絡平台-政府開放資料研究網絡(Open Data Research Network),針對各國政府開放資料執行狀況進行評比並提出Open Data Barometer研究報告。此報告指出,英國政府開放資料執行及成效排名第一,其次排名陸續為美國、瑞典、紐西蘭、丹麥、挪威。除此之外,專以倡導開放知識、資料、內容的國際非政府組織,開放知識基金會(Open Knowledge Foundation),則提出基於Open Data可用性及近用性進行70個國家的排名,英國仍是第一名,其次為美國、丹麥、挪威、荷蘭。從上述兩項研究報告中,英國在Open Data政策落實的成效受到高度肯定,而歐美地區仍在Open Data政策實行上領先世界其他地區的國家。   Open Data Barometer研究報告指出,目前各國政府傾向不提供具潛在爭議性的政府資料,但此類資料往往具再利用價值,例如政府財政預算及交易資料、公司登記、土地登記等相關資料。全球資訊網創始人Berners Lee表示,政府及企業不應考量提供資料集而無法收取費用,或有意掩蓋政治敏感之資料來保護政治利益,而對於公布會造就人民生活的重大進步但具爭議性之資料集,感到卻步。   目前多數國家開放資料之機器可讀性資料與資料集之免費授權(Open License)皆少於7%,報告中說明全球資料集實際可用性仍偏低,亦發現各國提供資料之收費不僅沒有效率,資料再利用授權關係也不明確,使得企業及使用者處在法律不確定之風險中。   全球面對開放資料的進展雖已有初步成效,但成功經驗仍集中在歐美國家,世界上其他國家在開放資料的可用性及近用性,仍與歐美國家有顯著差距,為能促進全球人民生活福祉及活絡商機,各國政府應更積極地執行開放資料政策,並持續改進。

歐盟COVID-19疫情位置資料和接觸追蹤工具使用指引

  歐洲資料保護委員會(European Data Protection Board, EDPD)於2020年4月24日公布COVID-19疫情期間使用位置資料和接觸追蹤工具指引文件(Guidelines 04/2020 on the use of location data and contact tracing tools in the context of the COVID-19 outbreak),就針對COVID-19疫情期間,歐盟成員國利用定位技術和接觸追蹤工具所引發的隱私問題提供相關指導。   EDPD強調,資料保護法規框架於設計時即具備一定彈性,因此,在控制疫情和限制基本人權與自由方面可取得衡平。在面對COVID-19疫情而需要處理個人資料時,應提升社會接受度,並確保有效實施個資保護措施。然而資料和技術雖可成為此次防疫重要的工具,但此次的資料利用鬆綁應僅限用於公共衛生措施。歐盟應指導成員國或相關機構,採取COVID-19相關應變措施時,若涉及處理個人資料,應遵守有效性、必要性、符合比例等原則。本次指引針對利用位置資料和接觸追蹤工具的特定兩種情況,闡明其利用條件和原則。情況一是使用位置資料建立病毒傳播模型,並進一步評估及研擬整體有效的限制措施;情況二是針對有接觸史病患進行追踪,目的是為通知確診病人或疑似個案以進行隔離,以便儘早切斷傳播鏈。   EDPB指出,GDPR和電子隱私保護指令(ePrivacy Directive)均有特別規定,允許各成員國及歐盟層級公共單位使用匿名及個人資料監控新冠病毒的傳播,並呼籲透過個人自願性安裝接觸追蹤工具。

TOP