在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。
美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。
與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。
但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。
美國接連發生電腦仲介商 ChoicePoint 與 NexisLexis 分別於 2004 年 10 月及 2004 年 4 月電腦遭入侵,數以百萬計的個人資料被竊取之事件,使得個人資料外洩的問題,受到美國國會的強烈關注。此一事件的發生,同時讓大家注意到加州資料庫外洩通知法( SB1386 )對於消費者保護的重要性。 SB13866 法要求持有個人敏感資料的組織、企業,當資料外洩時,需立即通知當事人。 Choice point 此次即是迫於加州州法的規定,於 2005 年 2 月通知了 3 萬 5 千名加州州民關於其個人資料遭受竊取的的消息。 鑑於個人資料保護的重要性,美國國會議員 Charles Schumer ( 紐約州 ) and Bill Nelson ( 佛羅里達州 ) 仿照 SB1386 加州立法,於 2005 年 4 月 12 日舉辦了「 2005 年個人資料保護風險通知義務法案」( Notification of Risk to Personal Data Act of 2005 )的公聽會。草案建議成立聯邦性法律,要求企業或政府,一旦其持有之個人資料遭到竊取,即需通知當事人。本草案同時明訂企業或政府應通知的事項;並擬允許,讓資料遭竊的個人,可於其信用報告中顯示其 7 年內可能遭受詐欺警告的紀錄。 本法案中除了包含 SB1386 的規定外,也對販賣個人敏感資料進行規範,並要求聯邦貿易委員會( Federal Trade Commission )設立相關組織,以協助資料遭竊之被害者。
政府科研計畫執行與貪污犯罪 日本正式打擊動畫與漫畫盜版 橫跨十五家企業聯手合作去年七月日本成立的「漫畫、動畫盜版對策協議會」上個月開始了所謂「MAG PROJECT」,針對中國、美國與歐洲等海外約100個提供盜版的網站,以約5個月的期間,透過電子郵件集中請求刪除盜版內容。 主要打擊對象為提供影音分享的網站、提供漫畫線上閱讀的線上閱讀網站與累積大量盜版資料的儲存空間網站等,在不聽從刪除請求的場合,向當地法院提起訴訟等法律措施也在此次盜版對策的考慮之列。主要保護對象預計包括在日本海外也相當熱門的「one piece(海賊王)」、「名偵探柯南」等總計約580部作品。 「漫畫、動畫盜版對策協議會」包括有東映動畫、吉卜力工作室、角川、講談社、小學館、集英社等等總計15家企業參加,由CODA(內容海外流通促進機構)負責事務局。 提到盜版,以往主要是重製的漫畫書跟DVD,而現在的主流則是網路。盜版在日本海外網路開始流通的時候,約莫是寬頻開始普及的2006年前後。在盜版流通的背景,除大容量的傳輸變成可能之外,還包括有在美國等地出現的日本動畫熱潮,以及Youtube等動畫分享網站的出現等等因素存在。 根據日本動畫協會的調查,2012年日本動畫製作公司的海外銷售金額為144億日圓,相較最近一期高峰值2005年的銷售金額313億日圓,可謂攔腰折半。另據日本經濟產業省25年度的調查,動畫與漫畫盜版造成的損害,光就美國一地來說,推估高達約有兩兆日圓之多。
OECD啟動全球首創的《開發先進人工智慧系統組織的報告框架》2025年2月7日,經濟合作暨發展組織(Organization for Economic Cooperation and Development,OECD)正式啟動《開發先進人工智慧系統組織的報告框架》(Reporting Framework for the Hiroshima Process International Code of Conduct for Organizations Developing Advanced AI Systems,簡稱G7AI風險報告框架)。 該框架之目的是具體落實《廣島進程國際行為準則》(Hiroshima Process International Code of Conduct)的11項行動,促進開發先進人工智慧系統(Advanced AI Systems)的組織建立透明度和問責制。該框架為組織提供標準化方法,使其能夠證明自身符合《廣島進程國際行為準則》的行動,並首次讓組織可以提供有關其人工智慧風險管理實踐、風險評估、事件報告等資訊。對於從事先進人工智慧開發的企業與組織而言,該框架將成為未來風險管理、透明度揭露與國際合規的重要依據。 G7 AI風險報告框架設計,對應《廣島進程國際行為準則》的11項行動,提出七個核心關注面向,具體說明組織於AI系統開發、部署與治理過程中應採取之措施: 1. 組織如何進行AI風險識別與評估; 2. 組織如何進行AI風險管理與資訊安全; 3. 組織如何進行先進AI系統的透明度報告; 4. 組織如何將AI風險管理納入治理框架; 5. 組織如何進行內容驗證與來源追溯機制; 6. 組織如何投資、研究AI安全與如何降低AI社會風險; 7. 組織如何促進AI對人類與全球的利益。 為協助G7推動《廣島進程國際行為準則》,OECD建構G7「AI風險報告框架」網路平台,鼓勵開發先進人工智慧的組織與企業於2025年4月15日前提交首份人工智慧風險報告至該平台(https://transparency.oecd.ai/),目前已有包含OpenAI等超過15家國際企業提交報告。OECD亦呼籲企業與組織每年定期更新報告,以提升全球利益相關者之間的透明度與合作。 目前雖屬自願性報告,然考量到國際監理機關對生成式AI及高風險AI 系統透明度、可問責性(Accountability)的日益關注,G7 AI風險報告框架內容可能成為未來立法與監管的參考作法之一。建議企業組織持續觀測國際AI治理政策變化,預做合規準備。