在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。
美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。
與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。
但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。
網路搜尋引擎的巨人 Google ,近來有一項計畫,即對圖書館中的書籍做掃瞄,然後讓使用者透過網際網路搜尋書籍的內容。由於 Google 計畫掃瞄供搜尋的書籍中,包括許多目前仍受到著作權保護的著作,因此 Google 此舉,是否造成對書籍著作權的侵害,便引發了相當的爭議。 在近日的一個討論會中,學者、作者與出版商群聚一堂,就 Google 此一計畫的合法性進行討論,並就是否對 Google 進一步提出訴訟做討論。 Google 宣稱,此一計畫是人類知識發展的一大進步,把人類的觀念與想法,做有系統的歸類整理,並讓大眾更容易接近與使用,對於人類知識的傳播與進步,有重大貢獻。 然而,作者與出版商方面,則認為 Google 此舉侵害的作者與出版商的著作權。就此,作者與出版商已做出回應。先前,美國出版商協會 (The Association of American Publishers, AAP) 已於 10 月 19 日對 Google 提起訴訟,希望經由法律的判決,認定 Google 的作法侵害著作權。從法律上來看, Google 此一計畫是否侵害著作權,確有爭議之處。從美國作者與出版商激烈的反應來看,將來有可能還會有其他的訴訟,甚至集體訴訟 (Class Action) 的產生,其後續效應,值得觀察。
日本發布《首席AI長指引》與《實務手冊》,強化資料來源可溯,引導企業將AI風險納入資料治理框架2026年3月1日,日本人工智慧(AI)安全研究所(Japan AI Safety Institute, J-AISI)發布《首席AI長指引 1.00版》(Chief AI Officer Guidebook (Version 1.00),下稱指引)與《首席AI長設置與AI治理實施實務手冊 1.00版》(Practical Manual for Establishing a Chief AI Officer and Implementing AI Governance (Version 1.00),下稱實務手冊)。兩份文件旨於促進AI時代下的永續企業經營(sustainable business operations),提升產品與服務品質、建立客戶與使用者的信任。 一、指引與實務手冊概覽 指引內容包含設立「首席AI長」(Chief AI Officer, CAIO)職位之目的、職責。實務手冊內容則進一步指出一種組織模式,其中首席AI長為獨立的高階主管,直接向執行長匯報,並在首席AI長下設立AI治理辦公室,以及建議設立一個「跨部門AI指導委員會(Company-wide AI Steering Committee)」,成員包括首席AI長、首席資料長、首席資訊長、首席技術官、首席資訊安全官、法律合規部門、資料保護官、人力資源部門以及關鍵業務部門。各業務部門與系統所有者應依照既有標準運作,並向人工智慧治理辦公室和資料治理組織提供必要資訊。 二、將AI特定風險納入資料治理框架:降低幻覺與偏見之具體作法 在AI系統的生命週期中,資料品質影響決定模型效能、可解釋應與透明度。 首席AI長的職責為整合AI、資料與技術策略,於確保企業信任與風險管理之基礎下,驅動企業創新與數位轉型,並最大程度提升企業價值。因此,首席AI長應與首席資料長、法務部門協調,規範資料的生命週期、設定品質指標(Quality Metrics),並嚴格核實第三方素材授權(licenses for third-party materials)。 以下介紹文件建議之AI資料生命週期(資料蒐集)之管理作法: (一)區分資料用途:針對每個使用案例與模型,區分(1)AI模型訓練用資料;(2)AI訓練完成後,用於驗證與評測模型產出品質的評估資料(evaluation data),此類資料不參與模型的優化調整,僅客觀確認模型的準確度;(3)於AI模型運行過程中,使用者輸入的資料(data entered during inference),包含提示詞、上傳的文件及系統日誌(Logs)。 (二)資料分類:企業應依資料機敏程度進行分類,如機密、個資、內部及公開資訊等分類,以便加以定義資料之蒐集方式、儲存方式、資料遮罩要求(masking requirement,包含去識別化),以及控管資料傳輸至外部AI服務之權限。 (三)落實可追溯性與透明度文件:應透過實務手冊18.3之資料表(Datasheets)進行標準化記錄,包含 1. 基本資訊,如資料及名稱與版本;資料所有者;資料建立日期、最後更新日期等。 2. 目的與使用範圍,如資料集的用於訓練、評估、優化等;資料使用範圍限內部,或可對外提供等。 3. 組成與範圍,如記錄資料筆數與特徵概況;目標期間、區域與族群,如年齡、產業;資料格式,如文字/影像/音訊等。 4. 資料來源與蒐集方法,包含資料來源(內部系統、客戶提供的資料、公開資料、供應商提供的資料等);資料蒐集方法(日誌、調查、網路爬蟲等);是否取得資料主體同意等。 5. 資料品質與預處理(preprocessing),包含:紀錄去識別化等資料轉換流程;規範資料標記之品質管理機制。 6. 代表性與偏見,如列出AI預期使用情境與目標客群的一致性;特定性別、年齡、地區是否存在代表性不足的偏差等。 7. 隱私與法源依據,如資料是否包含個人資料或敏感資訊;資料處理之法律依據,如資料主體同意、契約等;採取之隱私保護措施,如去識別化等。 8. 授權、權利與資料反覆使用之條件:使用條件,如授權條款、是否允許商業使用等。 9. 安全性與存取控制:儲存位置,如資料中心、雲端或本地以及是否加密;資料之存取權限,如控管檢視、編輯、匯出等權限。 10. 資料保存與銷毀:記錄訓練資料、評估資料、輸入資料等不同類型資料之儲存期限,並規定如儲存期限過後,需以不可回復之方式銷毀資料,或必要時,應匿名後歸檔等規定。 三、接軌國內實務:企業可參考EDGS規範健全AI風險管理需求 面對AI資料生命週期管理,建議我國企業可參考資策會科法所創意智財中心發布之《重要數位資料治理暨管理制度規範(EDGS)》。EDGS同樣強調數位資料歷程管理,從資料生成、保護到維護的管理流程,有效強化資料的完整性。透過導入EDGS,企業不僅能提升內部創新、數位轉型,更能在面對AI糾紛時,提供歷程紀錄,從源頭端落實首席AI長所要求的循證治理目標。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)
法國擬針對智慧型手機、平板電腦課徵文化稅為了替法國藝術、電影和音樂等文化產業籌措資金,法國政府委託電視頻道集團Canal Plus前任執行長Pierre Lescure進行研究。報告最終建議,法國應針對Apple Inc.的iPhone、iPad及Google Android產品等智慧型手機、平板電腦課徵銷售稅。 報告指出,目前電視頻道、廣播、網路商等,皆已負擔一定費用,以協助文化產業發展,故智慧型手機、平板電腦此類重要媒介亦應採取類似措施。不過為了避免對市場造成過大衝擊,此銷售稅須維持在「極低水準」,預計稅率將落在1%左右,並可望為法國政府每年帶來約8,600萬歐元的稅收。 此舉被認為與法國長期採取的「文化例外(Cultural Exception)」政策立場有關。「文化多樣性」被認為是人類文明發展應遵循的共同價值,為了達成此目標,法國政府進一步認為在經濟層面上,政府基於保護自身文化產業,得在貿易談判中,將文化產業排除於自由貿易架構之外給予優惠,即所謂的「文化例外」。就目前而言,智慧型手機、平板電腦等硬體,在整體文化內容市場中,被認為佔有過大利潤,已壓縮文化產業發展空間,故必須採取適當措施,以衡平市場發展。 此項建議,預計將於今(2013)年7月間,由法國總統François Hollande決定是否正式進入立法程序。
瑞典網路服務提供者(ISP)之責任瑞典斯德哥爾摩地方法院於2015/11/27針對網路服務提供者(ISP)責任作出判決,有別於過往相關著作侵權訴訟,對象係針對個人或是散布侵權檔案之網站經營者,此次為針對網路服務提供者責任作成的第一筆判決,其結果具有指標性意義。 此次訴訟是由華納、新力、聯合音樂、北歐電影與瑞典電影中心聯合提起,請求法院命一瑞典ISP業者阻斷二個涉及著作權侵害之網站連結。原告等聲稱被告提供網路連接到侵權網站之行為,已構成侵害行為的參與(medverkar),據此請求法院禁止被告繼續此參與侵害行為。然法院未予採納,認為:(一)依歐盟指令(Infosoc-directivet)之要求,若網路中介者之服務受到第三人利用,作為侵害著作權及其鄰接權之用途,各會員國須提供著作權人司法救濟途徑,以對抗中介人。由於瑞典著作權法已提供禁制令(föreläggande)之申請予著作權人,藉此對抗參與侵害行為的幫助犯。可見瑞典著作權法已符合指令之要求。(二)其次,法院認定本案被告係單純提供其顧客網路聯結到侵權網站,不構成瑞典著作權法上之參與侵權行為。因所謂參與必須是客觀上對侵權行為人有幫助行為(如給與建議及諮詢),但本案被告並未與侵權網站有任何契約或特定關係,不能因為少部分之非法使用者利用其網站連結便認定其構成參與侵權行為。故法院認定本案不具備核發禁制令條件,駁回原告等請求。對此,原告擬提出上訴,後續發展有待觀察。