「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
歐盟最近宣布其新設立的歐洲研究院(European Research Council, ERC),自2月底開始運作。ERC是依據歐盟第七期研發綱要計畫(Seventh Framework Programme for Research and Technological Development, FP7)下之子計畫-”理念”計畫("Ideas" programme)所設立。2006年底通過的歐盟第七期研發綱要計畫,揭示歐盟在2007至2013年間的科技研發政策、研發投入的重點領域與經費挹注情形。與PF6相較,PF7經費大幅成長,每年平均成長至少達40%,單是2013年一年,經費成長更高達75%。 ERC是第一個泛歐的經費補助機構,設立目的是為了贊助前瞻科學領域的研究活動。在設立第一年,歐盟挹注於ERC的經費即高達3億歐元,在FP7計畫的七年期間,ERC總計取得7.5 billion的經費。隨著ERC的設立,歐盟首度有了專為前瞻性研究量身訂作的經費補助運作機制,亦即交由歐洲科學界菁英,也就是由22位聲譽卓著的科學界菁英所組成的科學諮詢會(Scientific Council)自主管理,官僚系統不得對之表示意見。 歐盟希望藉由ERC的設立,促使科學界得以對最具有原創性的科學想法深入研究,以突破當前之知識界線,進而協助解決歐盟在社會、環境、經濟面所面臨之挑戰。
落實完善數位資料管理機制,有助於降低AI歧視及資料外洩風險落實完善數位資料管理機制, 有助於降低AI歧視及資料外洩風險 資訊工業策進會科技法律研究所 2023年07月07日 近年來,科技快速發展,AI(人工智慧)等技術日新月異,在公私部門的應用日益廣泛,而且根據美國資訊科技研究與顧問公司Gartner在2023年5月發布的調查指出,隨著由OpenAI開發的ChatGPT取得成功,更促使各領域對於AI應用的高度重視與投入[1],與此同時,AI歧視及資料外洩等問題,亦成為社會各界的重大關切議題。 壹、事件摘要 目前AI科技發展已牽動全球經濟發展,根據麥肯錫公司近期發布的《生成式人工智慧的經濟潛力:下一個生產力前沿(The next productivity frontier)》研究報告指出,預測生成式AI(Generative AI)有望每年為全球經濟增加2.6兆至4.4兆的經濟價值[2]。同時在美國資訊科技研究與顧問公司Gartner對於超過2500名高階主管的調查中,45%受訪者認為ChatGPT問世,增加其對於AI的投資。而且68%受訪者認為AI的好處大於風險,僅有5%受訪者認為風險大於好處[3]。然而有社會輿論認為AI的判斷依賴訓練資料,將可能複製人類偏見,造成AI歧視問題,而且若程式碼有漏洞或帳戶被盜用時,亦會造成資料外洩問題。 貳、重點說明 首先,關於AI歧視問題,以金融領域為例,近期歐盟委員會副主席Margrethe Vestager強調若AI用於可能影響他人生計的關鍵決策時,如決定是否能取得貸款,應確保申請人不受性別或膚色等歧視[4],同時亦有論者認為若用於訓練AI的歷史資料,本身存有偏見問題,則可能導致系統自動拒絕向邊緣化族群貸款,在無形之中加劇,甚至永久化對於特定種族或性別的歧視[5]。 其次,關於資料外洩問題,資安公司Group-IB指出因目前在預設情況下,ChatGPT將保存使用者查詢及AI回應的訊息紀錄,若帳戶被盜,則可能洩露機敏資訊。據統計在2022年6月至2023年5月間,在亞太地區有近41000個帳戶被盜,而在中東和非洲地區有近25000個帳戶被盜,甚至在歐洲地區也有近17000個帳戶被盜[6]。另外在2023年3月時,ChatGPT除了發生部分用戶能夠檢視他人聊天紀錄標題的問題外,甚至發生個人資料外洩問題,即用戶可能知悉他人的姓名、電子郵件,付款地址,信用卡到期日及號碼末四碼等資料[7]。 參、事件評析 對於AI歧視及資料外洩等問題,應透過落實完善數位資料治理與管理機制,以降低問題發生的風險。首先,在收集訓練資料時,為篩選適合作為模型或演算法基礎的資料,應建立資料評估或審查機制,減少或避免使用有潛在歧視問題的資料,以確保分析結果之精確性。 其次,不論對於訓練資料、分析所得資料或用戶個人資料等,均應落實嚴謹的資料保密措施,避免資料外洩,如必須對於資料進行標示或分類,並依照不同標示或分類,評估及採取適當程度的保密措施。同時應對於資料進行格式轉換,以無法直接開啟的檔案格式進行留存,縱使未來可能不慎發生資料外洩,任意第三人仍難以直接開啟或解析資料內容。甚至在傳送帳戶登入訊息時,亦應採取適當加密傳送機制,避免遭他人竊取,盜取帳戶或個人資料。 財團法人資訊工業策進會科技法律研究所長期致力於促進國家科技法制環境完善,於2021年7月發布「重要數位資料治理暨管理制度規範(Essential Data Governance and Management System,簡稱EDGS)」,完整涵蓋數位資料的生成、保護與維護,以及存證資訊的取得、維護與驗證的流程化管理機制,故對於不同公私部門的AI相關資料,均可參考EDGS,建立系統性數位資料管理機制或強化既有機制。 本文同步刊登於TIPS網站(https://www.tips.org.tw) [1]Gartner, Gartner Poll Finds 45% of Executives Say ChatGPT Has Prompted an Increase in AI Investment (May 3, 2023), https://www.gartner.com/en/newsroom/press-releases/2023-05-03-gartner-poll-finds-45-percent-of-executives-say-chatgpt-has-prompted-an-increase-in-ai-investment (last visited June 30, 2023). [2]McKinsey, The economic potential of generative AI: The next productivity frontier (June 14, 2023), https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-AI-the-next-productivity-frontier#introduction (last visited June 30, 2023). [3]Gartner, supra note 1. [4]Zoe Kleinman, Philippa Wain & Ashleigh Swan, Using AI for loans and mortgages is big risk, warns EU boss (June 14, 2023), https://www.bbc.com/news/technology-65881389 (last visited June 30, 2023). [5]Ryan Browne & MacKenzie Sigalos, A.I. has a discrimination problem. In banking, the consequences can be severe (June 23, 2023), https://www.cnbc.com/2023/06/23/ai-has-a-discrimination-problem-in-banking-that-can-be-devastating.html (last visited June 30, 2023). [6]Group-IB, Group-IB Discovers 100K+ Compromised ChatGPT Accounts on Dark Web Marketplaces; Asia-Pacific region tops the list (June 20, 2023), https://www.group-ib.com/media-center/press-releases/stealers-chatgpt-credentials/ (last visited June 30, 2023). [7]OpenAI, March 20 ChatGPT outage: Here’s what happened (Mar. 24, 2023),https://openai.com/blog/march-20-chatgpt-outage (last visited June 30, 2023).
歐洲生技產業協會促請降低中小型生技產業之專利申請費用在專利領域,歐盟層級目前尚未有任何整合全體會員國內國專利法之有效法規, 1973 年訂定之歐洲專利公約( European Patent Convention, EPC )並非歐盟層級的法律,且 EPC 僅就歐洲專利的申請、審核及取得予以規定,至於專利權之保護,專利權人仍必須在受侵害國家自行尋求救濟,故自 1972 年起,歐盟即一直試圖整合共同體之專利規定,持續催生「共同專利規則」(草案)( Proposal for a Council Regulation on the Community Patent ),目的是希望在歐洲層級,除了可以有統一受理及發給共同體專利之機制外,關於涉及共同體專利實體法上之解釋,亦能予以統一審理、解釋。 目前歐盟各國紛歧的專利制度,使產業維護與保護其專利權益之成本極高,且受到嚴重影響的往往是那些中小型的新創與研發行公司,若再加上其他必要費用及語言隔閡(當前翻譯費用占歐洲專利的所有申請成本的比率可能高達 20 %)等因素一起比較,即可發現歐洲中小型企業處於競爭劣勢;相較於此,美國對雇用員工少於 300 人的企業的專利申請費用,提供高達 80 %的補助。 由於生技產業多為中小型規模的企業,為確保這些企業的競爭力,歐洲生技產業協會( EuropaBio )建議歐盟參考去( 2005 )年 12 月 15 日 通過的「歐盟醫藥品管理局協助中小型公司發展之規則」( Commission Regulation (EC) No 2049/2005 )減免中小型生技製藥公司新藥上市申請規費的方式,對中小型企業之專利申請費用,亦給予折扣。 這項建議獲得歐盟執委會的支持,執委會並打算在 10 月重新提出的共同體專利規則( Regulation on Community Patent - London Protocol )中納入考量根據 London Protocol ,未來歐洲專利得僅以三種語言(英文、德文及法文)提出,該 Protocol 必須至少有八個國家簽署,包括法國、德國及英國,始能生效 截至目前為止,已經有十個國家(包括德國及英國)的國會同意接受該協議,其中七國並已經相關文件交存,因此一般認為 London Protocol 通過的機率極大。
新的多媒體裝置,為數位內容帶來更多空間Iomega 公司是一家在全球資料儲存裝置產業中居領先地位的廠商。近日, Iomega 在慶祝其二十五週年的同時,推出了一款多媒體儲存硬碟,其本身具有多媒體 ( 包括圖片、音樂與影片等 ) 錄放的功能,可搭配目前全球所有款式的電視機種與 AV 系統使用。 這套系統,適合於家庭或長途駕駛人使用,使用者可免除煩人的多媒體檔案格式轉換問題。隨著數位科技的進步,廠商所推出的多媒體裝置愈來愈多樣,消費者的使用也愈來愈方便。相信,隨著硬體與軟體設備的不斷發展,數位內容也會展現出愈來愈多的可能與空間。