「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
美國民主黨國會議員針對「外國情報偵察法」(Foreign Intelligence Surveillance Act of 1978, FISA)提出修正草案,2007電子監察法案 (Responsible Electronic Surveillance That is Overseen, Reviewed and Effective Act of 2007, RESTORE Act of 2007),主要目的在提高政府部門對外國人進行電子監聽之門檻,以增加電子監聽之隱私保障。 在911恐怖攻擊事件後,美國有不少電信業者開放其網路供政府部門進行電子監聽。但是隱私保護團體認為此一行為對於美國民眾之個人隱私造成莫大傷害,並對各大電信公司提起訴訟。為協助配合政府監聽要求之電信業者免於此一民事訴訟糾紛,布希政府要求國會修正外國情報偵察法的同時,增訂溯及既往之條款,使過去曾配合政府之監聽要求的電話及網路服務提供業者能免責,不需面對高額求償之訴訟。 儘管隱私保護團體認為該修正草案對於隱私權之保護比現行法規更為周延,但仍認為美國國會還應立法要求政府對於本國人之電話或電子郵件訊息之監聽,必須事先申請獨立之搜索票。但布希政府指出,針對所有可疑目標之監聽均一一申請獨立搜索票將會花費過多時間,影響監聽之效率。 由於此一修正草案具有高度爭議,因此美國國會已於日前延後該修正草案之表決時間,以便就該修正草案進行更周詳之討論。
歐盟《歐洲資料戰略》歐盟執委會針對未來10年歐洲AI開發與開放資料運用方向等核心議題,於2020年2月19日公布一系列數位化政策提案,其中之一即為提出歐洲資料戰略(European Data Strategy)。本戰略提出資料開放共享政策與法制調適框架,宣示其目標為建構歐洲的資料單一市場(single market for data),視資料為數位轉型的核心,開放至今尚未被使用的資料。歐盟期待商界、研究者與公共部門等社群的公民、企業和組織,得透過跨域資料的蒐集與分析,改善決策的作成基礎或提升公共服務品質,為醫療或經濟等領域帶來額外利益,同時促進歐盟推動人工智慧發展及應用。 本戰略揭示了資料單一市場的建構框架,包含資料必須能在歐盟內與跨域流通並使所有人受益、全面遵守如個資保護、消費者保護與競爭法等歐盟相關規範、以及資料取用(access)和使用的規定,應平等實用且明確,並以之建立資料治理機制;同時,為在技術面強化歐洲數位空間之能力,以完善資料共享所需之資料基礎設施,應創建歐洲資料庫(European data pools),預備將來進行巨量資料分析與機器學習。在上述框架下,本戰略同時擬定了數個具體的措施與制度調修方向如下:(1)建構資料跨部門治理與取用之法規調適框架:包括於2020年第4季提出歐洲共同資料空間管理之立法框架,於2021年第1季提出高價值資料集(high-value data-sets),評估於2021年提出資料法(Data Act)以建構企業對政府或企業間的資料共享環境、調適並建立有利於資料取用之智慧財產權與營業秘密保護框架;(2)強化歐洲管理、處理資料之能力與資料互通性:建構資料共享體系結構並建立共享之標準及治理機制、於2022年第4季啟動歐洲雲端服務市場並整合所有雲端服務產品、於2022年第2季編纂歐盟雲端監管規則手冊;(3)強化個人有關資料使用之權利:從協助個人行使其所產出資料相關權利之角度,可能於資料法中優化歐盟一般資料保護規則(General Data Protection Regulation, GDPR)第20條之資料可攜權,如訂定智慧家電或穿戴裝置之資料可讀性格式;(4)建構戰略領域與公共利益領域之歐盟資料空間:針對戰略性經濟領域與攸關公共利益的資料使用需求,開發符合個資保護與資安法令標準之資料空間,主要用於保存製造業、智慧交通、健康、財務、能源、農業、公共管理等領域之資料。
美國政府提出強化金融數據境外監管之提案美國財政部(The Treasury Department)與美國貿易談判代表署(USTR)就跨太平洋夥伴協定(Trans-Pacific Partnership, TPP)數據監管要求之規範提出一項有關金融服務之提案,以保護美國境外金融數據資料之問題。該提案之主要目的係因TPP電子商務專章規範締約國不得要求外國業者須於投資當地設立數據儲存伺服器,然而,該專章排除金融服務業之適用,因此,在該提案中提出締約國不得要求外國金融服務業者在其境內應設立數據儲存伺服器,且要求美國政府於未來及目前談判中之國際經貿協定,如TiSA、TTIP、美國與中國雙邊投資協定(BIT)等,使金融服務業者無須於投資當地設立數據儲存伺服器。在此提案中,美國亦有意要建立一個國家對國家之爭端解決機制來解決相關問題。 美國貿易談判代表Michael Froman表示此乃透過協調利害關係人與國會議員,在國家優先利益的領域中尋求多方共識,美國將會繼續在TPP中實施並執行其協調工作。證券業與金融市場協會(the Securities Industry and Financial Markets Association)執行長肯認美國財政部及美國貿易談判代表署之作法。 雖然TPP業已完成談判,談判結果並不會受到本次提案談判立場之影響,但美國官員仍有意透過雙邊談判的途徑,與TPP國家中受金融業者關切的國家,如越南、馬來西亞、新加坡與汶萊展開諮商,以解決在TPP中的這項議題。
歐盟發布資料法案草案2022年2月23日,歐盟委員會(European Commission,以下簡稱委員會)公開資料法案草案(Data Act,以下簡稱草案),基於促進資料共享的目的,草案其中一個目標是使不同規模的企業、用戶在資料利用上有著更加平等的地位,內容包含確保用戶資料可攜性、打破資料存取限制、推動大型企業的資料共享,扶植微/小型企業等幾大方向。 以下就草案對大型企業要求的義務切入,說明草案所帶來的影響: 確保用戶訪問資料的權利: 基本資訊的告知,包含所蒐集資料性質以及訪問方式、使用資料的目的;用戶可在不同產品/服務提供者(以下簡稱提供者)之間切換,且提供者須有技術支援;提供者需要有合理技術,避免資料在未經授權被查閱。 對於提供者的限制: 提供者不得將所蒐集的資料用於取得用戶的經濟地位、資產、使用喜好;具守門人性質的企業不得採取獎勵措施以鼓勵用戶提供自其他提供者處所取得的資料;提供者提供資料可以收取補償,但必須以公平、合理、非歧視、透明的方式為之,需要提供補償計算方式與基礎。 對於微/小/中型企業的保護 提供者對於微/小型企業所收取的資料補償,不得超過提供資料所需的成本;提供者利用市場優勢,對於微/小/中型企業的不合理/公平的約定無效(如單方面免除一方的重大過失/故意行為的責任)。 該資料法案草案須經歐盟議會(European Parliament)通過後才會生效,目前草案規定只要有在歐盟提供物聯網產品或服務之企業,就須遵守草案內容規範,考量到網路服務可跨國提供服務,草案規範與進度仍值得國內企業關注。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」