合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/04/26)
引註此篇文章
你可能還會想看
Common sense並非 Obviousness的代名詞

  美國聯邦第二上訴巡迴法院於去年12月9日做出判決,維持先前佛羅里達州南區地方法院對於 Perfect Web Tech. 公司之專利第6,631,400號(以下簡稱專利400號)做出該專利無效之簡易裁決。第二上訴巡迴法院在 Perfect Web Technologies Inc. v. InfoUSA Inc. 一案中對於判斷一項專利的顯而易見性 (obviousness) 上,“常識”(common sense)所代表的意義做出解釋。   此案最初係由 Perfect Web Tech 控訴InfoUSA 侵害其所持專利400號,該專利為 “一種管理大批 (bulk) 電子郵件傳送到各不同鎖定目標的方法”。專利400號包含了4道程序,第一至第三道程序包含將大批的電子郵件寄送到一鎖定目標對象的群組,並計算當中寄送成功的數量。第四道程序則為重覆程序一至三,直到寄送成功的數量超過原設定的最低成功數量。對此InfoUSA向法院提出裁定專利400號無效的簡易裁決,而地方法院以 “程序一至三為先前技術 (prior art),程序四則僅為合乎邏輯的常識做法”而准予該請求並裁定專利400號無效。   第二上訴巡迴法院維持原判的理由在於專利400號不符合於KSR案中關於 “顯而易見性”的判斷原則。訴訟雙方皆同意程序一至三為先前技術,而法院認為程序四是 “常識”下的產物, “是一般人都顯然會去嘗試的結果”。Linn 法官更進一步指出像這樣的案子根本不需要專家證詞,只需用一般人的常識判斷即可。但是判決中亦同時聲明,若要援用 “常識”來判斷一項專利的顯而易見性,地院或專利審查官必須要能將判斷的依據解釋清楚以受公評。此判決結果意味著如果係爭的專利技術較為複雜,被告將必須要依賴有利的專家證詞以成功證實爭論的要點僅止於常識運用且具有顯而易見性。

歐盟佐審官建議修正與加拿大之「航空乘客個人資料共享協議(草案)」,以維護人權

  歐洲聯盟法院(CJEU)佐審官 (Advocate General ) Paolo Mengozzi 於今年(2016) 9月8日提出一份不具拘束力之「航空乘客個人資料共享協議(草案)」( European Union on the transfer and processing of passenger name record data (“PNR Agreement”)) 法律意見,認為協議應遵守歐盟憲章有關人權之基本原則。此份法律意見為歐洲聯盟法院首次就國際協議草案,檢視與歐盟憲章有關規範之一致性。 [背景]   PNR協議草案於2010年5月開始協商,2014年6月25日簽署。主要以反恐為目的讓歐盟與加拿大交換航空乘客資訊(包括旅客姓名、旅行日期、行程記錄、機票、聯繫資訊、旅行社等其他有關資訊)。除加拿大之外,歐盟亦與美國、澳洲簽有類似資料共享協議。關注到PNR協議有關隱私、人權之議題,歐盟議會將PNR協議提至歐洲聯盟法院審議。 [法律意見]   佐審官認為,協議同意在特定條件下就限定目標之乘客蒐集其敏感資訊,未違反歐盟憲章;然PNR協議草案仍有部分內容違反歐盟憲章:即草案允許歐盟、加拿大主管機關使用乘客姓名等數據,已逾越預防恐怖組織犯罪和跨國犯罪的必要範圍。   因歐洲聯盟法院去年已廢除歐盟與美國之間之安全港(Safe Harbor)法案,隨後雖起草隱私保護協議(Privacy Shield),但仍有意見質疑隱私保護之完整性。PNR協議草案法律意見之提出,可窺歐盟關於隱私保護之立場。

涉外智慧財產權訴訟之國際裁判管轄-以侵害訴訟為中心

谷歌,蘋果商談競標已破產的柯達專利

  根據華爾街日報報導指出,蘋果及谷歌將聯合競標柯達公司所釋出的專利組合。   在智慧型手機市場上蘋果和谷歌互為競爭對手,原訂在柯達專利拍賣案中,兩家企業提出1億5仟萬美元至2億5仟萬美元金額進行競標活動,改協議採合作結盟競標方式,以較低的金額獲得柯達的專利。   華爾街日報引據熟悉此項談判之人士指出主要電子產業公司,如Samsung(三星)、LG(樂金)及HTC(宏達電),及其他以透過購買專利作為投資或保護公司營運為目的之企業亦有參與。   柯達為規劃重新成為印刷領域的專業,需藉由販賣其所擁有的1,100件數位影像專利以籌措資金,在今年年初,柯達評估所有專利價值為26億美元(21億歐元)   而柯達對外發布買方非常踴躍於此次競標活動中,但目前尚未可以公布結果,將無限期限地延長拍賣時間,主要柯達是希望蘋果及谷歌能在所釋出的專利中,進行一場專利競標的競賽。

TOP