合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/02/05)
引註此篇文章
你可能還會想看
當個人隱私遇上公共利益--從個資法角度談市長候選人病歷外洩事件

美國商務部發佈智財權活動對美國經濟影響之綜合報告

美國商務部發佈智財權活動對美國經濟影響之綜合報告 科技法律研究所 法律研究員 曾文怡 101年5月16日 壹、事件摘要   美國商務部於今年3月發佈一份委由其所屬之「經濟統計局(Economics and Statistics Administration,ESA)」和「美國專利商標局(United States Patent and Trademark Office,USPTO)」共同執行的調查報告:「智慧財產和美國的經濟:產業焦點(Intellectual Property and the U.S. Economy: Industries in Focus)」。   報告除界定所選研究標的313種行業別中,共75種被認定為「智財密集型行業(IP-intensive industries)」;而這些「智財密集型行業」為美國帶來至少4千萬筆就業機會、超過5兆美元產值,佔美國GDP高達34.8%。 貳、報告重點摘要 一、「智財密集型產業」的篩選   此報告採用美國USPTO相關的行政數據,用以確認(identify)最密集利用商標、專利所提供的保護之行業;著作權方面,則係以是否主要為創作或生產受著作權保護素材,加以認定。以標準統計方法用以確認(identify)哪些美國行業(industries)是最具專利、商標及著作權密集型(intensive),並統稱為「智財密集型產業」。 (一)以該行業平均每人擁有專利數認定專利密集型行業   美國使用各美國行業標準分類 (North American Industry Classification System, NAICS) 於2004-2008這五年間的專利總數與該行業的平均就業人口的比例來測量行業的專利密集型:   Measure of industry patent “intensity” = total patents over the five years in a NAICS category / average payroll employment by industry   就業人口能夠展現一個行業的大小,並確保各行業在比較時是公平的 (even playing field) 。最具專利密集型的行業並不是擁有最多專利,而是在該行業一個職位有最多專利 (patents per job) 。若專利/職位比例高於所有行業的平均值,則該行業將被認定為專利密集型的行業。 (二)以商標登記數統計資料認定商標密集型行業   有鑑於一個商標通常會同時登記於好幾個不同的類別下,因此在此統計的方式將以類別為單位,而非商標。美國使用了3種方式來認定商標密集型的行業 (three-pronged approach) : 1.平均每人擁有商標數密集的行業   比照專利的方式,以商標登記與行業就業人口比例來測量商標密集性,首先過濾出屬於上市公司的商標登記,並比對該公司公開資訊中 (Compustat 資料庫 ) 的主要產業及員工人數,因為Compustat資料庫有包含公司的NAICS行業類別,如此就可以取得行業的商標登記數及就業人口數並計算該行業之比例。 2.前50家商標登記最多企業 (Top 50 Trademark-Registering Companies)   利用USPTO發佈的前50家商標登記最多企業名單 ( 不同於第一種方式將包含上市與非上市公司 ) ,並利用付費的OneSource資料庫找出這些企業的 NAICS 行業類別,並統計各行業在前50家企業名單中出現的次數,一個行業出現超過5次以上將被認定為商標密集型。 3.隨機取樣 (Random Sample of Trademark Registrations)   從2010年所有在登記的商標隨機抽樣300件,其中196件為美國公司申請登記,針對這196家企業試圖找出其NAICS行業類別,行業類別若有超過5筆商標登記,將被視為商標密集型。   上述三種方式總共產出60個商標密集型行業,同時使用三種方式係希望能夠彌補一種方式可能有的缺點,例如商標密集型方式可能會低估某些產業或忽略到較小型或沒有上市的企業,這部分由第二種及第三種方式試圖彌補。   最後被認定出為商標密集型的行業也與Interbrand的品牌排行作比較 (Best Global Brands in 2010) ,以確認被認定為最具品牌價值的企業是否屬於商標密集型的行業,此研究找出品牌排行中的企業的NAICS行業類別,並與之前被認定為商標密集型的行業作比對,發現具相當的重疊性。 二、以WIPO核心著作權產業標準界定著作權密集型行業   美國有關著作權產業的界定,主要根據WIPO於2003年發佈之「著作權產業經濟貢獻調查報告(Guide on Surveying the Economic Contribution of the Copyright-based Industries)」以及 Stephen Siwek 發表之「著作權產業對美國經濟之影響報告(Copyright Industries in the U.S. Economy)」。亦即,報告採用WIPO所界定之「核心著作權產業(core copyright industries)」作為其認定何謂「著作權密集產業」的基礎,再將單純只以銷售(distribution)受著作權保護客體為目的之行業加以排除。 三、「智財密集型產業」是驅動美國經濟發展的重要引擎   根據報告,「智財密集型產業」在2010年的產值超過5兆美元,佔美國GDP高達34.8%;同年「智財密集型產業」的貨物出口總金額約7億750萬美元,佔全部貨物出口總額的60.7%。另外,智財密集型的國際服務貿易相關數據資料雖有限,但研究者仍發現在2007年,智財密集型的國際服務貿易約佔全美民營企業服務貿易額的19%。 四、「智財密集型產業」提供至少 4 千萬個就業機會   2010年全美至少有4千萬筆工作,是直接或間接與「智財密集型行業」相關,佔所有工作機會的27.7%。其中直接相關者的從業人數約2,710萬人,佔所有工作機會18.8%;而與「智財密集型行業」間接相關的從業人數約1,290萬人。換句話說,每2個與「智財密集型行業」直接相關的就業機會,就帶來1個額外的工作機會。 五、「智財密集型產業」薪資待遇、教育水準優於其他行業   「智財密集型產業」的平均週薪在2010年為1,156美元,高出其他民營產業別的815美元約42%。其中又以專利及著作權密集產業的薪資成長幅度較高,專利密集行業的薪資從2005年的66%,成長到2010年的73%;著作權密集行業的薪資從2005年的65%,成長到2010年的77%。   而相對高的薪資待遇又與IP密集型行業的教育背景有關。據2010年的統計資料,超過42%的25歲從業人員係具有大專院校學歷,高於其他非IP密集型行業的34%。 參、事件評析 一、我國應建立智財密集行業界定標準並建立數據資料庫,以利掌握產業智財發展動向   智財法令可以保護發明者、創作者免於盜版之害,鼓勵其持續創新,維持競爭優勢,並確保智財權交易、流通市場得以順利運作。但智財保護的界線設定,也相對的影響創新、創意是否有足夠的發展空間,一套經過衡平設計的智財權,影響國家產業經濟甚鉅。   然而如何設計出衡平的法令,並非只須單純的以正義公理做邏輯推論,同時也須仰賴大量統計資料的數據分析,以調查實際運用情形,才能在智財保護體系分寸拿捏之際有所依據。美國商務部的報告開宗明義便指出,必須透過大量數據資料的分析,方能掌握智財在所謂的「智財密集型行業」所扮演的角色。   我國目前在建立智財相關數據資料庫面向,基礎建設不足,無法分析預估產業的發展趨勢及經濟特性,亦不能評估智財對於我國經濟的貢獻程度影響,肇致智財相關政策的立論說明欠缺實證,實應立即著手整備建置相關數據資料庫。 二、推動著作識別碼與存證登記並建立誘因,是評估我國著作權密集型產業經濟貢獻統計分析模式的核心措施   全球經濟發展重心已轉移到音樂、影視、遊戲等文化創意產業,權利別亦跳脫專利權而與著作權息息相關。從韓國等國家智財戰略的方向亦可發現,有賴政策擬訂與相關推動措施,實現以著作權為核心的產業結構。   但從報告中可看出,相較於專利、商標,著作權相關的數據資料較為不足。究其原因,或與著作權採創作保護主義,毋須進行註冊、登記程序有關。由於我國著作權法亦採創作保護主義,且未有存證登記管道,建議可參酌美國、韓國、中國大陸等著作權法與權利登錄有關之規定,並提供登錄者相關誘因,作為我國著作權產業相關統計指標及資料庫之基礎。   而除規劃推動著作物登記制度外,為降低網路侵權對產業經濟造成損害,應一併研議著作物來源識別機制,利用單一著作物內容識別碼,來協助交易雙方經由識別碼查證著作物之來源與權利歸屬,降低著作權授權之風險。同時開發追蹤非法重製物流通之系統,協助權利人進行侵權證據之蒐集與保全,以健全的著作權交易機制,作為發展我國文創軟實力之後盾。 三、確保研發創作者的智財受到有效保護,是促進創新活動、智財交易流通、帶動經濟發展的根本基礎   此報告於一開始即特別指出,專利、商標及著作權提供企業和個人創作者,將無形的發明、創意轉化為實質經濟利益之法律基礎,而一個國家的智財保護機制將連帶影響其整體經濟的商業活動,包括:提供驅動發明、創作的誘因、保護創新者免於未經授權之利用、促進技術市場之垂直分工、媒合資金與創新活動、透過併購及首次公開發行股票 (IPO) ,支援創業初期階段企業資產的流動性及成長、實現以技術授權為基礎的商業模式、促使技術移轉市場與技術及創意交易市場得以更有效率的運作。   為保護研發創作者的權益,國外已有許多國家採取積極主動的措施,例如:韓國為維護韓國業者著作權海外交易秩序及提升交易雙方的信賴,於2012年1月11日指定其所屬的韓國著作權委員會(Korea Copyright Commission)作為著作權認證業務之專責機關,負責推動著作權認證制度。於今年以輸出海外市場 ( 中國等 ) 之音樂、電影、電視劇等內容,作為第一階段著作權認證對象,並提供免手續費之優惠。韓國著作權委員會並設置數位著作交易所 ( 網站 ) ,著作 ( 權 ) 人可將其著作之權利相關資訊登錄至數位著作交易所的「著作權資訊管理系統 (Copyright Integrated Management System,簡稱 CIMS) 」上,CIMS就會給予該著作一組ICN識別碼,讓公眾便於取得授權。韓國文化體育觀光部與特許廳也分別開發有非法重製物及仿冒品之線上追蹤系統,由該二套系統主動蒐集、分析相關侵權資料後,協助權利人交由檢調相關單位採取管制措施。   但回頭檢視我國情況,同樣面臨降低著作權交易可能衍生紛爭之需求,卻沒有著作權官方存證管道,更遑論給予著作權認證制度與重製物及仿冒品之線上追蹤協助。未來著實應該借鏡韓國作法,規劃推動符合我國產業發展需求的著作權保護機制。 報告原文:The full report can be found online at http://www.uspto.gov/news/publications/IP_Report_March_2012.pdf

美國聯邦上訴法院判決,加州政府禁止販賣暴力電玩予未成年人之法案,係屬違憲

  美國聯邦第九區巡迴上訴法院,於2009年2月20日判決中維持下級審見解,認定『禁止暴力電玩法案』係違反憲法所保護的言論自由。系爭法案於2005年由加州國會通過,並由州長Arnold Schwarzenegger所簽署批准。根據該法案規定,禁止販售或出租所謂『特別殘酷、極端邪惡或道德敗壞(especially heinous, cruel or depraved)』的暴力電玩給未滿18歲的未成年人;符合法條所描述之暴力電玩並應該在包裝盒上加註除現行ESRB分級標誌以外的特別標示(18禁);且賦予零售商於販賣暴力電玩時,有檢查顧客年齡之義務,違者將可處1000美元罰款。   聯邦法院法官認為,被告(加州政府)無法證明『暴力電玩』會影響青少年心理及精神方面的健康,或者出現反社會或激進的行為舉止;被告也無法證明透過立法禁止的手段,能有效達到法案所宣稱保護未成年人的立法目的;法院也認為,系爭條文規定過於模糊,並未能說明暴力電玩之判斷標準。   原告Video Software Dealers Association 和Entertainment Software Association表示,要達到加州政府所宣稱的保護未成年人的立法目的,應從加強既有ESRB分級制度的教育宣導、落實零售商遵守分級制度以及透過父母的管教監督等方式著手,而非增加不適當的內容審查機制。然而,支持該法案者則主張,禁止暴力電玩如同禁止對未成年人散佈色情內容一樣(最高法院認為政府禁止對未成年人散佈色情內容並未違憲),本案被告加州州長Schwarzenegger也表示將上訴到底。   日前在德國也出現修正刑法,將販賣或散佈暴力電玩入罪之提議,在暴力電玩分級制度所引起的爭議日益擴大之際,各國相關作法及其所引起之爭議,或許值得我國主管機關重新檢討「電腦軟體分級辦法」之借鏡參考。

眾所矚目的LG對廣達權利金訴訟案有了初步的進展

  今年1月16日(週三),美國聯邦最高法院將韓國LG電子公司與台灣廣達(Quanta)電腦公司的訴訟案排入審判的程序之中,並預計今年六月底左右會有相關的判決結果產生。此案件之所於引人注目,主要是本案爭議的內容在於LG公司將其記憶體相關的專利權授權給美國Intel公司。而台灣廣達公司自Intel公司購買部分經LG授權的零組件,並用來製造筆記型電腦。   LG公司發現此情形之後,遂向美國法院控告廣達公司的行為侵害該公司的專利權,LG公司主張其授權並不包含對Intel公司以外的廠商,所以廣達公司的行為侵害該公司的權利;但廣達公司則主張Intel公司已取得授權,有權對外銷售,因此廣達公司的行為是合法的行為。   由於美國地方法院判決對LG有利,所以廣達公司不服因而提起上訴,本案也已經進入聯邦最高法院的訴訟程序,最後判決結果如何,將影響未來專利權擁有者與被授權者之間的關係,究竟收取權利金的範圍是否及於供應鏈或中下游的廠商等,成為眾人關注的焦點,也因此相關產業人士皆十分關注本案的發展。

TOP