合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/02/07)
引註此篇文章
你可能還會想看
敏感科技保護

  「敏感科技」的普遍定義,係指若流出境外,將損害特定國家之安全或其整體經濟競爭優勢,具關鍵性或敏感性的高科技研發成果或資料,在部分法制政策與公眾論述中,亦被稱為關鍵技術或核心科技等。基此,保護敏感科技、避免相關資訊洩漏於國外的制度性目的,在於藉由維持關鍵技術帶來的科技優勢,保護持有該項科技之國家的國家安全與整體經濟競爭力。   各國立法例針對敏感科技建立的技術保護制度框架,多採分散型立法的模式,亦即,保護敏感科技不致外流的管制規範,分別存在於數個不同領域的法律或行政命令當中。這些法令基本上可區分成五個類型,分別為國家機密保護,貨物(技術)之出口管制、外國投資審查機制、政府資助研發成果保護措施、以及營業秘密保護法制,而我國法亦是採取這種立法架構。目前世界主要先進國家當中,有針對敏感科技保護議題設立專法者,則屬韓國的「防止產業技術外流及產業技術保護法」,由產業技術保護委員會作為主管機關,依法指定「國家核心科技」,但為避免管制措施造成自由市場經濟的過度限制,故該法規範指定應在必要的最小限度內為之。

美國聯邦通訊傳播委員會將表決是否開放閒置頻譜

  為釐清開放閒置頻譜(white space)予業者使用是否會產生干擾問題,美國聯邦通訊傳播委員會(Federal Communication Commission, FCC)所屬工程科技辦公室(Office of Engineering and Technology, OET)於上個月就閒置頻譜(white space)開放進行干擾測試,並在2008年10月15日公布結果報告。   工程科技辦公室表示,同時具有頻譜感測(spectrum sensing)以及定位(geo-location)功能之設備在測試中顯示對於既有使用者並不會造成干擾,是以,當美國於2009年2月17日完成無線電視數位化之後,閒置頻譜設備(white space devices, WSDs)應被允許使用於閒置頻譜。於此同時,聯邦通訊傳播委員會主席 Kevin Martin 在記者會中公開表示支持開放閒置頻譜,並宣布美國聯邦通訊傳播委員會將於2008年11月4日的公開會議中就此一議題進行表決。   美國國家廣播業者協會(National Association of Broadcasters, NAB)旋即在2天後向聯邦通訊傳播委員會提出緊急請願(emergency petition),希望聯邦通訊傳播委員會延後其表決時間,並就此一議題進行公共諮詢。國家廣播業者協會同時指出,該報告摘要對於測試過程所蒐集之資料解讀錯誤,國家廣播業者協會認為,根據該測試結果,未經取得執照且僅以頻譜感測技術避免干擾之閒置頻譜設備將會干擾既有的使用者。而非如該報告摘要所稱,應可開放同時具有頻譜感測技術及定位功能之閒置頻譜設備。截至目前為止,聯邦通訊傳播委員會尚未正式決定是否接受國家廣播業者協會之請求延後表決時間。

Ralph Lauren於Polo商標圖樣使用爭議中勝出

  美國第二巡迴上訴法院於二月初判決知名品牌Ralph Lauren與美國馬球協會(U.S. Polo Association ) 自1984年開始爭執不休的馬球圖樣使用爭議由Ralph Lauren勝出,馬球協會不得使用polo圖樣於香氛與美妝產品類別,確認了2012年3月地方法院禁止馬球協會使用圖樣的判決。   自1890年以來主管美國馬球運動的美國馬球協會與Ralph Lauren的馬球員圖像恩怨可追溯回1984年,當時馬球協會以確認之訴贏得在未造成與Ralph Lauren知名的Polo品牌混淆的狀況下,馬球協會得製造授權商品。   在2012年的判決中,地方法院禁止美國馬球協會使用馬球員圖樣與POLO字樣在任何香水、美妝產品類別上,同時要求USPTO拒絕馬球協會部分的商標申請,該案法官裁決與香氛產品有關的圖樣侵害Ralph Lauren的商標權利,構成不公平競爭,同時也造成設計師與被授權人無法回復的損害。   馬球協會的律師團在上訴理由中主張:馬球員圖樣符合先前使用,同時,因為過往的判決賦予協會得使用該圖樣在服裝類產品,表示也可以使用在香氛類別,因為服裝跟香氛產品的市場是很相近的,但前述主張並不為第二巡迴上訴法院陪審團所認同。

加拿大政府就生成式人工智慧對著作權的影響進行公眾諮詢

加拿大政府於2023年10月23日至12月4日針對「生成式人工智慧對著作權的影響」(consultation on the implications of generative artificial intelligence for copyright)進行公眾諮詢,以期了解生成式人工智慧對於加拿大著作權市場之變化,進而修訂《著作權法》(Copyright Act),本次諮詢文件中討論重點整理如下: 1.文字和資料探勘(Text and Data Mining, TDM):是否需要因應TDM修改加拿大原本的著作權法,包含著作權法中合理使用行為(29條)和暫時性重製行為(30.71條)等得不構成侵害之例外條款。學者、AI使用者以及AI技術團體大多持肯定見解,認為TDM行為中使用的著作時不需要權利人的著作權授權;然創意產業則多持否定見解,認為不應該為TDM創設例外,否則將會使得TDM所使用之作品原著作人無法主張權利以獲得授權金。 2.人工智慧生成作品之著作人身分及著作權歸屬:因利用生成式人工智慧所創作或輔助創作之文字、圖像和音樂有作者身分不明確之虞,因此加拿大政府希望可以對此加以澄清,並討論是否需要修改原本的著作權法案中相關規定。針對作者身分不明確之爭議,加拿大政府提出了三種可能的規範模式: (1)闡明著作權保護只適用於自然人創作的作品; (2)將人工智慧生成作品之作者歸屬於在創作作品時運用技能和判斷力的自然人,凡自然人可以在人工智慧技術輔助下創作的作品中貢獻足夠的技能和判斷力,即可被視為該作品的作者; (3)為人工智慧生成的作品創設一套新的權利。 3.人工智慧之侵權責任:人工智慧係透過大量的資料庫來生成一項作品,過程中可能出現侵害他人著作權之情形,而加拿大現行的著作權法框架下很難認定侵權行為之責任歸屬。加拿大現行的著作權法要求被侵權人(著作人)必須證明侵權人明知其重製行為侵犯他人著作權,且就該他人著作加以重製,但一般人難以瞭解人工智慧系統開發及訓練過程,因此難證明人工智慧系統研發與利用過程中的業者、工程師或其他相關人等是否有侵權行為。因此加拿大政府希望利害關係人就此議題提供更多意見,以協助將來修法、提高市場透明度。 生成式人工智慧雖然提供了便利的創作方式並帶來巨大經濟利益,卻也可能侵害他人著作權,因此平衡著作人之權利並兼顧經濟發展是加拿大政府及國際社會課正積極解決的議題。

TOP