合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2025/12/06)
引註此篇文章
你可能還會想看
美國地方法院以缺乏原創性為由駁回對泰勒絲歌詞的侵權訴訟

  2016年9月,詞曲創作者Sean Hall及音樂公司代表Nathan Butler提出著作權侵權訴訟,控訴泰勒絲2014年單曲【Shake it off】中「Playas, they gonna play / And haters, they gonna hate」的詞彙使用方法抄襲了2001年所錄製的【Playas Gon'Play】,主張在2001年前這種特定角色加上特定動作的重覆出現組合,並未於任何流行文化中所使用。   由於原告僅以歌詞部分進行侵權訴訟,美國聯邦地區法院法官不需專家或陪審團意見即可進行判決。法官Michael Fitzgerald以「平庸(banal)」一詞形容原告所提出的詞彙組合,駁回該訴訟,並表示被控侵權的泰勒絲歌詞內容部分為短語(short phrases),缺乏著作權法所保護的原始性及創作性,且「Playas gonna play / haters gonna hate」所展現的創作性和「鼓手會打鼓/游泳者會游泳」沒什麼兩樣。因此,除非【Shake it off】中有其他音樂元素可能值得聲稱侵權,法院願意給予原告機會修改聲明,進行上訴。此外,法院提出其它理由:「Playas+play」這樣的詞彙組合早於1977年單曲【Dreams】中「Players only love you when they’re playing」就曾被使用過,且「Playas」一詞也曾用於1990年年代做為R&B樂團的團名。   這不是【Shake it off】第一次遭逢侵權訴訟,2015年Jessie Braham指控【Shake it off】侵犯其於2013年發行的單曲【Haters Gone Hate】,並求償4,200萬美元。但由於原告並未提供足夠證據,該案亦遭駁回。

美國參議員提出「消費者網路視訊選擇法」草案

  越來越多消費者由網際網路觀賞視訊內容,保護新興視訊業者之市場競爭力也越加重要。美國參議員John D. Rockefeller於2013年11月發佈「消費者網路視訊選擇法(Consumer Choice in Online Video Act)」草案,塑造一個以消費者需求為中心的視訊市場,提供完全的單頻單賣(a la carte),使消費者有權力選擇想看的節目、決定想看的時間、挑選收看的方式,並且只為真正收看的內容付費。   此外,本法案亦規範網路服務業者必須提供消費者更完整精確的帳單資訊,以增進消費者權益。在促進市場競爭的目的下,本法案也賦予新興視訊產業基本的保護,防止既有業者之反競爭行為,使市場能有效競爭,帶給消費者更多利益。   該法案的主要規範內容簡介如下: ‧管制既有之有線電視、衛星電視與大型媒體公司對網路視訊服務業者的反競爭行為。 ‧提供網路視訊服務業者合理的取得各種節目內容之能力,使他們能提供給消費者更多節目與服務的選擇。 ‧管制寬頻服務業者不得降低其市場競爭者之網路傳輸品質,以保護網路視訊業者接觸消費者、提供服務的管道。 ‧提供消費者更為透明與容易理解的帳單資訊。消費者在申請網路服務時,將能得到更為清晰易懂的服務契約與條款的資訊。 ‧指示聯邦通信委員會持續監督寬頻服務之資費條件,確保這些資費條件不被用於反市場競爭行為。   隨著寬頻服務的普及,網際網路能夠提供更多元的內容,一方面消費者能夠有更多的選擇,確保市場持續有效競爭是非常重要的,本法案對我國而言亦有相當參考價值。

Palm支付2.25億美元與Xerox達成專利侵權和解

  由於 Palm 採用 3C om 的手寫辨識技術,於 1997 年遭 Xerox 控訴侵犯其在 1997 年所取得的 Unistrokes 專利權, Xerox 要求 Palm 支付 Graffti 的使用權利金,否則便應停止在其 PDA 中使用此項技術。此案於今年 (2006) 6 月 28 日 經 紐約西區美國地方法院法官 Michael Telesca 判決 Palm 的 Graffiti( 手寫辨識軟體 ) 的確已侵害到 Xerox 權利。   Palm 同意支付 2.25 億美元以取得 Xerox 手寫辨識軟體的合法授權使用權,結束 1997 年以來長達 9 年的法律訴訟。事實上, Xerox 在 1997 年是控告後來被 3Com 收購的 U. S. Robotics 公司, 但 這家公司之後被 3Com 買下,後來 3Com 再將其獨立 成立 Palm Inc ,當時 Palm 將 Graffiti 技術嵌入旗下的 Pilot PDA 中,也把使用了 Graffiti 技術的軟體賣給其他 PDA 製造商。   這次 Palm 所支付的費用涵蓋了 Palm Inc 、 PalmSource 及 3C om ,這三家業者均取得 Unistrokes 及 Xerox 其他兩項技術的專利的授權。雙方的協議包括 7 年的「專利和平」( patent peace )期,在這期間內允許合理使用談定的專利,而且不再互控對方。

在美國競業禁止修法趨勢下,雇主可採取的配套措施——–不可避免揭露原則?

美國聯邦貿易委員會(Federal Trade Commission, FTC)於2023年1月提出一項提案,將使所有競業禁止條款無效,惟提案尚未確定。儘管FTC同意該提案將影響對雇主的保護,但也指出營業秘密法已為雇主提供了保護其營業秘密的配套,其中「不可避免揭露原則」(the “inevitable disclosure” doctrine)或許將成為競業禁止協議之替代方案。 不可避免揭露原則是指當公司認為前僱員於新公司任職,將不可避免地使用前公司之營業秘密時,可向法院聲請禁止前僱員至新公司任職。法院通常會考慮下列三個因素,以決定是否基於不當使用營業秘密之「威脅」而授予禁制令救濟,包括: 1.前後雇主是否為提供相同或非常相似服務的直接競爭對手; 2.前僱員的新職位是否與原職位雷同,以至於無法合理地期待該僱員在不利用其前雇主之營業秘密的情況下,能履行其新的工作職責; 3.所涉及的營業秘密對於前後雇主是否都具有相當之價值。 雖然部份州法院指出根據其州法,得適用不可避免揭露原則,但各界對於雇主能否向聯邦法院根據《保護營業秘密法》(Defend Trade Secrets Act, DTSA)援引該原則仍未達成共識。儘管如此,部份聯邦法院強調雇主須明確說明前僱員為何將不可避免地使用或揭露其營業秘密,僅證明前僱員在工作期間獲得機密資訊,並隨後於競爭公司擔任類似職位,不足以證明前僱員將不可避免地使用前公司之營業秘密。 綜上所述,不可避免揭露原則可以防止前僱員不當使用其營業秘密的威脅,但由於聯邦法院對於能否援引該原則的標準仍不明確,僅指出不可避免揭露原則將使雇主面臨較高的舉證要求,故其是否能成為競業禁止協議的替代方案,仍有待觀察。 本文同步刊登於TIPS網站(https://www.tips.org.tw)。

TOP