合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/04/17)
引註此篇文章
你可能還會想看
美國FCC公布網路中立規則,確保網際網路自由與開放

  美國「聯邦通訊委員會」(Federal Communications Commission,FCC)於2010年12月21日表決通過「網路中立性」(Net Neutrality)規則,確保網際網路的自由開放,限制網路服務提供者(ISP)不得針對網路流量與內容進行不合理的管制,保障消費者權益、意見表達的自由、網路服務的競爭與創新。   網路中立性爭議由來已久,自2005年FCC公布網際網路政策聲明以來,對於管制機關是否介入ISP對於網際網路流量與內容之管理,一直爭執不斷。網路上服務與內容的創新驅動寬頻網路的發展,寬頻網路的普及又促進更多的創新與投資,在此時,寬頻網路壅塞的問題也日益嚴重,寬頻ISP為了確保競爭優勢,開始針對網路的流量進行管理,投入新技術建立網路流量的優先權與過濾機制中。   為了避免ISP管理網路的行為影響網路的競爭與創新發展,FCC自2009年開始探討網路中立性之管理規則。   本次公布之網路中立性規則包含五個部分:   1. 透明度(Transparency): ISP應公開揭露關於網路管理的資訊,包含網路接取服務之管理措施、商業條款,提供消費者及上下游業者做出適當的選擇。   2. 禁止封鎖(No Blocking)行為: 不得任意封鎖使用者及其他網路服務或內容提供者合法使用、接取網路的權利,凡是合法的內容、服務、應用等,皆不得被阻止。   3. 禁止不合理差別待遇(No Unreasonable Discrimination): 不得無故對於消費者接取網路之內容與流量進行差別待遇。   4. 定義合理的網路管理行為(Reasonable network management): 合理的網路管理包括:確保網路的安全與完整、解決網路壅塞的狀況、基於消費者自願的控制與過濾機制。   5. 區分無線行動網路與特殊服務 考量無線行動網路在速度、容量上與固定網路的差異,FCC制訂相關量測的規範,在合理網路管理的條件上,無線行動網路與固定網路將有不同的管制密度。 而FCC也將區分網路特殊服務,有別於單純的寬頻接取服務,特殊服務是在基礎網路上提供主要專業用途的服務,例如VOIP或視訊服務(IPTV),以促進更多元的私人網路投資與更創新的網路服務發展。   新的網路中立性規則仍然受到許多的批評,倡議者認為FCC宣示的管制強度太低,ISP有可能以各種手段迴避管制,公眾利益團體亦認為FCC未禁止「付費優先權」(Pay for priority),將使網際網路出現「高速/慢速」的不公平狀況;而反對者則認為FCC的管制將影響網路的創新服務發展,不利未來的投資。然而無論如何,這仍是在Comcast案受挫後,FCC維護網際網路的開放性所重新邁出之重要一步。

歐盟執委會以聯合行為處罰智慧卡晶片製造商1.38億歐元

  據調查,英飛凌(Infineon)、飛利浦(Philips)、三星電子(Samsung)及瑞薩電子(在當時為日立與三菱之合資公司) (Renesas,Hitachi 及Mitsubishi)在2003年9月至2005年9月間,藉由雙邊接觸以串謀有關智慧卡晶片相關事項;歐盟執委會認為該些公司在歐洲經濟區內(EEA)有對於智慧卡晶片之聯合行為,違反歐盟反托拉斯法(Cartels)。執委會因此對其處罰138,048,000歐元。瑞薩電子因符合2006年之寬恕告知(2006 Leniency Notice)而向執委會揭發智慧卡晶片之聯合行為,故免除罰鍰,三星因配合調查而減免30%之罰鍰。   該些進行聯合行為之公司係藉由雙方接觸來往決定個別回應顧客要求降價之方式。他們討論並交換機密之商業資訊,包含價錢、客戶、契約協商、產能或產能利用率及未來之市場行為。該行為違反了禁止聯合行為和限制商業活動之歐盟運作條約(TFEU)第101條及歐盟經濟區協定第53條。   負責競爭政策之執委會副主席Joaquín Almunia說: 在這個數位時代,不管是在手機、信用卡或護照裡,幾乎每個人都在使用智慧卡晶片。製造商應藉由創新及以最佳的價格提供最好產品之方式,致力於勝過競爭對手。若製造商不這麼作,反而選擇串謀,而造成消費者利益的損失,應受到制裁。   最初,執委會希冀藉由2008年調解通告(2008 Settlement Notice)而尋求與部分公司和解之可能性。然而,基於調解協商之進展緩慢,執委會遂於2012年決定停止調解而回歸至正常程序。

簡介人工智慧的智慧財產權保護趨勢

近期人工智慧(Artificial Intelligence, AI)的智慧財產權保護受到各界廣泛注意,而OpenAI於2023年3月所提出有關最新GPT- 4語言模型的技術報告更將此議題推向前所未有之高峰。過去OpenAI願意公布細節,係由於其標榜的是開源精神,但近期的報告卻決定不公布細節(如訓練計算集、訓練方法等),因為其認為開源將使GPT- 4語言模型面臨數據洩露的安全隱患,且尚有保持一定競爭優勢之必要。 若AI產業選擇不採取開源,通常會透過以下三種方式來保護AI創新,包括申請專利、以營業秘密保護,或同時結合兩者。相對於專利,以營業秘密保護AI創新可以使企業保有其技術優勢,因不用公開技術內容,較符合AI產業對於保護AI創新的期待。然而,企業以營業秘密保護AI創新有其限制,包含: 1.競爭者可能輕易透過還原工程了解該產品的營業秘密內容,並搶先申請專利,反過來起訴企業侵害其專利,而面臨訴訟風險; 2.面對競爭者提起的專利侵權訴訟,企業將因為沒有專利而無法提起反訴,或透過交互授權(cross-licensing)來避免訴訟; 3.縱使企業得主張「先使用權(prior user right)」,但其僅適用在競爭者於專利申請前已存在的技術,且未來若改進受先使用權保護之技術,將不再受到先使用權之保護,而有侵犯競爭者專利之虞,因此不利於企業提升其競爭力。 綜上所述,儘管AI產業面有從開源轉向保密的傾向,但若要完全仰賴營業秘密來保護AI創新仍有其侷限,專利依舊是當前各企業對AI領域的保護策略中的關鍵。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

申請專利時請注意:網頁內容亦可能成為「先前技術」(prior art)

  日前英國智慧局 (UK Intellectual Property Office) 裁定一則刊登描述銀行用於網路交易時辨識方法的新聞網頁可以做為「先前技術」的有效證據。該局的副局長,同時亦是專利總審查官 Ben Micklewright 指出,網頁上的日期以及內容應該以英美法民事案件中的「機率的平衡」(on the balance of probabilities) 來衡量其證據力。   法國匯豐銀行(HSBC France) 於2005年7月以一項辨識使用者身份的方法對英國智慧局提出專利申請。該方法包含使用者登入時需輸入一組特定的密碼以辨明身份。HSBC France 於申請時以2004年7月2日在法國的申請日期主張優先權。然而英國智慧局的審查官卻依2項證據核駁了 HSBC France 的上述申請,當中一項即為一篇於2004年2月20日刊載於知名雜誌 Computer Magazine 的網站上的文章。該文章描述了一項由 Lloyds TSB提案的身份辨識方法,與HSBC France 提出專利申請的方法有異曲同工之處。   對此 HSBC France 提出抗辨,指出該文章有電子版與紙本,然審查官卻無法提出紙本來證明其公開發表日期。同時HSBC France 亦主張英國智慧局應追隨一件由歐洲專利局 (EPO) 上訴庭的判決,該判決中指出對於網路上電子文章的證據負荷度應高於傳統文件,即應負「無可懷疑」(beyond reasonable doubt)的舉證力。然而 Ben Micklewright 副局長表示英國智慧局無須追從歐洲專利局的判決,並且因為已存在「先前技術」所以該申請案喪失進步性。他更進一步指出上述申請案無論如何皆無法取得商業方法專利,因為該方法不具備技術的本質(“is not technical in nature”)。

TOP