合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/21)
引註此篇文章
你可能還會想看
美國聯邦地方法院駁回臨床試驗軟體公司Medidata對競爭對手Veeva的營業秘密訴訟

  美國紐約南區聯邦地方法院(S.D.N.Y.)於2022年7月15日駁回了臨床試驗軟體公司Medidata Solutions Inc. (以下簡稱Medidata公司)控告競爭對手Veeva Systems Inc. (以下簡稱Veeva公司)竊取其營業秘密的請求。   原告Medidata公司於2017年1月指控被告Veeva公司陸續挖角其數名離職員工,部份員工離職時私自拷貝公司檔案,其中包含原告的產品研發、商業策略等營業秘密,而被告根據這些資訊開發了和原告相似的軟體,造成其重大損害,因此向被告請求4.5億美元的損害賠償。   被告Veeva公司抗辯雖然這些員工離職時私自保留原告的檔案,但原告在訴訟中並未明確說明哪些屬於該公司的營業秘密,亦即未特定營業秘密標的;此外,即便這些離職員工自行保留的檔案中有包含原告所稱之營業秘密,但原告提出的證據不足以證明被告有不當取用(misappropriation)其營業秘密,僅根據被告有僱用原告離職員工等事實,即推論被告有不當取用。原告試圖透過此模糊和毫無根據的主張,限制產業的創新、競爭、人才流動。   本案歷經五年的纏訟,法院最終駁回原告請求。法官指出,原告在整個訴訟過程中並未明確定義哪些資訊屬於營業秘密,原告似乎認為任何資訊皆屬於其營業秘密,這樣的主張無異於代表任何公司永遠無法挖角其他公司的員工,因為這些員工到新公司任職後所說的任何話,都會間接地揭露他們在之前工作中所學習到的事情,因此駁回原告之訴。   從本案可以觀察到,企業應定期盤點公司內部資訊,明確界定營業秘密範圍,並落實管理及妥善留存相關證據,發生侵害營業秘密爭議時才能有效舉證。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

日本經產省公布AI、資料利用契約指引

  伴隨IoT和AI等技術發展,業者間被期待能合作透過資料創造新的附加價值及解決社會問題,惟在缺乏相關契約實務經驗的狀況下,如何締結契約成為應首要處理的課題。   針對上述狀況,日本經濟產業省於2017年5月公布「資料利用權限契約指引1.0版」(データの利用権限に関する契約ガイドラインVer1.0),隨後又設置AI、資料契約指引檢討會(AI・データ契約ガイドライン検討会),展開後續修正檢討,在追加整理資料利用契約類型、AI開發利用之權利關係及責任關係等內容後,公布「AI、資料利用契約指引草案」(AI・データの利用に関する契約ガイドライン(案)),於2018年4月27日至5月26日間公開募集意見,並於2018年6月15日正式公布「AI、資料利用契約指引」(「AI・データの利用に関する契約ガイドライン)。   「AI、資料利用契約指引」分為資料篇與AI篇。資料篇整理資料契約類型,將資料契約分為「資料提供型」、「資料創造型」和「資料共用型(平台型)」,說明個別契約架構及主要的法律問題,並提示契約條項及訂定各條項時應考慮的要點,希望能達成促進資料有效運用之目的。   AI篇說明AI技術特性和基本概念,將AI開發契約依照開發流程分為(1)評估(assessment)階段;(2)概念驗證(Proof of Concept, PoC)階段;(3)開發階段;(4)進階學習階段,並針對各階段契約方式和締結契約時應考慮的要點進行說明,希望達成促進AI開發利用之目的。

歐洲創新委員會發布2024年工作計畫,將對策略性科技公司及新創公司提供超過12億歐元的資金

歐洲創新委員會(European Innovation Council, EIC)於2023年12月12日發布2024年工作計畫,其中三項計畫將對策略性科技公司及新創公司提供超過12億歐元的資金: (1)「探路器計畫」(EIC Pathfinder):本計畫經費共2.56億歐元,將補助「有潛力帶領技術突破」的多元學科(multi-disciplinary)研究團隊;每案補助金額不超過400萬歐元。 (2)「轉型器計畫」(EIC Transition):本計畫經費共0.94億歐元;「轉型器計畫」係協助「探路器計畫」、「歐洲研究院概念驗證計畫」(European Research Council Proof of Concept projects)、「展望歐洲計畫」(Horizon Europe)之研發成果銜接創新應用;此計畫每案補助金額不超過250萬歐元。 (3)「加速器計畫」(EIC Accelerator):本計畫經費共6.75億歐元,補助對象為「有能力創造新市場及促進顛覆性技術創新研發」的新創企業及中小企業。此計畫每案補助金額為250萬歐元以下,但若由EIC基金進行投資者,每案補助金額為50萬歐元至1500萬歐元。 除上述補助外,EIC對於研發計畫管理亦扮演積極主動的角色,可協助受補助者連結歐盟境內外資源,形塑良好的創新生態系。

因應知識經濟社會 日本推動司法改革

  鑑於社會態度轉變與經濟面的需求,特別是隨著稅法和智慧財產權問題日益複雜,日本企業領袖紛紛延攬龐大的律師團,以借助其專長規劃並解決相關問題,以至法律專業人才需求更甚於以往。為此,日本改變壓低律師人數以及不鼓勵興訟的政策,大刀闊斧推動二次世界大戰以來最大的司法制度改革。本次司法制度大改革廣開職業考試大門,以便有足夠的律師、檢察官與法官,能在日益好訟的日本社會處理龐大民、刑事案件。   為填補需求缺口,日本政府決定將包括律師、檢察官和法官在內的法律專業人士的人數提高一倍以上,在 2018 年以前增至五萬人。同時,重大刑案將在 2009 年引進陪審團制度,以減輕法官負擔。在政府鼓勵下,日本第一所美式法學院於 2004 年成立,現在全國已有七十二所類似的法學院。過去日本大學法律系通常著重法律的學術或理論面,而新式法學院的重心則以實務訓練為主。這些法學院的畢業生不必考舊律師考試,只考專為他們設計的筆試。   我國法學教育改革研議已有幾十年,總統府人權諮詢小組在討論人權問題時,亦有專題涉及法律人養成與司法制度改革,因而研議全盤改革相關制度;行政院經建會在重要人才培育與運用的政策中,亦研擬自去( 94 )年開始推動法律專業學院制度。

TOP