合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/04/18)
引註此篇文章
你可能還會想看
美國司法部命加州柏克萊大學完備無障礙網站,確保身心障礙人士之數位人權

  針對「全國聽障協會」(National Association of Deaf, NAD)於2014年對於加州柏克萊大學提供之免費線上課程、會議、講座、表演和其他影音檔案未內建隱藏式字幕(closed captioning),向美國司法部申訴,該校違反美國身心障礙者法Americans with Disabilities Act, ADA)第二章,即收編至美國統一法典(U.S.C.)第42章第12131至第12134條,關於「提供公共服務的實體(entity)應將其服務平等地提供他人近用」相關規定,包括州行政機構、法院、立法機關、城市、郡、學校、社區大學等實體,須確保身心障礙者獲得平等機會使用州和地方政府的服務或參與其活動。   美國司法部歷經八年調查後,最終與加州柏克萊大學達成行政協議(consent decree),要求加州柏克萊大學應定期回報無障礙網站建置進度、回應公眾無障礙網站需求、內部員工相關教育訓練、定期請第三方稽核單位測試學校各平臺的無障礙網站是否達「全球資訊網協會」(World Wide Web Consortium, W3C)發布的「無障礙網站指南」2.0版(Web Content Accessibility Guidelines, WCAG 2.0)AA等級技術標準。自該協議生效日起,加州柏克萊大學以下相關網路平臺上之影音檔案,均需內建隱藏式字幕:   一、大學官網(http://www.berkeley.edu)及公眾可瀏覽且由加州柏克萊大學管理的任何相關子網域;   二、大規模線上公開課程(MOOC)平臺「UC BerkeleyX」;   三、由第三方平臺(如Apple Podcasts或Spotify)託管,加州柏克萊大學管理的所有podcast頻道或帳戶;   四、由第三方平臺(如YouTube)託管,加州柏克萊大學管理的所有影音頻道或帳戶。   從行政協議之協調方向及結果來看,加州柏克萊大學除實體環境外,和該環境具聯繫關係之網站也需要符合ADA無障礙網站規定,使得多元族群均有平等接觸社會服務和活動的機會。在數位經濟時代,各式網路活動活絡之今日,網路等線上虛擬環境與實體公共設施的無障礙同等重要;線上與線下之人權皆須獲得同等保障,亦係數位人權之真諦。

日本產業活力再生法等修正案公布施行

  日本政府為求讓日本經濟發展能因應當前國際經濟現勢的結構性變化,相關產業活動有進行革新之必要;因此,日本政府提出「促進我國產業活動革新之產業活力再生特別措施法等法律部分修正案」(以下簡稱修正案),修正案係採包裹立法方式,修正「產業活力再生特別措施法」(簡稱產活法)、「礦工業技術研究組合法」(簡稱研究組合法),以及「產業技術力強化法」(簡稱產技法)等法律。修正案於今(2009)年4月22日經日本國會立法通過,同月30日公布(平成21年4月30日法律第29号),並於同年6月22日施行。以下針對三部法律中之主要修正項目簡介之。   首先,在產活法中,主要修正處是日本政府將出資與民間合作,成立「產業革新機構」股份有限公司,目的在結合公私資源,投資創新活動,包括集結最尖端基礎技術以協助進入應用開發階段,建立連結創投資本、新創企業與擔任將技術事業化之大企業的機制,以及將有技術優勢但埋沒大企業中之技術加以組合,並集中投入人力及資金以發揮價值。其次,在研究組合法中,主要修正處包括,擴大研究組合中可研發主題之技術範圍,放寬加入組合成員之資格,賦予研究組合組織變更、分割合併之可能。最後,在產技法中,主要修正處在於讓國有研發成果可以低於市價之價格實施,以促進將成果活用轉化成為產業實用之支援。日本政府之相關革新作法,其實際成效及對我國之啟發值得後續加以關注。

英國不贊同歐盟新視聽媒體服務指令

  英國傳播、電信、科技及媒體相關領域業者及團體於 2006 年 4 月聯合發表一份意見書,反對歐盟提出的新視聽媒體服務指令( Audiovisual Media Services Directive )草案。同時英國政府也正關注這項草案並與其他會員國進行討論。   自 2005 年 9 月起,歐盟開始針對電視無國界指令( Television without Frontiers Directive )的修正進行討論。歐盟考慮將該指令修改為視聽媒體服務指令,擴大其規範範圍,使其包括各種與電視相似( TV-like )的服務,並將所有視聽媒體服務區分成線性( linear )及非線性( no-linear )服務,分別給予不同程度的管制。   不過英國有許多業者及團體對於這項新指令的制訂深表不贊同,其認為: (1) 就非線性服務(例如隨選視訊)而言,目前既有法規以及業者自律規範已足以保障消費者; (2) 線性及非線性的分類方式可能不適宜作為法律定義的基礎; (3) 新指令將可能阻礙新進業者參與市場的意願,甚至導致投資者轉向其他國家發展。所以希望透過連署,要求歐盟重新檢視這項新指令。

高智發明(Intellectual Ventures)揭開其專利寶庫

  擁有專利但不生產商品,以購買專利與主張專利為主要商業模式的專利蟑螂,近來在美國引起眾多討論,2013年6月,美國白宮更正式發表聲明,不但要求行政機關打擊專利蟑螂,更建議立法機關作出相關修法。   高智發明(Intellectual Ventures,以下簡稱IV)自2001年創立以來,擁有約7萬個專利,其中4萬個屬於IV商業化專案,為主張專利之武器群。一向不承認自己屬於專利蟑螂的IV,2013年12月公開表列出3萬3千個用以主張專利侵權獲利之專利,包括無線技術、半導體技術、硬體、以及生物技術等高值專利;至於其他未公開的專利,IV則稱受限於第三方的保密義務無法公開。   IV宣稱此舉目的在於提供潛在專利被授權人或買受人一個購物清單;然而更為可能的,是面對同年11月底甫通過眾議院投票之創新法案帶來的壓力,所釋出之善意表示退讓。   前述公開清單目前在IV官網上公開提供下載與搜尋,對於企業或事務所,將來受到不知名公司控告專利侵權時,可以檢視這份清單,瞭解該案是否為IV所主導,但實際在訴訟策略上該如何運用學界與實務界尚未有明確的作法,值得繼續觀察。

TOP