合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=65&tp=5 (最後瀏覽日:2026/06/02)
引註此篇文章
你可能還會想看
加拿大在商展中展現數位內容產業之實力

加拿大領導廠商 ICTV ,在 NCTA 國家商展 (NCTA National Show) 中,帶來了加拿大在互動電視內容方面的最新科技展現。 ICTV 是著名產品 HeadendWare 的製造商,此產品是在寬頻產業中傳輸互動電視內容最強大的平台。此一平台目前已取得多家加拿大廠商的協力合約,將共同在此平台上發展遊戲、娛樂與資訊內容等將關服務。   ICTV 解決方案部門的主管表示,加拿大確實是在互動數位內容方面的技術領先國家,並且正持續吸引更多的廠商與其合作。確實,加拿大的科技產業在全球屬領先地位,過去國內廠商對於新科技的注意力,大都放在美國、歐洲及日韓等國,或許,對加拿大進行更深入的關心與瞭解,可以挖掘到更多的報寶藏。

因應ChatGPT人工智慧趨勢,為企業提出營業秘密管理建議

2022年11月美國OpenAI公司推出人工智慧大型語言模型ChatGPT,提供全球使用者透過輸入文本方式向ChatGPT提出問題,雖營業秘密不需絕對保密,惟是否會「因向ChatGPT揭露營業秘密而使營業秘密喪失了秘密性」? 依OpenAI公司「非API訪問數據政策」規定,ChatGPT透過OpenAI公司的AI訓練人員審核「使用者上傳至ChatGPT的資訊」,提供ChatGPT反饋,強化ChatGPT進行有效的學習,讓ChatGPT模仿人類語言回覆使用者所提出的問題。在AI訓練人員未將「使用者上傳至ChatGPT的資訊」交由ChatGPT訓練、學習前(上次訓練是在2021年9月),此聊天內容不會成為ChatGPT給其他使用者的回答,此時資訊對於公眾仍具秘密性。依據ChatGPT的使用條款第5(a)條之單方保密義務規定:「OpenAI公司、其子公司及其他第三方公司可能賦予使用者『機密資訊的接觸權限』,但使用者僅限於使用條款所允許的服務中使用該些機密資訊,不得向第三方揭露該機密資訊,且使用者至少應採取合理的注意保護該機密資訊。所謂機密資訊係指OpenAI公司、其子公司及其他第三方公司(1)指定的非公開資訊,或(2)合理情況下,被認定為機密資訊者,比如軟體、規格及其他非公開商業資訊。」。即ChatGPT對於使用者輸入的聊天內容不負保密義務。 公司將程式碼、會議紀錄等敏感資訊與ChatGPT共享,不必然屬於「因揭露營業秘密而使營業秘密喪失秘密性」,考量訓練數據量大,秘密性取決於周遭環境與揭露性質,例如: 1.揭露的資訊類型,比如飲料配方可能會比客戶名單更容易取得。 2.揭露的環境,比如競爭對手、大眾是否能提出具體問題,以致能取得他人聊天內容的營業秘密。 為在ChatGPT的趨勢下確保營業秘密的秘密性,建議企業採取的管理策略如下: 1.透過「資訊分類」以識別可共享的資訊。 2.審核涉及敏感資訊的協議、公司政策及供應商契約。 3.採取實體、數位的資訊保密措施,並留意尊重員工隱私,比如限制接觸某些網站或應用程式,應留意員工的手機是否能繞過此限制。 4.建立公司保密文化,如透過公司培訓、新人入職教育訓練,定期提醒其應負擔的保密義務。 本文同步刊登於TIPS網站(https://www.tips.org.tw)。

歐盟執委會發布人工智慧創新政策套案

歐盟執委會(European Commission)於2024年1月24日發布AI創新政策套案(AI innovation package),將提供全面性的激勵措施,協助AI新創公司、中小企業與歐盟AI技術之發展。AI創新政策套案預計將修訂〈歐盟高效運算聯合承諾〉(the European High Performance Computing Joint Undertaking),以創建AI工廠(AI factories);成立AI辦公室(AI Office);並建立歐盟AI新創與創新交流(EU AI startup and innovation communication),重點分述如下: (1)AI工廠:歐盟執委會在將2027年前透過〈歐盟高效運算聯合承諾〉投資80億歐元,在歐盟境內建設全新的超級電腦,或升級現有高效運算設備,實現高速機器學習(fast machine learning)與訓練大型通用AI模型(large general-purpose AI models),使AI新創公司有機會使用超級電腦與大型通用AI模型來開發各種AI應用。並且,AI工廠將坐落於大型資料存儲中心(large-scale data storage facility)周圍,讓AI模型於訓練時可取得大量可靠的資料。其次,AI工廠將藉由開放超級電腦來吸引大量人才,包含學生、研究員、科學家與新創業者,以培養歐盟高階AI人才,供未來歐盟持續發展可信任的AI(Trustworthy AI)。 (2)AI辦公室:該辦公室將設置於歐盟執委會內,用於確認與協調歐盟成員國AI政策的一致性。此外,該辦公室未來亦將用於監督即將通過之歐盟《AI法案》(AI Act)的執行成效。 (3)歐盟AI新創與創新交流:歐盟執委會將透過〈展望歐洲〉(Horizon Europe)與〈數位歐洲計畫〉(Digital Europe Programme),在2027年前投入40億歐元的公部門與私人投資,俾利歐盟開發生成式AI(Generative AI)模型。該政策套案亦將加速歐盟共同資料空間(Common European Data Spaces)之發展,使歐洲企業得取得可靠且具價值性之資料來訓練AI模型。最後,執委會將啟動歐盟〈生成式AI倡議〉(GenAI4EU initiative),將AI工廠所訓練之生成式AI應用於工業用與服務型機器人、醫療保健、生物科技與化學、材料與電池、製造與工程、車輛移動、氣候變遷與環境保護、網路安全、太空、農業等實際領域,刺激產業創新發展,改善人類生活。

歐洲議會決議通過歐盟數位服務新規章──數位服務法及數位市場法

  歐盟執委會(European Commission,下稱執委會)於2020年底提出數位服務法(Digital Services Act,DSA)以及數位市場法(Digital Market Act,DMA),而歐洲議會(European Parliament)最終於2022年7月5日以壓倒性的多數決通過上述法案,待歐盟理事會(Council of the European Union)核准通過後,法案將在公告於歐盟官方公報(EU Official Journal)後20天生效,並分別依規定時間開始適用。歐盟理事會已於2022年7月18日率先核准通過DMA,並正進行登載公報相關程序,DMA將於生效日起六個月後開始適用。以下將簡述兩法案主要內容: 1.數位服務法(DSA):主要係處理線上非法內容、不實資訊以及其他社會風險等散播問題。依DSA,數位服務提供者於其服務或交易平台應針對涉及侵害基本權之非法內容即時採取反制措施、強化平台交易者之查核並提高可追溯性、增加平台的透明度及有責性,並應禁止具誤導性及部分特定類型之定向廣告,如針對兒童的廣告或以敏感資訊為基礎的廣告等。 2.數位市場法(DMA):要求大型的主流線上平台於數位市場擔任「守門人」(gatekeeper),以確保消費者有公平的交易環境。守門人應與第三方交互使用服務,並使商業用戶得存取於其平台所生之資料,且不得:在其平台的檢索(index)與索引(crawl)相關排名中自我偏好(self-preferencing)自身產品及服務、令使用者難以卸載預先安裝之軟體或應用程式、以廣告為目的利用使用者個資。值得注意的是,執委會得對違反DMA規定之守門人處以其最高全球總營收10%的罰鍰,累犯者之罰鍰上限將提高至年度營收的20%。

TOP