「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
Proprius21專案乃是日本東京大學提供企業界可以與該校共同進行研究的一種機制,屬產學合作方式之一。此專案之提出,係該校有鑒於過去產業界與學術界合作進行共同研究的模式,多以特定的企業與特定的研究室間進行一對一的研究為主。然此一共同研究方式雖可讓大學所產出的知識貢獻給社會。但仍嫌規模過小,課題及責任分擔或目標成果不夠明確,所以需要一個可以創造更大規模的創新的機制。基此,東京大學希望透過Proprius21專案創造一個可由該校內部數個單位或研究室,共同參與大型研究主題的專案,以實現從多樣化的觀點來因應數個或一個企業需求之共同研究(多對多或多對一),並結合校內能量完成提案的機制。 東京大學規劃在校內以三階段活動進行Proprius21專案:(1)公開交換意見,即讓「產業界與學術界相遇的場合」的廣場活動。(2)濃縮出最佳的主題,以及尋找最佳成員之個別活動。(3)由成員縝密地製作計畫,由成員以外的人審視計畫內容,打造一個更為優質計劃的篩選活動。 為了推動Proprius21專案,東京大學係由產學合作研究推進部協助日本企業與校內研究人員進行個別的會議及研討會或研習營等活動,同時也針對企業在決定研究主題後,至計畫成案為止間之各階段提供各種支援。此外,該部人員也會接受來自產業界的諮詢,並在製作計畫之際,適當地介紹校內的職員,提供技術建議或審視計畫的內容等各種支援。
歐盟執委會發起ERA vs CORONA行動計畫,加速研發創新合作對抗COVID-19歐盟執委會於2020年4月7日發起ERA vs CORONA行動計畫,透過歐洲研究區(European Research Area, ERA)全力支持歐洲科研合作、共享科學資訊,並給予歐洲研究團隊與企業充足的研發疫苗資金,用以對抗COVID-19。歐盟執委會已與各國達成共識,確認ERA vs CORONA行動計畫的10項優先行動: 協調各國研究與創新(Research and innovation, R&I)資金投入,專注研發新型冠狀病毒的疫苗與治療方法,加強創新合作模式以對抗疫情。 支持新型冠狀病毒患者的臨床管理,與歐盟大規模臨床實驗計畫。 將資金投入創新領域回應社會需求,關注疫情對社會經濟、醫療及資通訊技術應用、衛生系統及製造業的影響。 藉由Horizon 2020 增加對新創公司的研發財務支持;拓展歐洲創新委員會ePitching計畫(EIC ePitching),鼓勵公私夥伴共同尋求解決方案。 創造資金來源促進R&I行動,引導新創及中小企業申請國家及地方資金、私人基金會、投資歐洲計畫(Invest EU)等。 建立ERA Corona平台,提供研發資金相關的一站式服務,包括歐盟各國補助新型冠狀病毒R&I計畫的完整資訊。 設立新型冠狀病毒特設高階R&I工作小組,規劃歐盟中長期防疫措施。 加強研究基礎設施布建及跨國資料庫利用。 創建歐洲COVID-19研究資料共享平台 ,連接歐洲開放科學雲,允許快速共享研究資料及成果以加速研發、公平分享資訊。 舉辦泛歐黑客松(EU vs Virus)推動歐洲創新與社會交流。
美國國會圖書館發布例外規則,將10項科技使用行為合法化美國國會圖書館(Library of Congress)依據著作權法(Digital Millennium Copyright Act,簡稱DMCA)第1201(a)(1)條授權,於2015年10月28日發布著作權法相關之例外規則(final regulations),明定10項與使用者權益相關的行為屬於著作權法保障之例外情況,將納入合理使用(fair use)範圍,不再視為侵害原著作權人之權利。上述合法的科技使用行為包含: 1.為了教育及其他非商業用途之目的,對視聽媒體所為之重製行為。 2.為了讓視覺或其他功能障礙者使用,對已購買之電子書所為之破解或形式轉換行為。 3.為了連結其他電信公司之網絡,針對手機及其他行動裝置之應用程式,所為之解鎖行為(unlocking)。 4.智慧型手機及其他行動裝置之越獄(jailbreaking)行為。使用者得利用外部工具取得系統最高權限,且不受原系統限制而安裝或解除安裝合法軟體。 5.智慧型電視之越獄行為。使用者得利用外部工具取得系統最高權限,不受原系統限制而安裝或解除安裝合法軟體。 6.汽車軟體之診斷、修理或改裝行為。車主或修車廠等人員得自行診斷、修理或改裝汽車軟體,不限於僅有汽車原廠得檢測或變更軟體。 7.為了促進電腦軟體的安全性,針對個人擁有之消費性家電、車輛及醫療裝置所為之軟體相關安全研究與測試行為。 8.某些需要透過與官方伺服器連線方能正常運作之遊戲軟體,於官方永久結束營運之後,使用者可自行建立伺服器,供擁有合法軟體的使用者繼續使用,但此項條款不包含主要內容儲存於官方伺服器之遊戲。 9.使用者可修改軟體程式,並使用其他的3D列印原料,不限於原廠預設之原料。 10.病人取得自身醫療裝置或監視系統數據之行為。本例外規則通過後,病人可合法取得自身醫療裝置之數據,而不違反著作權法之科技保護措施,不再受限於原先僅有醫院或醫療裝置公司可取得植入式醫療裝置之數據。 美國著作權法授權國會圖書館每三年發布一次例外規則,用以改善著作權法之「科技保護措施」的負面影響,並維護公眾接觸資訊之公共利益。上述第6至10項為本次新增之項目,但本次例外規則並未通過視聽著作空間轉換(space-shifting)及格式轉換(format-shifting)之行為、電子書專用閱讀器之越獄行為、或遊戲機(Video Game Consoles)之越獄行為。 針對開放汽車軟體之破解,某些汽車製造業者基於安全理由表示反對,但消費者方面,表達贊成意見人數明顯多於反對意見者。尤其是福斯汽車(Volkswagen)設計作弊程式通過廢棄排放檢驗的事件發生後,開放消費者得自行診斷、修理或改裝汽車軟體,將能降低此類弊端發生之機率,讓具有汽車軟體相關知識的消費者有機會能檢測汽車本身軟體是否符合法令規範或有任何異常。
日本發布資料素養指南之資料引領判斷篇,旨在呼籲企業透過資料分析結果改善並優化企業經營日本獨立行政法人情報處理推進機構於2025年7月發布《資料素養指南(下稱《指南》)》,指南分為三大章,第一章為整體資料環境之變化;第二章為資料治理;第三章為資料、數位技術活用案例與工具利用。指南第二章中的資料引領判斷篇,主要為呼籲企業透過資料分析結果改善企業經營。 《指南》資料引領判斷篇指出,在進行資料驅動的判斷流程時,需留意三點事項,分述如下: (一) 提出假說、驗證並進行決策 首先盤點利害關係人,蒐集各自的需求與課題,考量可以適用的技術與服務,並以此為基礎提出與事業相關的假說。其次,盤點必要資料並確認其利用可能性,同時針對所缺乏的資料進行取得可能性之評估。下一步,以所取得的資料為基礎進行假說與資料分析結果之驗證。而後,將假說與資料分析結果的驗證成果提供給利害關係人,並以利害關係人的意見為基礎,進行追加資料的取得並同時修正假說內容。最後,基於資料分析結果進行決策。 (二) 判斷決策所必要之資料的信賴性 企業在盤點必要之資料以進行分析並據此進行決策時,由於資料沒有達到特定數量無法用於分析、資料蒐集需花費時間成本,且判斷時點有時亦有其時效性,因此,在確保必要之資料時,會先檢視企業內部所持有之資料,而後確認政府機關的公開資料,如仍缺乏必要之資料,則會確認從資料市場取得之可能性等。在確保必要之資料後,則會判斷決策所必要之資料的信賴性,其主要分為兩點,一為針對資料本身之信賴性,包含資料是否有偏頗、對於資料產出者的信賴性以及資料取得日期、地區等;一為資料傳輸、編輯的信賴性,包含對於資料仲介者的信賴性、資料編輯程式以及資料整合方針。在無法完全確保資料的信賴性時,則會透過相關聯的資料進行資料正確性的檢驗。 (三) 服務導入與監視 資料分析並不僅侷限於現在資料的分析,亦會涵蓋未來資料的預測。舉例而言,自動駕駛資料不僅會分析車輛狀況以及周圍狀況,亦會預測並自動判斷是否需要剎車。透過資料分析結果導入服務後,亦應透過監視檢視決策成效,方法包含滿意度調查、平均使用時間調查等,並針對調查結果進行改善。 我國企業如欲將其所持有之資料用於分析並依照分析結果進行企業經營決策,除可參考日本所發布之《指南》資料引領判斷篇建立內含PDCA四面向之管理制度以外,亦可參考資訊工業策進會科技法律研究所創意智財中心所發布之《重要數位資料治理暨管理制度規範》,針對自身所持有之資料建立包含PDCA四面向之管理制度。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)