AI底層算法創(chuàng)新的專利撰寫:如何兼顧權利要求保護范圍和客體問題?(上)
摘 要
為了貫徹落實中央十九大報告中指出的“加快推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合”,以及習近平總書記在中共中央政治局第二十五次集體學習時強調(diào)的“要完善大數(shù)據(jù)、人工智能、基因技術等新領域新業(yè)態(tài)專利審查標準”等要求,國家知識產(chǎn)權局在2021年8月3號對外發(fā)布的《專利審查指南修改草案(征求意見稿)》中,對于大數(shù)據(jù)、人工智能等領域的發(fā)明的專利客體、創(chuàng)造性判斷等問題,進一步明確了審查標準。雖然,目前專利審查指南的更新版本還未生效,但知識產(chǎn)權從業(yè)人員可從中窺見最新審查政策的導向。因此,基于目前專利審查指南的修訂內(nèi)容,結合多個典型案例,文章深入探討了涉及AI算法本身改進的案例撰寫方法,以期兼顧此類專利申請的客體問題以及權利要求保護范圍問題之間的平衡。
關鍵詞:AI算法專利;基礎層創(chuàng)新;技術層創(chuàng)新;客體;權利要求保護范圍
>>> 一、引 言
近幾年,人工智能技術的發(fā)展勢頭迅猛,許多創(chuàng)新主體的創(chuàng)新方向已經(jīng)從原來的應用層創(chuàng)新逐漸過渡到AI技術的底層算法本身的創(chuàng)新。各大創(chuàng)新主體對涉及AI算法類發(fā)明專利的保護需求也越來越強烈,尤其是對涉及機器學習的算法本身改進的發(fā)明專利申請的保護需求最為突出。
2020年2月1號施行的專利審查指南[1],雖在相關規(guī)定中給出了包含算法特征和方法特征的案件的客體審查基準,但創(chuàng)新主體對于而今的涉及AI算法本身創(chuàng)新的專利申請的客體審查判斷仍然存在一定的困難。例如,現(xiàn)行的審查指南中僅明確規(guī)定了“對一項包含算法特征和方法特征的權利要求是否技術方案進行審查時,需要整體考慮權利要求中記載的全部特征。如果該項權利要求記載了對要解決的技術問題采用了利用自然規(guī)律的技術手段,并由此獲得符合自然規(guī)律的技術效果,則該權利要求限定的解決方案屬于專利法第二條第二款所述的技術方案。例如,權利要求中涉及算法的各個步驟體現(xiàn)出與所要解決的技術問題密切相關,如算法處理的數(shù)據(jù)是技術領域中具有確切技術含義的數(shù)據(jù),算法的執(zhí)行直接體現(xiàn)出利用自然規(guī)律解決某一技術問題的過程,并且獲得了技術效果,則通過該權利要求限定的解決方案屬于A2.2所述的技術方案[2]”。由此不難看出,現(xiàn)行的審查指南對于算法類專利申請案具有明確的規(guī)定,即算法類案件中涉及到的數(shù)據(jù)必須是技術領域中具有確切技術含義的數(shù)據(jù),即規(guī)定了算法類案件要想通過客體審查的關口必須要與技術領域相結合,這無疑限縮了算法類案件的保護范圍。
從各大創(chuàng)新主體的需求來看,未來的AI領域創(chuàng)新可能很大程度上傾向于算法本身的創(chuàng)新,例如:數(shù)學模型、參數(shù)優(yōu)化上的創(chuàng)新,此類創(chuàng)新既可應用于A領域,也可應用于B領域,這在未來技術創(chuàng)新的道路上并不排除AI算法成為一種通用的工具,且無具體領域的限定。正如,現(xiàn)在被大家日常所用的計算機,在很多年以前也是技術的,以此類比到而今的AI算法專利——雖然技術性很強,但也難保在很多年后可能被人類作為通用工具,其并不局限在某一個領域。考慮到社會創(chuàng)新未來的發(fā)展,并且基于各大創(chuàng)新主體涉及AI算法專利的創(chuàng)新保護需求,國家知識產(chǎn)權局圍繞人工智能和大數(shù)據(jù)領域也在嘗試補充現(xiàn)有規(guī)定未涉及的客體審查基準,以期和公眾一起探討未結合具體技術領域的人工智能算法改進方案如何構成專利保護的客體,從而嘗試給涉及AI算法本身改進的案件一條通過客體審查的出路,與此同時,也兼顧了此類案件的保護范圍。
基于該初衷,國家知識產(chǎn)權局2021年8月3日公布的《專利審查指南修改草案(征求意見稿)》中,于第二部分第九章6.1.2節(jié)補充了有關人工智能算法的改進方案的審查基準,具體為“如果權利要求的解決方案涉及深度學習、分類聚類等人工智能、大數(shù)據(jù)算法的改進,該算法與計算機系統(tǒng)的內(nèi)部結構存在特定技術關聯(lián),能夠解決如何提升硬件運算效率或執(zhí)行效果的技術問題,包括減少數(shù)據(jù)存儲量、減少數(shù)據(jù)傳輸量、提高硬件處理速度等,從而獲得符合自然規(guī)律的計算機系統(tǒng)內(nèi)部性能改進的技術效果,則該權利要求限定的解決方案屬于專利法第二條第二款所述的技術方案”。
上述內(nèi)容實際上釋放出了三層審查基準:
(1)審查權利要求中的解決方案是否涉及深度學習、分類聚類等人工智能、大數(shù)據(jù)的算法
(2)審查該算法是否與計算機系統(tǒng)的內(nèi)部結構有特定技術關聯(lián)
(3)審查該算法所帶來的技術效果是否能夠帶來計算機內(nèi)部性能的改進
若以上三層審查基準都滿足,則權利要求中的解決方案即使沒有明確規(guī)定應用領域,也符合A2.2規(guī)定的技術方案。
故而,基于對本次征求意見稿中審查指南補充的新的審查基準的理解,筆者同步結合以下幾個典型案例,詳細為大家剖析國家知識產(chǎn)權局對于AI算法類案件的審查方向的變化。
>>> 二、以下專利申請案為何能順利通過A2.2的客體審查?
首先,我們需明確AI算法類案件的創(chuàng)新包括哪些類型;談及此處,則需了解AI技術的技術架構。
AI技術架構從上到下,分為AI應用層和AI底層算法,而AI底層算法包括AI基礎層算法和AI的技術層算法。這三個層在各大創(chuàng)新主體的研發(fā)過程中經(jīng)常會涉及到創(chuàng)新的技術點。
何為AI“應用層”創(chuàng)新?
此類創(chuàng)新是AI技術與各種應用場景的結合。
AI應用層是人工智能產(chǎn)業(yè)的延伸,集成一類或多類人工智能基礎應用技術,面向特定應用場景需求而形成軟硬件產(chǎn)品或解決方案。
例如,我們經(jīng)??吹降闹悄荞{駛、智能金融、智能醫(yī)療或者機器人等,都是常見的AI技術在應用場景上的創(chuàng)新。
何為AI“底層算法”創(chuàng)新?
實際上此類創(chuàng)新包含AI基礎層的創(chuàng)新以及AI技術層的創(chuàng)新。
AI基礎層主要包含基礎硬件設施、算力平臺、數(shù)據(jù)資源等,其聚焦的是計算能力和數(shù)據(jù)資源,為人工智能提供數(shù)據(jù)及算力支撐;
AI技術層聚焦在算法和模型上,主要包括操作系統(tǒng)、模型框架以及神經(jīng)網(wǎng)絡、深度學習、遺傳算法等模型構建或者模型訓練算法的創(chuàng)新。
針對AI底層算法類創(chuàng)新的案件,實際上無論是基礎層的創(chuàng)新還是技術層的創(chuàng)新,過去幾年中行業(yè)內(nèi)處理此類案件常見的做法是將其算法創(chuàng)新與具體的技術領域相結合,以滿足客體審查基準;但隨著中央十九大報告的出臺以及針對AI案件國家知識產(chǎn)權局一系列利好的修訂內(nèi)容,部分企業(yè)做了新的撰寫嘗試,并且取得了較好的結果。
接下來,筆者詳細將分析此類案例,其中,案例一至案例三涉及的是AI技術層的創(chuàng)新專利,案例四和案例五涉及的是AI基礎層的創(chuàng)新專利。
案例一
背景技術:
自訓練方法是一種利用神經(jīng)網(wǎng)絡模型自身的學習結果對模型進行迭代訓練的方法。傳統(tǒng)的自訓練方法通常需要對樣本數(shù)據(jù)D進行數(shù)據(jù)增廣,得到數(shù)據(jù)D';使用神經(jīng)網(wǎng)絡模型對數(shù)據(jù)D'進行預測,得到數(shù)據(jù)D'中各數(shù)據(jù)的輸出結果;合并數(shù)據(jù)D與數(shù)據(jù)D',繼續(xù)訓練神經(jīng)網(wǎng)絡模型。直到達到終止條件。對于傳統(tǒng)的自訓練方法來說,神經(jīng)網(wǎng)絡模型的每一次訓練,均需要執(zhí)行數(shù)據(jù)增廣與使用神經(jīng)網(wǎng)絡模型對增廣數(shù)據(jù)進行預測的步驟,因此神經(jīng)網(wǎng)絡模型在進行自訓練時所需的時間成本較高,步驟較為繁瑣。
權利要求1 如下:
1.一種自訓練方法,包括:
獲取訓練數(shù)據(jù),所述訓練數(shù)據(jù)中包含多個訓練樣本與各訓練樣本對應的標簽;
使用訓練數(shù)據(jù)對神經(jīng)網(wǎng)絡模型進行預設次數(shù)的訓練,并將各次訓練過程中使用的訓練樣本及其對應的輸出結果作為緩存數(shù)據(jù),記錄到緩存中;
在訓練次數(shù)超過預設次數(shù)之后,使用訓練數(shù)據(jù)與緩存中的緩存數(shù)據(jù)對所述神經(jīng)網(wǎng)絡模型進行訓練,并將各次訓練過程中使用的訓練樣本及其對應的輸出結果作為緩存數(shù)據(jù),記錄到緩存中;
在確定所述神經(jīng)網(wǎng)絡模型的訓練達到終止條件的情況下,完成所述神經(jīng)網(wǎng)絡模型的自訓練;
其中,所述將各次訓練過程中使用的訓練樣本及其對應的輸出結果作為緩存數(shù)據(jù),記錄到緩存中包括:
針對緩存數(shù)據(jù)中的同一個訓練樣本,使用本次訓練過程中得到的輸出結果替換前次訓練過程中得到的輸出結果。
【案例一】分析如下:
獨立權利要求中的解決方案主要是通過采用創(chuàng)建緩存,將神經(jīng)網(wǎng)絡模型在各次訓練過程中使用的訓練樣本及其對應的輸出結果作為緩存數(shù)據(jù)進行記錄的技術手段,克服現(xiàn)有技術中在每次訓練過程中需要對數(shù)據(jù)進行增廣以及對增廣數(shù)據(jù)進行預測所導致的時間成本較高、步驟較為繁瑣的技術問題,實現(xiàn)了減少對神經(jīng)網(wǎng)絡模型進行自訓練時需要的時間成本,提升了對神經(jīng)網(wǎng)絡模型進行自訓練的效率的技術效果。該方案涉及神經(jīng)網(wǎng)絡模型,雖然對涉及到的訓練數(shù)據(jù)并沒有具體的應用領域的限定,但是訓練過程中涉及到創(chuàng)建緩存并記錄數(shù)據(jù),該過程與計算機系統(tǒng)的內(nèi)部結果存在特定的技術關聯(lián),且整體的訓練過程降低了計算機在訓練模型時的自訓練時間成本,從而達到提升神經(jīng)網(wǎng)絡模型的自訓練效率這一符合自然規(guī)律的涉及計算機系統(tǒng)內(nèi)部性能改進的技術效果。
故而,此案在審查過程中通過了客體的審查關口,并且最終得到授權。
案例二
背景技術:
當固定采用某一種模型訓練方案,會使得處理器的資源不能很好的被調(diào)用,從而使得計算機的運行效率比較低。
權利要求1 如下:
1.一種訓練方法,包括:
當訓練數(shù)據(jù)的大小發(fā)生改變時,針對改變后的訓練數(shù)據(jù),分別計算所述改變后的訓練數(shù)據(jù)在預設的至少兩個候選訓練方案中的訓練耗時;
從預設的至少兩個候選訓練方案中選取訓練耗時最小的訓練方案作為所述改變后的訓練數(shù)據(jù)的最佳訓練方案;所述至少兩個候選訓練方案包括至少一個單處理器方案,至少一個基于數(shù)據(jù)并行的多處理器方案;
將所述改變后的訓練數(shù)據(jù)在所述最佳訓練方案中進行模型訓練。
【案例二】分析如下:
獨立權利要求中的解決方案主要是在訓練數(shù)據(jù)大小發(fā)生變化時,通過計算采用變化后的訓練數(shù)據(jù)在至少兩個訓練方案中的訓練耗時來選擇最佳訓練方案,并將改變后的訓練數(shù)據(jù)在最佳訓練方案中進行模型訓練,其中,最佳訓練方案包括單處理器方案以及多處理器方案。整個步驟整體上是圍繞當數(shù)據(jù)發(fā)生變化,如何對單、多處理器方案進行更好的調(diào)度,使得計算機的運行效率更高。該方案涉及到模型訓練,雖然對涉及到的訓練數(shù)據(jù)并沒有具體的應用領域的限定,但是訓練過程中涉及到根據(jù)訓練耗時控制對單處理器訓練方案、多處理器訓練方案進行更好的調(diào)度,該過程與計算機系統(tǒng)的內(nèi)部結構存在特定的技術關聯(lián),且整體的訓練過程降低了計算機在訓練模型時的耗時,從而達到提升計算機的運行效率這一符合自然規(guī)律的涉及計算機系統(tǒng)內(nèi)部性能改進的技術效果。
故而,此案在審查過程中通過了客體的審查關口,并且最終得到授權。
案例三
背景技術:
在實際應用中,經(jīng)常需要檢測業(yè)務數(shù)據(jù)是否為異常數(shù)據(jù)。為此可以訓練模型,進而可以通過訓練的模型檢測業(yè)務數(shù)據(jù)是否為異常數(shù)據(jù)。因此,如何提高模型的訓練效果是當前亟需解決的技術問題。
權利要求1 如下:
1.一種模型訓練方法,包括:
獲取訓練樣本集,所述訓練樣本集包括無標簽樣本集和有標簽樣本集,所述無標簽樣本集包括多個第一樣本,所述有標簽樣本集包括多個第二樣本和類型標簽,所述類型標簽用于表示所述有標簽樣本集中是否包含異常的第二樣本;
根據(jù)所述無標簽樣本集,對第一模型進行訓練,所述第一模型包括特征提取子模型;
根據(jù)所述有標簽樣本集和特征提取子模型的訓練結果,對第二模型進行訓練,所述第二模型包括特征提取子模型和異常數(shù)據(jù)檢測子模型,所述異常數(shù)據(jù)檢測子模型用于根據(jù)特征提取子模型的輸出檢測異常數(shù)據(jù)。
【案例三】分析如下:
獨立權利要求的解決方案主要是通過無標簽樣本集對第一模型進行訓練,可以實現(xiàn)對第二模型的部分模型參數(shù)進行無監(jiān)督的預訓練,進而通過有標簽樣本集實現(xiàn)對第二模型的模型參數(shù)進行有監(jiān)督的再次訓練。這樣便于利用大量的無標簽樣本,并結合相對少量的有標簽樣本,實現(xiàn)對第二模型的模型參數(shù)進行訓練,有利于提高第二模型的訓練效果。整個解決方案中涉及模型訓練上的改進,屬于涉及人工智能領域的算法改進,雖然對涉及到的無標簽樣本和有標簽樣本以及模型并沒有具體技術領域的限定,但是從實質(zhì)分析來看其通過這樣的訓練方式的改進,提高了計算機訓練第二模型的訓練效果,能夠解決計算機提升執(zhí)行效果的技術問題,從而使得計算機系統(tǒng)內(nèi)部性能得到了改進。
故而,此案在審查過程中通過了客體的審查關口,并且最終得到授權。
案例四
背景技術:
目前在機器學習的過程中,對訓練樣本數(shù)據(jù)的需求量巨大,并且需要對大量的訓練樣本數(shù)據(jù)進行標注,傳統(tǒng)技術中通常需要人工對大量的訓練樣本數(shù)據(jù)進行標注,使得標注工作過分依賴于人,并且工作量巨大,標注的效率較低。
公開版本的權利要求1 如下:
1.一種數(shù)據(jù)標注的方法,其特征在于,所述方法包括:
通過預先訓練的目標標注模型對多個待標注數(shù)據(jù)進行標注,得到由所述待標注數(shù)據(jù)對應的標注結果構成的目標集合;
利用預先訓練的目標分類器選取所述待標注數(shù)據(jù)中的非可信數(shù)據(jù),以驗證所述非可信數(shù)據(jù)對應的標注結果;
更正所述目標集合中未通過驗證的非可信數(shù)據(jù)所對應的標注結果。
授權版本的權利要求1 如下:
1.一種數(shù)據(jù)標注的方法,其特征在于,所述方法包括:
通過預先訓練的目標標注模型對多個待標注數(shù)據(jù)進行標注,得到由所述待標注數(shù)據(jù)對應的標注結果構成的目標集合;
利用預先訓練的目標分類器選取所述待標注數(shù)據(jù)中的非可信數(shù)據(jù),以驗證所述非可信數(shù)據(jù)對應的標注結果;
更正所述目標集合中未通過驗證的非可信數(shù)據(jù)所對應的標注結果,并將經(jīng)過更正的目標集合存放入預先建立的標注數(shù)據(jù)庫中,利用所述標注數(shù)據(jù)庫對所述目標標注模型進行更新;
其中,所述待標注數(shù)據(jù)用于作為機器學習的訓練樣本數(shù)據(jù),所述標注結果用于作為機器學習的所述訓練樣本數(shù)據(jù)的標注。
【案例四】分析如下:
案例四的解決方案主要是通過訓練好的目標標注模型對多個待標注數(shù)據(jù)進行標注后,又利用目標分類器篩選出更有可能標注錯誤的待標注數(shù)據(jù)進行抽檢,并對錯誤的標注結果進行更正。從而使得標注工作無需完全依賴于人,節(jié)省了大量的人力資源,提高了標注的效率。同時,能夠更有針對性的驗證被標注數(shù)據(jù)的結果,提高了標注的準確度。
此案在審查過程中經(jīng)歷了三次審查意見,其中一通的審查意見中明確指出了公開版本的獨立權利要求不符合A2.2的規(guī)定,后面的二通和三通指出的是有關新穎性和創(chuàng)造性的問題?;谠摰谝淮螌彶橐庖娡ㄖ獣囊庖姡P者找到了如上的授權版本,授權版本獨立權利要求中增加了“并將經(jīng)過更正的目標集合存放入預先建立的標注數(shù)據(jù)庫中,利用所述標注數(shù)據(jù)庫對所述目標標注模型進行更新;其中,所述待標注數(shù)據(jù)用于作為機器學習的訓練樣本數(shù)據(jù),所述標注結果用于作為機器學習的所述訓練樣本數(shù)據(jù)的標注”。
結合授權后的版本,筆者分析國家知識產(chǎn)權局的審查思路大致如下,授權后獨立權利要求的解決方案中明確了“所述待標注數(shù)據(jù)用于作為機器學習的訓練樣本數(shù)據(jù),所述標注結果用于作為機器學習的所述訓練樣本數(shù)據(jù)的標注”,該特征主要明確了獨立權利要求的解決方案涉及機器學習領域,雖然其對涉及到的待標注數(shù)據(jù)或者訓練樣本數(shù)據(jù)并沒有具體的應用領域的限定,但是從“并將經(jīng)過更正的目標集合存放入預先建立的標注數(shù)據(jù)庫中,利用所述標注數(shù)據(jù)庫對所述目標標注模型進行更新”這一特征上明確了預先建立了標注數(shù)據(jù)庫,并調(diào)用標注數(shù)據(jù)庫對模型進行更新,而這一過程必然與計算機系統(tǒng)的內(nèi)部結構存在特定的技術關聯(lián),且利用更新后的目標標注模型對數(shù)據(jù)進行標注的過程,達到了提升計算機對數(shù)據(jù)進行標注的效率這一符合自然規(guī)律的涉及計算機系統(tǒng)內(nèi)部性能改進的技術效果,故此案在審查過程中通過了客體的審查關口,并且最終得到授權。
案例五
背景技術:
數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)中的錯誤的一道程序,其任務是過濾掉不符合要求的數(shù)據(jù)。一般來說,數(shù)據(jù)清理是對清洗前的數(shù)據(jù)進行精簡以得到清洗后的數(shù)據(jù)的過程?,F(xiàn)有的數(shù)據(jù)清洗通常需要數(shù)據(jù)清洗人員手工實現(xiàn),通過人工檢查,逐個驗證數(shù)據(jù)。
權利要求1 如下:
獲取待清洗的訓練樣本集合;
基于所述訓練樣本集合,對初始模型進行有監(jiān)督訓練得到包括特征提取層的模型;
采用所述特征提取層提取所述訓練樣本集合中的訓練樣本的特征數(shù)據(jù);
對所得到的特征數(shù)據(jù)進行聚類處理,以確定所述訓練樣本集合中孤立的訓練樣本;
基于所確定出的孤立的訓練樣本,對所述訓練樣本集合進行清洗,得到清洗后的訓練樣本集合,以及利用所述清洗后的訓練樣本集合重新對所述初始模型進行有監(jiān)督訓練。
【案例五】分析如下:
獨立權利要求的解決方案主要是通過采用訓練得到的特征提取層提取訓練樣本的特征數(shù)據(jù)并進行聚類處理以得到孤立訓練樣本,并采用該孤立的樣本對訓練樣本集合進行清洗,得到清洗后的訓練樣本集合,進而無需人工清洗,豐富了數(shù)據(jù)清洗的方式,提高數(shù)據(jù)清洗的效率和準確性,進而提高了模型訓練的準確性和效率。該方案涉及到有監(jiān)督訓練、聚類處理等人工智能算法,雖然對涉及到的訓練樣本并沒有具體的應用領域的限定,但是基于孤立的訓練樣本對原來的訓練樣本集合進行清洗,該清洗過程與計算機系統(tǒng)的內(nèi)部結構存在特定的技術關聯(lián),且整體的清洗過程降低了人工清洗的成本,節(jié)約了數(shù)據(jù)清洗的耗時,達到了提高計算機清洗數(shù)據(jù)的效率和準確性,使得計算機進行模型訓練的效果得到提升,提升了計算機系統(tǒng)內(nèi)部性能改進的技術效果,故此案在審查過程中通過了客體的審查關口,并且最終得到授權。
結合以上案例,讀者應該可以清晰地看到國家知識產(chǎn)權局對AI算法類案件進行客體審查的過程中,已經(jīng)逐漸的在放松客體審查的關口,并已逐步在利用《專利審查指南修改草案(征求意見稿)》中所補充的有關人工智能算法的改進方案的審查基準,這對于眾多的創(chuàng)新主體在AI算法上的創(chuàng)新無疑是非常利好的導向。