本發(fā)明涉及機器人控制,更具體地說,本發(fā)明涉及一種用于控制機器人的方法。
背景技術(shù):
1、隨著機器人技術(shù)的迅速發(fā)展,機器人在工業(yè)自動化、服務(wù)行業(yè)和醫(yī)療領(lǐng)域的應(yīng)用越來越廣泛。然而,現(xiàn)有的機器人控制系統(tǒng)在與人類進行交互時,仍然面臨著安全性和靈活性之間的矛盾。傳統(tǒng)的固定閾值控制方法難以適應(yīng)復雜多變的環(huán)境,可能導致在不同用戶和場景下的安全性不足?,F(xiàn)有技術(shù)亟需一種能夠動態(tài)調(diào)整距離安全閾值和施加力安全閾值的優(yōu)化方法,以確保機器人在與用戶交互過程中的安全性,并能夠根據(jù)不同的用戶和環(huán)境需求進行個性化調(diào)整。這就要求引入一種更靈活且能夠自適應(yīng)優(yōu)化的控制方法,以提高機器人系統(tǒng)在實際應(yīng)用中的可靠性和用戶體驗。因此,在此提出一種用于控制機器人的方法。
技術(shù)實現(xiàn)思路
1、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
2、一種用于控制機器人的方法,包括以下步驟:
3、步驟一、通過多個預(yù)設(shè)的傳感器實時采集機器人運行環(huán)境的環(huán)境數(shù)據(jù),得到運行環(huán)境數(shù)據(jù)集;
4、步驟二、基于運行環(huán)境數(shù)據(jù)集,進行圖像處理識別當前與機器人進行交互的用戶的位置及大?。?/p>
5、步驟三、實時計算機器人與當前的交互用戶之間的距離,以及獲取在交互動作中接觸時的作用力并實時調(diào)節(jié)機器人施加的力;
6、步驟四、在機器人與當前的交互用戶之間的距離或機器人施加的力超出安全范圍時,預(yù)警機制觸發(fā);
7、步驟五、根據(jù)歷史交互數(shù)據(jù),使用強化學習優(yōu)化機器人控制策略,并且獲取機器人的交互運行狀態(tài)和交互情況,動態(tài)調(diào)整距離安全閾值與施加力安全閾值。
8、在一個優(yōu)選的實施方式中,進行圖像處理識別當前與機器人進行交互的用戶的位置及大小指的是:
9、使用預(yù)先訓練完成的卷積神經(jīng)網(wǎng)絡(luò)對運行環(huán)境數(shù)據(jù)集中的圖像數(shù)據(jù)進行圖像識別和分類,定位用戶位置,卷積神經(jīng)網(wǎng)絡(luò)的目標檢測框的輸出結(jié)果為:(x,y,w,h);x表示當前與機器人進行交互的用戶的中心點的x軸坐標,y表示當前與機器人進行交互的用戶的中心點的y軸坐標,w表示當前與機器人進行交互的用戶建立的矩形框?qū)挾?,h表示當前與機器人進行交互的用戶建立的矩形框高度,接著獲取深度攝像頭檢測到的深度數(shù)據(jù)z,匯總后得到聯(lián)合結(jié)果:(x,y,z,w,h);深度數(shù)據(jù)z表示當前與機器人進行交互的用戶的中心點的z軸坐標。
10、在一個優(yōu)選的實施方式中,實時計算機器人與當前的交互用戶之間的距離指的是:
11、獲取機器人的坐標點,以及聯(lián)合結(jié)果(x,y,z,w,h),然后使用歐氏距離公式計算機器人與用戶的距離d。
12、在一個優(yōu)選的實施方式中,獲取在交互動作中接觸時的作用力并實時調(diào)節(jié)機器人施加的力指的是:
13、獲取機器人與用戶接觸時的作用力,當該作用力未超出安全范圍時,對該作用力進行實時調(diào)節(jié),將機器人與用戶接觸時的作用力與接觸速度一同作為輸入變量并轉(zhuǎn)化為模糊值,將調(diào)節(jié)因子作為輸出變量,然后制定模糊規(guī)則,將多個輸入的模糊值映射到輸出的模糊值,將多個規(guī)則的輸出模糊集合進行合成,得到最終的模糊輸出集合;
14、使用重心法進行去模糊化,重心法公式表述為:
15、μsc(x)表示輸出模糊集合的隸屬度函數(shù),x是輸出變量的數(shù)值,xmin、xmax表示輸出變量x的最小值和最大值,μ表示調(diào)節(jié)因子;
16、調(diào)節(jié)機器人施加的力的表達式為:
17、f0=fi*μ;fi表示機器人與用戶接觸時的作用力,f0表示調(diào)節(jié)后機器人施加的力。
18、在一個優(yōu)選的實施方式中,預(yù)警機制觸發(fā)時,發(fā)出預(yù)警信號或主動撤回當前動作或切換至安全模式,在機器人與當前的交互用戶之間的距離或機器人施加的力超出安全范圍時,獲取當前的機器人與當前的交互用戶之間的距離,以及當前機器人施加的力并一同作為模糊推理的輸入數(shù)據(jù),將預(yù)警機制觸發(fā)時進入的應(yīng)對類型作為輸出數(shù)據(jù),使用模糊推理判斷應(yīng)當進入的應(yīng)對類型并執(zhí)行。
19、在一個優(yōu)選的實施方式中,根據(jù)歷史交互數(shù)據(jù),使用強化學習優(yōu)化機器人控制策略指的是:
20、機器人感知環(huán)境狀態(tài)s,然后根據(jù)當前策略選擇一個動作a,隨后機器人在環(huán)境中執(zhí)行動作a,機器人執(zhí)行動作后,獲取環(huán)境的新狀態(tài)s′并獲得相應(yīng)的獎勵r,更新q值,表達式為:
21、α是學習率,控制新舊信息的平衡,γ是折扣因子,決定未來獎勵的重要性,qnew(s,a)表示經(jīng)過本次更新后,環(huán)境狀態(tài)s下采取行動a的新的q值,qold(s,a)表示本次更新前,環(huán)境狀態(tài)s下采取行動a的舊的q值;
22、將新狀態(tài)s′作為當前狀態(tài)進行更新循環(huán),直到達到終止條件,當q值函數(shù)收斂后,機器人在每個環(huán)境狀態(tài)下選擇q值最大的動作即為最優(yōu)策略。
23、在一個優(yōu)選的實施方式中,使用遺傳算法對強化學習優(yōu)化后的機器人控制策略中的距離安全閾值和施加力安全閾值進行動態(tài)調(diào)整。
24、在一個優(yōu)選的實施方式中,遺傳算法的具體步驟如下:
25、編碼與初始種群:隨機生成一組初始個體(種群),每個個體表示一組距離安全閾值和施加力安全閾值的組合;
26、適應(yīng)度評估:利用舒適度指數(shù)衡量每個染色體的適應(yīng)度值;
27、選擇操作:使用輪盤賭選擇方法篩選子代作為新的父代;
28、交叉操作:隨機將不同父代染色體中的數(shù)據(jù)進行交換;
29、變異操作:隨機選擇不同子代染色體的數(shù)據(jù)進行調(diào)整;
30、重復選擇操作、交叉操作和變異操作,直至達到預(yù)設(shè)的終止條件,輸出適應(yīng)度最低的個體作為最佳距離安全閾值和施加力安全閾值的組合。
31、在一個優(yōu)選的實施方式中,舒適度指數(shù)指的是:
32、收集交互用戶的反饋數(shù)據(jù),得到反饋數(shù)據(jù)集,然后從反饋數(shù)據(jù)集中提取交互用戶在單位時間內(nèi)按下反饋按鈕的次數(shù)、平均力度、平均深度、皮膚電導率的變化幅度平均值,然后進行加權(quán)求和,得到舒適度指數(shù)。
33、本發(fā)明的技術(shù)效果和優(yōu)點:
34、本發(fā)明通過實時采集環(huán)境數(shù)據(jù)并進行動態(tài)調(diào)整,能夠顯著提升機器人與用戶交互過程中的安全性。預(yù)警機制的觸發(fā)條件確保在距離或施加力超出安全范圍時,機器人能迅速作出反應(yīng),避免對用戶造成潛在傷害。本發(fā)明利用強化學習和遺傳算法,能夠根據(jù)不同用戶的反饋動態(tài)調(diào)整控制策略,實現(xiàn)個性化的交互體驗。機器人可以針對不同用戶的需求和安全敏感度進行優(yōu)化,從而提高用戶的滿意度和交互舒適度。
35、通過使用深度學習、模糊邏輯控制系統(tǒng)以及遺傳算法,本發(fā)明使得機器人能夠在復雜、多變的環(huán)境中自適應(yīng)調(diào)整控制參數(shù)。無論是在變化的環(huán)境中還是面對不同的用戶,機器人都能夠保持最佳運行狀態(tài),確保操作的穩(wěn)定性和有效性。通過強化學習和遺傳算法的結(jié)合,本發(fā)明能夠不斷優(yōu)化機器人控制策略。強化學習用于學習和改進操作策略,而遺傳算法則用于微調(diào)關(guān)鍵的安全閾值,使得控制策略更具靈活性和精確性,確保機器人能夠在保證安全的前提下高效運行。
36、本發(fā)明中設(shè)計的適應(yīng)度函數(shù)能夠有效減少用戶在交互過程中可能出現(xiàn)的不適感和不安全感。通過統(tǒng)計用戶反饋數(shù)據(jù)并進行優(yōu)化,機器人可以提供更加流暢、自然的交互體驗,適用于對用戶體驗要求較高的應(yīng)用場景。本發(fā)明的方法不僅適用于特定的機器人控制場景,還具有廣泛的應(yīng)用潛力。無論是在工業(yè)自動化、家庭服務(wù)還是醫(yī)療護理領(lǐng)域,該方法都能夠提供可靠的安全保障和個性化的交互體驗,滿足不同應(yīng)用場景的需求。