摔倒檢測-完全用ChatGPT開發，分享如何正確地向ChatGPT提問

作者：渡碼 2023-04-06 19:06:28

向ChatGPT?提問首先要給他一個角色設定，在算法領域這叫prompt，有了進入了角色，才能更好地回答問題。

哈嘍，大家好。

之前給大家分享過摔倒識別、打架識別?，今天以摔倒識別?為例，我們看看能不能完全交給ChatGPT來做。

讓ChatGPT?來做這件事，最核心的是如何向ChatGPT?提問，把問題一股腦的直接丟給ChatGPT?，如：用 Python 寫個摔倒檢測代碼是不可取的，而是要像擠牙膏一樣，一點一點引導ChatGPT?得到準確的答案，從而才能真正讓ChatGPT提高我們解決問題的效率。

今天分享的摔倒識別?案例，與ChatGPT?對話的思路清晰，代碼可用度高，按照GPT?返回的結果完全可以開發一個摔倒識別的項目了，并且還有一些延伸的話題，如：畢設的改進點。

下面開始正式的分享。

1. 角色設定

向ChatGPT?提問首先要給他一個角色設定，在算法領域這叫prompt，有了進入了角色，才能更好地回答問題。所以，我提問的第一句是：

假如你是一名AI工程師，我想識別視頻中是否有摔倒行為，有哪些辦法

沒必要剛上來就讓他直接寫代碼，先問問他有哪些辦法或者思路。

我們看看ChatGPT的回答

給出了3個方案，有傳統的圖像方法，也有深度學習方法。

2. 思路引導

我們當然是對深度學習感興趣了，所以繼續詢問關于深度學習的方法

使用深度學習的方法有哪些

ChatGPT回答

從卷積神經網絡到卷積循環神經網絡說了個遍。

看起來循環神經網絡 RNN更簡單、靠譜，接下來我的提問是

我需要循環神經網絡 (RNN) 的方法

ChatGPT回答

給出了非常詳細的、實操性非常強的步驟，我簡單歸類一下，大致是兩步：

第一步，對視頻預處理，用卷積神經網絡（如：ResNet）提取視頻動作特征（類似 wordembedding）第二步，用動作特征作為 lstm 模型的輸入，訓練 lstm 循環神經網絡，對動作特征分類，從而識別出摔倒行為

3. 寫代碼

到目前，ChatGPT 提供給我們的，解決問題的思路非常清晰，并且可執行性非常強。

所以，這時候我們可以讓ChatGPT寫代碼了。

按照我上面劃分的步驟，我讓他一次性把第一步代碼寫出來，所以，我的提問是：

寫一下視頻預處理的代碼，并用 pytorch resnet提取視頻特征

ChatGPT的回答

好的，下面是通過 Pytorch 的 ResNet 提取視頻特征的代碼，以及視頻預處理的示例代碼：

視頻預處理：

import cv2
import numpy as np

def preprocess_video(video_path, n_frames=16, resize=(224, 224)):
    # 讀取視頻
    cap = cv2.VideoCapture(video_path)
    frames = []
    while True:
        ret, frame = cap.read()
        if not ret:
            break
        # 強制轉換為 RGB
        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        # 圖像縮放
        frame = cv2.resize(frame, resize)
        # 圖像增強等操作
        # ...
        frames.append(frame)
    cap.release()
    # 取固定幀數 n_frames，超過后從中間開始截取
    n_frames = min(len(frames), n_frames)
    start = (len(frames) - n_frames) // 2
    end = start + n_frames
    # 截取幀數后堆疊成四維數組
    frames = np.stack(frames[start:end], axis=0)
    # 轉換為支持 Pytorch 模型的格式 (B, C, T, H, W)
    frames = np.transpose(frames, (0, 3, 1, 2))
    return frames
提取視頻特征：

import torch
import torchvision.models as models

def extract_features(frames):
    # 加載 ResNet 模型
    resnet = models.resnet50(pretrained=True)
    # 去掉最后的全連接層
    resnet = torch.nn.Sequential(*list(resnet.children())[:-1])
    # 將 ResNet 設置為評估模式
    resnet.eval()
    # 將預處理后的視頻序列轉化為 Tensor，并調整為指定的數據類型和范圍
    frames = torch.from_numpy(frames).float() / 255.0
    # 減去 ImageNet 數據集的均值和標準差
    normalize = torch.nn.Normalize(
        mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]
    )
    frames = normalize(frames)
    # 前向預測，輸出 2048 維特征向量
    with torch.no_grad():
        features = resnet(frames)
    return features.reshape(-1, 2048)
在上面這兩塊代碼中，preprocess_video() 函數將讀取視頻，并將其轉換為指定大小的圖像幀，返回處理后的數據；extract_features() 函數將接受上一步處理后的數據，并將其轉化為 Pytorch 的 Tensor，使用訓練好的 ResNet 模型對每一幀圖像進行特征提取，并返回一個形狀為 (B, 2048) 的 Tensor，其中 B 為幀數。

圖片太長了，為了大家能更好的感受ChatGPT的回答，我直接把代碼文本貼出來了。

定義了兩個獨立函數，分別完成了第一步中的兩小步內容。

代碼沒有問題，先調用preprocess_video?函數對視頻預處理，再調用 extract_features?卷積操作，就可以將一個向量embedding?成一個2048維的向量。

第二步，我拆分成了兩小步，先搭建lstm模型，再訓練

基于上面產出的結果，用 pytorch lstm搭建視頻分類模型

ChatGPT的回答

寫一下模型訓練的代碼

ChatGPT的回答

好的，下面是使用 Pytorch 訓練視頻分類模型的代碼：

import torch
import torch.nn as nn
import torch.optim as optim

# 訓練函數
def train(model, criterion, optimizer, dataloader, num_epochs=10):
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)  # 將模型移動到 GPU 或 CPU 上
    for epoch in range(num_epochs):
        running_loss = 0.0
        correct_predictions = 0
        total_predictions = 0
        for inputs, labels in dataloader:
            inputs = inputs.to(device)
            labels = labels.to(device)

            optimizer.zero_grad()

            with torch.set_grad_enabled(True):
                outputs = model(inputs)
                _, preds = torch.max(outputs, 1)
                loss = criterion(outputs, labels)

                loss.backward()
                optimizer.step()

            running_loss += loss.item() * inputs.size(0)
            correct_predictions += torch.sum(preds == labels.data)
            total_predictions += labels.size(0)

        epoch_loss = running_loss / len(dataloader.dataset)
        epoch_acc = correct_predictions.double() / total_predictions

        print("Epoch {}: Loss {:.4f} Acc: {:.4f}".format(epoch + 1, epoch_loss, epoch_acc))

# 定義超參數
BATCH_SIZE = 4
NUM_EPOCHS = 20

# 定義數據集，假設已經準備好了訓練數據集和測試數據集
train_dataset = ...
test_dataset = ...

# 定義數據加載器
train_dataloader = torch.utils.data.DataLoader(
    train_dataset, batch_size=BATCH_SIZE, shuffle=True
)
test_dataloader = torch.utils.data.DataLoader(
    test_dataset, batch_size=BATCH_SIZE, shuffle=False
)

# 定義模型
input_size = 2048
hidden_size = 512
num_layers = 1
num_classes = 2
model = VideoLSTM(input_size, hidden_size, num_layers, num_classes)

# 定義損失函數和優化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

# 訓練模型
train(model, criterion, optimizer, train_dataloader, num_epochs=NUM_EPOCHS)
在代碼中，首先定義了模型的超參數，如 BATCH_SIZE 和 NUM_EPOCHS。接著定義了訓練數據集和測試數據集，并使用 Pytorch 的 DataLoader 將數據加載為 batch。然后定義了模型、損失函數和優化器。最后調用 train() 函數進行模型訓練。

在訓練過程中，每個 epoch 循環訓練所有的視頻幀，計算損失函數，計算準確率，并輸出當前 epoch 的平均損失和準確率。訓練完成后，可以將模型的參數保存到磁盤上，以便以后使用。