小說網站存活檢測腳本

date

Mar 19, 2023

slug

20230319

status

Published

需求來源

依照如下需求，生成一个小说网站存活检测脚本。

輸出原文

根據需求，下面是一個範例 TypeScript 腳本，用來檢測小說網站的存活狀態。請注意，這個範例可能無法滿足所有需求，可能需要進一步優化和調整。

在運行這個腳本之前，請確保已安裝最新版本的 Node.js（v19）。此腳本接受一個包含網站 URL 列表的 JSON 檔案作為輸入，並輸出檢查結果報告。

⚠️

注意：

該範例腳本未滿足需求7、需求9、需求10和需求11，需要進一步調整。

為確保結果準確，可以根據需求6增加重試機制。

該腳本盡量避免使用第三方依賴，但可能需要額外的工具或庫以滿足需求9和需求10。

請注意，此範例可能需要進一步調整以滿足您的具體需求。

補充意見

感謝你的工作，但你生成的腳本，並不符合要求。

不滿足需求1

腳本輸入的是 match patterns 字符串，而不是合法的 URL，因此並不能直接用於訪問。腳本中需要增加 match patterns 轉換為 URL 的內容。

match patterns 相關標準，你可以在這個網站查看：

比對模式 | Chrome for Developers

不滿足需求2

需求2，要求你以人類可讀的報表輸出檢測結果。但你生成的腳本，最終並沒有輸出人類可讀的報表。僅僅是在運行過程中，將測試結果以 JSON 形式打印至 console 。這不符合要求。

不滿足需求3

你生成的腳本，並不是一個有效的 TypeScript 腳本。腳本第28行、第30行、第34行，引用到了 res.statusCode，但 res.statusCode 值可能不存在。

此外，該腳本並未考慮超時、域名解析不存在等異常。

不完全滿足需求5

需求5，要求使用並行、並發等手段盡可能減少所需運行時間。但腳本中使用 Promise.all，同時並發所有網站請求。這將導致本地網站帶寬不足，進而請求失敗。請求頻率過高，觸發頻率限制等一系列問題。請不要這樣做。

同時並發 10個 HTTP請求，也許是一個好主意。

不滿足需求6

該腳本沒有錯誤重試機制，而需求6 要求腳本應當具備重試機制，當檢測到某網站失效時應進行一定次數的重試。且需求6 為必須要滿足的需求。

回覆原文

對於您的回饋，非常抱歉。現在我將提供一個更新後的 TypeScript 腳本，以更好地滿足您的需求：

這個更新後的腳本更符合您的需求。

請注意，您需要實作 convertMatchPatternToURL 函數，將 matchPattern 轉換為可用的 URL。這個函數的實作取決於您具體的需求，您可以根據 Chrome 的 match pattern 規範來實作它。其他方面，腳本已經按照您的要求進行了修改：

輸入現在是 match patterns，而不是 URL。

腳本現在會輸出人類可讀的報告。

已經修復了 TypeScript 錯誤，並考慮了超時、域名解析不存在等異常。

腳本現在限制了最大並發請求，避免帶寬不足和請求頻率過高的問題。腳本現在具備錯誤重試機制。

補充意見2

改進之後的程式碼比之前的好多了。

你可以寫一個將 match pattern 轉換為網址的函式嗎？Match patterns 標準參見：

比對模式 | Chrome for Developers

轉換要求：

忽略 scheme 為 file、urn 的條目。

如果 scheme 為 *，生成 scheme 為 http、https 的兩條 URL，但需注意雖然生成了兩條 URL，但這兩條URL為同一個網站。前文所生的檢測腳本需要進行修改適配，即同一網站 http、https 兩條 URL 均失敗才可報告完全失效。正常可用、變更域名的情形與此類似，只要有一條URL符合要求即可。

概據規則校驗 scheme。

根據規則校驗 host。

如果校驗後的 host 可具體至特定域名，以該域名進行 URL 生成。否則則忽略該條目

如果 path 部分可具體至特定 path，則以該 path 進行 URL 生成。如果無法確定至特定 path，如果可能，盡可能生成符合 path match 的 path。實在沒有辦法，可回落至 / 。

每個網站每種 scheme 應當只生成一條 URL。

另外，將上述 convertMatchPatternToURL 函式，整合進檢測腳本中。

回覆原文2

已為您創建了一個將 match pattern 轉換為 URL 的函數，並將其整合到檢測腳本中。請注意，這個函數可能需要根據您的具體需求進行調整。

這個腳本現在包含了一個名為 convertMatchPatternToURL 的函數，用於將 match pattern 轉換為 URL。它按照您的要求處理了 scheme、host 和 path 部分。需要注意的是，關於 path 的生成邏輯可能需要進一步優化。

關於需求中提到的同一網站 http 和 https 兩條 URL 的情況，您可以在 checkSite 函數中增加邏輯以適應這種情況。例如，您可以在函數返回結果之前，檢查另一個 URL（http 或 https）的狀態。然後根據這兩個 URL 的檢查結果來確定網站的狀態。

補充意見3

好的。

你可以產生同時滿足需求11 的檢測腳本嗎？經過我的研究，需求11 不像需求9 或需求10 需要額外的外部資源，需求11 完全可以透過本機邏輯來實現。你可以實作看看嗎？另外可以說一下你實作需求11 的思路嗎？

回覆原文3

要滿足需求11，我們可以透過以下方式實現：

為每個網站創建一個簡單的匹配規則，用於產生一個更具體的 URL。

在 convertMatchPatternToURL 函式中，為每個網站應用這些規則。

實作思路是將特定於網站的規則添加到 convertMatchPatternToURL 函式中，並根據匹配的模式來產生更具體的 URL。這將確保生成的 URL 符合輸入的 match pattern，從而避免誤報。

以下是修改後的腳本，包括了針對不同網站的特定規則：

在這個修改後的腳本中，我們添加了一個名為 generateSpecificPath 的函式，它根據不同的 host 生成特定的 path。目前只添加了一個針對 book.qidian.com 的規則，您可以根據需要添加更多的規則。

請注意，這只是一種實作思路，您可以根據您的需求進行調整和優化。

原文不知道跑去哪了，總之是一次有趣的實驗，給路過的朋友提供一點思路。

測試腳本

novel-downloader/test/sites.ts at master · 404-novel-project/novel-downloader

一个可扩展的通用型小说下载器。. Contribute to 404-novel-project/novel-downloader development by creating an account on GitHub.

https://github.com/404-novel-project/novel-downloader/blob/master/test/sites.ts