国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

百度圖片識別orc實現普通驗證碼識別

yibinnn / 2787人閱讀

摘要:在爬取網站的時候都遇到過驗證碼,那么我們有什么方法讓程序自動的識別驗證碼呢其實網上已有很多打碼平臺,但是這些都是需要。但對于僅僅爬取點數據而接入打碼平臺實屬浪費。所以百度免費正好可以利用。

在爬取網站的時候都遇到過驗證碼,那么我們有什么方法讓程序自動的識別驗證碼呢?其實網上已有很多打碼平臺,但是這些都是需要money。但對于僅僅爬取點數據而接入打碼平臺實屬浪費。所以百度免費orc正好可以利用。(每天500次免費)

1、注冊百度賬號、百度云管理中心創建應用、生成AppKey、SecretKey(程序調用接口是要生成access_token)

2、利用AppKey、SecretKey生成access_token
向授權服務地址https://aip.baidubce.com/oaut...發送請求(推薦使用POST)并在URL中帶上以下參數:
grant_type: 必須參數,固定為client_credentials;
client_id: 必須參數,應用的API Key;
client_secret: 必須參數,應用的Secret Key
代碼如下:

</>復制代碼

  1. /**
  2. 1. 獲取AccessToken
  3. 2. APIKey:
  4. 3. SecretKey:
  5. 4. @return
  6. */
  7. public static String getAccessToken() {
  8. String accessToken = "";
  9. HttpRequestData httpRequestData = new HttpRequestData();
  10. HashMap params = new HashMap<>();
  11. params.put("grant_type", "client_credentials");
  12. params.put("client_id", "你的APIKey");
  13. params.put("client_secret", "SecretKey");
  14. httpRequestData.setRequestMethod("GET");
  15. httpRequestData.setParams(params);
  16. httpRequestData.setRequestUrl("https://aip.baidubce.com/oauth/2.0/token");
  17. HttpResponse response = HttpClientUtils.execute(httpRequestData);
  18. String json = "";
  19. try {
  20. json = IOUtils.toString(response.getEntity().getContent());
  21. } catch (IOException e) {
  22. e.printStackTrace();
  23. }
  24. if (response.getStatusLine().getStatusCode() == 200) {
  25. JSONObject jsonObject = JSONObject.parseObject(json);
  26. if (jsonObject != null && !jsonObject.isEmpty()) {
  27. accessToken = jsonObject.getString("access_token");
  28. }
  29. }
  30. return accessToken;
  31. }

3、請求百度orc通用文字識別API(下面以百度通用識別api識別為例)
請求API的URL https://aip.baidubce.com/rest...
請求方法 POST
請求URL參數 access_token
請求頭 (Header) Content-Type application/x-www-form-urlencoded
Body中放置請求參數,主要參數詳情如下:

image : 圖像數據,base64編碼,要求base64編碼后大小不超過4M,最短邊至少15px,最長邊最大4096px,支持jpg/png/bmp格式,當image字段存在時url字段失效

url : 圖片完整URL,URL長度不超過1024字節,URL對應的圖片base64編碼后大小不超過4M,最短邊至少15px,最長邊最大4096px,支持jpg/png/bmp格式,當image字段存在時url字段失效

</>復制代碼

  1. /**
  2. * 獲取識別驗證碼
  3. * @param imageUrl
  4. * @return
  5. */
  6. public static String OCRVCode(String imageUrl){
  7. String VCode = "";
  8. if (StringUtils.isBlank(ACCESS_TOKEN)) {
  9. logger.error("accessToken為空");
  10. return VCode;
  11. }
  12. OCRUrl = OCRUrl + "?access_token=" + ACCESS_TOKEN;
  13. HashMap headers = new HashMap<>();
  14. headers.put("Content-Type", "application/x-www-form-urlencoded");
  15. HashMap params = new HashMap<>();
  16. imageUrl = ImageBase64ToStringUtils.imageToStringByBase64(imageUrl);
  17. params.put("image", imageUrl);
  18. HttpRequestData httpRequestData = new HttpRequestData();
  19. httpRequestData.setHeaders(headers);
  20. httpRequestData.setRequestMethod("post");
  21. httpRequestData.setParams(params);
  22. httpRequestData.setRequestUrl(OCRUrl);
  23. HttpResponse response = HttpClientUtils.execute(httpRequestData);
  24. String json = "";
  25. if (response.getStatusLine().getStatusCode() == 200) {
  26. try {
  27. json = IOUtils.toString(response.getEntity().getContent());
  28. JSONObject jsonObject = JSONObject.parseObject(json);
  29. JSONArray wordsResult = jsonObject.getJSONArray("words_result");
  30. VCode = wordsResult.getJSONObject(0).getString("words");
  31. } catch (IOException e) {
  32. logger.error("請求識別失敗!", e);
  33. }
  34. }
  35. return VCode;
  36. }

對圖片進行base64編碼字符

</>復制代碼

  1. /**
  2. * 將本地圖片進行Base64位編碼
  3. * @param imageFile
  4. * @return
  5. */
  6. public static String encodeImgageToBase64(String imageFile) {
  7. // 其進行Base64編碼處理
  8. byte[] data = null;
  9. // 讀取圖片字節數組
  10. try {
  11. InputStream in = new FileInputStream(imageFile);
  12. data = new byte[in.available()];
  13. in.read(data);
  14. in.close();
  15. } catch (IOException e) {
  16. e.printStackTrace();
  17. }
  18. // 對字節數組Base64編碼
  19. return Base64Util.encode(data);
  20. }
  21. 4、返回結果以json方式返回
  22. {
  23. "log_id": 2471272194,
  24. "words_result_num": 2,
  25. "words_result":
  26. [
  27. {"words": " TSINGTAO"},
  28. {"words": "青島睥酒"}
  29. ]
  30. }

項目github地址:https://github.com/xwlmdd/ipP...
注:orc圖片識別模塊在這個項目里的一個工具類

我的公眾號,喜歡的朋友可以關注哦

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/70312.html

相關文章

  • node識別驗證

    摘要:驗證碼的識別成功率跟圖片質量關系密切,一般拿到后的驗證碼都得經過灰度化,二值化,去噪,利用就可以很方便的做到。 了解驗證碼 什么是驗證碼? 所謂驗證碼,就是將一串隨機產生的數字或符號,生成一幅圖片,圖片里加上一些干擾象素(防止OCR),由用戶肉眼識別其中的驗證碼信息,輸入表單提交網站驗證,驗證成功后才能使用某項功能,通俗說就是一種區分用戶是計算機和人的公共全自動程序 驗證碼的作用 可以...

    levy9527 評論0 收藏0
  • 14、web爬蟲講解2—Scrapy框架爬蟲—豆瓣登錄與利用打接口實現自動識別驗證

    摘要:登錄開發者后臺我的軟件獲得軟件軟件密鑰注意這里是普通會員賬號,不是開發者賬號,注冊地址開發者可以聯系客服領取免費調試題分請先設置用戶名密碼一鍵識別函數正在一鍵識別例表示位字母數字,不同類型收費不同。請準確填寫,否則影響識別率。 【百度云搜索:http://www.bdyss.cn】 【搜網盤:http://www.swpan.cn】 打碼接口文件 # -*- coding: cp936...

    wemall 評論0 收藏0
  • OCR識別驗證

    摘要:識別網站驗證碼詳見維基百科或者百度百科識別的驗證碼原理采集一批驗證碼,根據圖片特點進行初步處理二值化灰度化濾波降噪等處理然后分割圖片,旋轉圖片,模板選取,訓練算法,讓它更準確。 最近在爬某網站,老是蹦出來驗證碼,就想著找個OCR破了這個驗證碼,然后就開始了OCR探索之旅。 首先簡單說一下什么是OCR OCR是(Optical Character Recognition,光學字符識別)的...

    Yangyang 評論0 收藏0

發表評論

0條評論

yibinnn

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<