摘要:題目鏈接這道題關鍵是搞懂題目意思。思路及代碼知道意思之后,這道題就很簡單了。一個,每次分三步來做,是每次都是新的統計后位里面,從前開始有多少個,用變量來保存,其中可能的值只有從開始檢查,后八位中的前兩位是否為,一共檢查更新的值為
UTF-8 Validation
題目鏈接:https://leetcode.com/problems...
這道題關鍵是搞懂題目意思。
UTF-81 byte: characters from 0 to 127 == ASCII
2 bytes: characters from 127 to 2047
3 bytes: characters from 2048 to 65535
4 bytes: characters from 65536 to 1112064
The leading bits tell: the length of the bytes
1 byte: the 1st bit is 0
2 bytes:
1st byte: start with "110"
2nd byte: start with "10"
3 bytes:
1st byte: start with "1110"
2nd byte: start with "10"
3rd byte: start with "10"
4 bytes:
1st byte: start with "11110"
2nd byte: start with "10"
3rd byte: start with "10"
4th byte: start with "10"
思路及代碼知道意思之后,這道題就很簡單了。
一個loop,每次分三步來做,loop invariant是每次data[i]都是first byte of 新的character
統計data[i]后8位里面,從前開始有多少個1,用變量ones來保存,其中ones可能的值只有0, 2, 3, 4
從 data[i+1] 開始檢查,后八位中的前兩位是否為"10",一共檢查ones - 1
更新i的值為 i + ones
public class Solution { public boolean validUtf8(int[] data) { /* 1. check how many "1"s = ones * 2. check (i + 1, i + ones - 1) for "10" * 3. update i = i + ones * valid ones: 0, 2, 3, 4 */ int i = 0; while(i < data.length) { // 1. find ones int ones = 0; while(((data[i] >> (7 - ones)) & 1) == 1) { ones++; } // invalid ones if(ones == 1 || ones > 4) return false; // 2. check 1s i++; while(ones-- > 1) { if(i >= data.length || ((data[i] >> 6) & 3) != 2) return false; // 3. update i i++; } } return true; } }
Advantage of UTF-8
implement Unicode: encode different symbols(Chinese...)
web pages are often coded in UTF-8, XML, JSON
only use binary representation: 0 and 1
endianness independent
Disadvantage of UTF-8
space: use more bytes, larger
time: calculate
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/66554.html
Problem A character in UTF8 can be from 1 to 4 bytes long, subjected to the following rules: For 1-byte character, the first bit is a 0, followed by its unicode code.For n-bytes character, the first n...
摘要:題目要求檢驗整數數組能否構成合法的編碼的序列。剩余的字節必須以開頭。而緊跟其后的字符必須格式為。綜上所述單字節多字節字符的跟隨字節兩個字節的起始字節三個字節的起始字節四個字節的起始字節下面分別是這題的兩種實現遞歸實現循環實現 題目要求 A character in UTF8 can be from 1 to 4 bytes long, subjected to the followin...
摘要:時間年月日星期三說明使用規范校驗接口請求參數源碼第一章理論簡介背景介紹如今互聯網項目都采用接口形式進行開發。該規范定義了一個元數據模型,默認的元數據來源是注解。 時間:2017年11月08日星期三說明:使用JSR303規范校驗http接口請求參數 源碼:https://github.com/zccodere/s... 第一章:理論簡介 1-1 背景介紹 如今互聯網項目都采用HTTP接口...
摘要:和上標注的約束都會被執行注意如果子類覆蓋了父類的方法,那么子類和父類的約束都會被校驗。 每篇一句 沒有任何技術方案會是一種銀彈,任何東西都是有利弊的 相關閱讀 【小家Java】深入了解數據校驗:Java Bean Validation 2.0(JSR303、JSR349、JSR380)Hibernate-Validation 6.x使用案例【小家Spring】Spring方法級別數據校...
摘要:配置的參數打開根目錄下的在最后面加上如下的參數測試環境位內存雙核測試版本經測試,啟動速度比默認配置有所提升,占用內存也較少其中這三行為啟用方式,不能保證在不同環境下都是最優配置,可以替換為多核和大內存建議使 配置eclipse的jvm參數 打開eclipse根目錄下的eclipse.ini在最后面加上如下的jvm參數 -Xms400m -Xmx1400m -XX:NewSize=128...
閱讀 5070·2021-11-25 09:43
閱讀 1697·2021-10-27 14:18
閱讀 1065·2021-09-22 16:03
閱讀 1360·2019-08-30 13:19
閱讀 1582·2019-08-30 11:15
閱讀 1656·2019-08-26 14:04
閱讀 3132·2019-08-23 18:40
閱讀 1174·2019-08-23 18:17