C# 從 UTF-8 流中讀取字符串的正確方法

xiaochao 發(fā)布于2021-11-22 14:56 / 2192人閱讀

摘要：我們下面的代碼微軟雅黑是從一個(gè)流中讀取編碼的字符串。微軟雅黑問(wèn)題出在某些情況下返回的字符串與與原始編碼的字符串并不同。第一種方法只有當(dāng)你得到全部數(shù)據(jù)時(shí)，才將字節(jié)數(shù)組轉(zhuǎn)換為字符串。

我們下面的代碼是從一個(gè)流 stream 中讀取 UTF-8 編碼的字符串。

我們可以先考慮一下其中存在的潛在問(wèn)題。

string ReadString(Stream stream)
{
    var sb = new StringBuilder();
    var buffer = new byte[4096];
    int readCount;
    while ((readCount = stream.Read(buffer)) > 0)
    {
        var s = Encoding.UTF8.GetString(buffer, 0, readCount);
        sb.Append(s);
    }

    return sb.ToString();
}

問(wèn)題出在：某些情況下返回的字符串與與原始編碼的字符串并不同。

例如，笑臉?lè)?hào)有時(shí)會(huì)被解碼為 4 個(gè)未知字符：

原始字符串: ????
解碼字符串: ????

我們知道：UTF-8 可以使用 1 到 4 個(gè)字節(jié)來(lái)表示一個(gè) Unicode 字符，有關(guān)字符串編碼的知識(shí)可以參考 ??字符編碼??? 一文。

??Stream.Read??? 方法可以把從 1 到?? messageBuffer.Length??? 字節(jié)返回，這意味著緩沖區(qū)可能包含不完整的 UTF-8 字符。

一旦緩沖區(qū)中的最后一個(gè)字符的 UTF-8 編碼不完整，那么 ??Encoding.UTF8.GetString?? 就是轉(zhuǎn)換一個(gè)無(wú)效的 UTF-8 字符串。在這種情況下，該方法返回一個(gè)無(wú)效字符串，因?yàn)樗鼰o(wú)法猜測(cè)丟失的字節(jié)。

我們使用以下代碼演示以上行為：

var bytes = Encoding.UTF8.GetBytes("????");
// bytes = new byte[4] { 240, 159, 152, 138 }

var sb = new StringBuilder();
// 模擬逐個(gè)字節(jié)地讀取數(shù)據(jù)流
for (var i = 0; i < bytes.Length; i++)
{
    sb.Append(Encoding.UTF8.GetString(bytes, i, 1));
}

Console.WriteLine(sb.ToString());
// "????" 代替了 "????"

Encoding.UTF8.GetBytes(sb.ToString());
// new byte[12] { 239, 191, 189, 239, 191, 189, 239, 191, 189, 239, 191, 189 }

如何修復(fù)代碼

有多種方法可以修復(fù)代碼。

第一種方法：只有當(dāng)你得到全部數(shù)據(jù)時(shí)，才將字節(jié)數(shù)組轉(zhuǎn)換為字符串。

string ReadString(Stream stream)
{
    using var ms = new MemoryStream();
    var buffer = new byte[4096];
    int readCount;
    while ((readCount = stream.Read(buffer)) > 0)
    {
        ms.Write(buffer, 0, readCount);
    }

    return Encoding.UTF8.GetString(ms.ToArray());
}

第二種方法：可以把流包進(jìn)一個(gè)具有正確編碼的 StreamReader 對(duì)象中。

string ReadString(Stream stream)
{
    using var sr = new StreamReader(stream, Encoding.UTF8);
    return sr.ReadToEnd();
}

另外，還可以使用System.Text.Decoder類(lèi)來(lái)正確解碼緩沖區(qū)內(nèi)的字符。在需要性能的情況下，可以使用PipeReader、Rune類(lèi)來(lái)以?xún)?nèi)存優(yōu)化的方式讀取數(shù)據(jù)。

參考資料：

??字符編碼??
??C#教程??

GPU云服務(wù)器云服務(wù)器 C 從 UTF-8 流中讀取字符串的正確 java讀取流中數(shù)據(jù) utf-8字符串截取防御arp攻擊方法正確

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/124235.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xiaochao

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

卷積神經(jīng)網(wǎng)絡(luò)

閱讀 756·2023-04-26 01:30
#黑五#edgeNAT：全場(chǎng)VPS月付8折年付7折，韓國(guó)LG/美西洛杉磯/Cera VPS實(shí)付48元

閱讀 3306·2021-11-24 10:32
C# 從 UTF-8 流中讀取字符串的正確方法

閱讀 2193·2021-11-22 14:56
聊聊并發(fā)（五）——線(xiàn)程池

閱讀 1988·2021-11-18 10:07
【每日一包0004】array-slice

閱讀 561·2019-08-29 17:14
開(kāi)發(fā)一個(gè) Parcel-vue 腳手架工具

閱讀 631·2019-08-26 12:21
js監(jiān)聽(tīng)窗口消失

閱讀 3111·2019-08-26 10:55
[譯]帶你理解 Async/await

閱讀 2946·2019-08-23 18:09

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

C# 從 UTF-8 流中讀取字符串的正確方法

如何修復(fù)代碼

相關(guān)文章