[에러 해결] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte

Data Science/AI

[에러 해결] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte

토마토. 2023. 3. 11. 13:52

import pandas as pd
data = pd.read_csv("고등학교.csv")

한글이 포함된 csv 파일을 불러올 때 아래와 같은 에러가 발생하였다.

Output exceeds the size limit. Open the full output data in a text editor
---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
Cell In[1], line 2
      1 import pandas as pd
----> 2 data = pd.read_csv("고등학교.csv")

File c:\Users\.venv\lib\site-packages\pandas\util\_decorators.py:311, in deprecate_nonkeyword_arguments..decorate..wrapper(*args, **kwargs)
    305 if len(args) > num_allow_args:
    306     warnings.warn(
    307         msg.format(arguments=arguments),
    308         FutureWarning,
    309         stacklevel=stacklevel,
    310     )
--> 311 return func(*args, **kwargs)

File c:\Users\.venv\lib\site-packages\pandas\io\parsers\readers.py:586, in read_csv(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, encoding_errors, dialect, error_bad_lines, warn_bad_lines, on_bad_lines, delim_whitespace, low_memory, memory_map, float_precision, storage_options)
    571 kwds_defaults = _refine_defaults_read(
    572     dialect,
    573     delimiter,
   (...)
    582     defaults={"delimiter": ","},
    583 )
    584 kwds.update(kwds_defaults)
--> 586 return _read(filepath_or_buffer, kwds)
...
File c:\Users\.venv\lib\site-packages\pandas\_libs\parsers.pyx:843, in pandas._libs.parsers.TextReader._tokenize_rows()

File c:\Users\.venv\lib\site-packages\pandas\_libs\parsers.pyx:1917, in pandas._libs.parsers.raise_parser_error()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte

이때 utf-8 방식으로는 한글을 읽어올 수 없어 발생하는 에러다

따라서 인코딩 방식을 'cp949'으로 바꿔주면 에러가 해결된다.

수정한 코드는 다음과 같다

import pandas as pd
data = pd.read_csv("고등학교.csv", encoding='cp949')

'Data Science > AI' 카테고리의 다른 글

인공지능 #9 \| 텍스트를 위한 인공 신경망(NLP, IMDB, LSTM, GRU) (0)	2023.03.14
인공지능 #8-2 \| CNN - 텐서플로 Conv2D, MaxPooling2D, plot_model (0)	2023.03.13
인공지능 #8-1 \| CNN 합성곱 알아보기(필터(커널), 피처 맵, 패딩, 스트라이드, 풀링) (0)	2023.03.10
인공지능 #8-0 \| CNN 개념 이해하기 (0)	2023.03.10
인공지능 #7-3 \| 딥러닝 - 드롭아웃, 콜백, Early Stopping (0)	2023.03.09

현재글[에러 해결] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte

HappyTomatoLife

기록하는 토마토

반복문, Doubly Linked List, maze problem, singly linked list, JavaScript, 자료구조, Deque, react.js, 함수형 언어, OCaml, linked Queue, DS, Expression evaluation, REACT, binary search, 조건문, 교육상담, linked stack, linear DS, SQL,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

HappyTomatoLife

[에러 해결] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte

'Data Science > AI' 카테고리의 다른 글

'Data Science/AI'의 다른글

티스토리툴바

[에러 해결] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte

'Data Science > AI' 카테고리의 다른 글

'Data Science/AI'의 다른글

관련글

티스토리툴바