文字コードとは?文字化けする理由やUTF-8・Shift JISの違いをわかりやすく解説

【PR】この記事には広告を含む場合があります。
文字コードとは何かを初心者向けにわかりやすく解説

文字コードとは、文字をパソコンやスマホで保存したり、画面に出したりするための決まりです。

私たちが見ている「あ」「A」「1」などの文字は、パソコンやスマホの中では、そのままの形で覚えられているわけではありません。文字ごとに決められた番号に変えられて、あとで開けるように残されたり、画面に出されたりしています。

この記事では、文字コードとは何か、文字化けが起きる理由、UTF-8やShift JISの違い、文字コードの確認や変換の考え方を初心者向けにわかりやすく解説します。

ほかのIT用語も知りたい方は、初心者向けのIT用語辞典もあわせてご覧ください。

目次

文字コードとは?かんたんに言うと文字に付けた番号の決まり

文字コードとは文字に番号を付けてパソコンで扱うための決まりを説明した図解

文字コードとは、文字に番号を付けて、パソコンやスマホで使えるようにするための決まりです。

たとえば、「A」という文字にはこの番号、「あ」という文字にはこの番号、というように、文字と番号を結び付ける決まりがあります。

パソコンやスマホは、人のように文字の形を見て意味を理解しているわけではありません。決められた番号をもとにして、画面に文字を出しています。

つまり、文字コードは「文字を正しく伝えるための約束」と考えると分かりやすいです。

文字コードは、ふだんスマホやパソコンを使うだけなら、細かく覚える必要はありません。ただし、文字化けしたときや、CSVファイルを開くときに知っておくと役立ちます。

文字コードが必要な理由

文字コードが必要な理由は、文字を正しく残したり、画面に出したり、相手に送ったりするためです。

メール、Webページ、メモ帳、Excel、CSVファイルなど、文字はいろいろな場所で使われています。

Webページとは、インターネットで見るページのことです。この記事のようなブログ記事もWebページの一つです。

CSVファイルとは、文字や数字をカンマで区切ったファイルのことです。住所録や売上データなどでよく使われます。

文字を正しく使うには、「この番号はこの文字を表す」という決まりが必要です。

送る側と受け取る側でその決まりが合っていないと、同じ文字を同じように画面に出せません。

そのため、文字コードは、文章や数字などの情報を正しくやり取りするために大切です。

文字コードを身近な例で考える

文字コードは、荷物に付ける伝票番号に少し似ています。

荷物そのものを見なくても、伝票番号があれば、配送会社はどの荷物かを管理できます。

文字コードも同じように、文字そのものではなく、文字に付けられた番号を使って管理します。

たとえば、「あ」という文字を残すとき、パソコンの中では「あ」という見た目ではなく、決められた番号として扱われます。

そして、画面に出すときに、その番号をもとに「あ」と表示します。

このように、文字コードは文字を正しく使うための番号の決まりです。

文字コードが使われる場面

文字コードは、ふだん意識しないところで使われています。

たとえば、次のような場面です。

  • メールを送るとき
  • Webページを見るとき
  • メモ帳で文章を残すとき
  • ExcelでCSVファイルを開くとき
  • 会社の仕事で使うデータをやり取りするとき

データとは、文字や数字などの情報のことです。

特に、CSVファイルや会社で昔から使っている仕事用のデータでは、文字コードの違いが原因で文字化けすることがあります。

文字化けとは、文字が正しく画面に出ず、意味の分からない記号や別の文字に見えることです。

文字コードと文字化けの関係

文字化けは保存時と開く時の文字コードが合わないことで起きると説明した図解

文字化けは、文字を残したときの文字コードと、開くときの文字コードが合っていないときに起きやすいです。

たとえば、本当は「こんにちは」と表示したいのに、「縺薙s縺ォ縺。縺ッ」のように見えることがあります。

これは、文字そのものが急に変わったわけではありません。文字の読み方の決まりが合っていないために、別の文字として表示されている状態です。

たとえるなら、日本語で書かれた手紙を、別の読み方で無理に読もうとしているようなものです。

ITの話に戻すと、UTF-8で残した文章を、別の文字コードとして読んでしまうと、文字が正しく出ないことがあります。

つまり、文字化けは「文字の読み方を間違えている状態」と考えると分かりやすいです。

代表的な文字コードの種類

文字コードには、いくつかの種類があります。

ここでは、初心者が知っておきたい代表的な文字コードを紹介します。

UTF-8(ユーティーエフエイト)とは

UTF-8とは、現在よく使われている文字コードです。

日本語、英語、記号、絵文字など、いろいろな文字を使いやすいのが特徴です。

Webページ、スマホアプリ、Webサイトやアプリのサービスなどで広く使われています。

現在のWebサイトでは、UTF-8がとても広く使われています。そのため、これから新しく文章やデータを作る場合は、UTF-8を選ぶ場面が多くなっています。

Shift JIS(シフトジス)とは

Shift JISとは、日本語を使うために昔から使われてきた文字コードです。

古いWindowsのパソコン、会社で昔から使っている仕事用のデータ、CSVファイルなどで使われていることがあります。

今でも、Excelで使うデータや会社の古い管理の仕組みで見かけることがあります。

そのため、Shift JISは古いだけで不要なものではありません。今でも必要になる場面があります。

また、Shift JISでは、丸付き数字や一部の記号が別のパソコンやソフトで正しく出ないことがあります。

たとえば、「①」や「㈱」のような文字は、使う環境によって見え方が変わることがあります。このような文字は、環境依存文字と呼ばれることがあります。

ASCII(アスキー)とは

ASCIIとは、英語のアルファベット、数字、基本的な記号を使うための文字コードです。

たとえば、A、B、C、1、2、3、半角の記号などに使われます。

ASCIIだけでは、日本語は使えません。

ただし、文字コードの基本としてよく出てくる言葉です。

Unicode(ユニコード)とは

UnicodeとUTF-8の違いを初心者向けにわかりやすく説明した図解

Unicodeとは、世界中の文字をまとめた大きな文字の一覧表のようなものです。

ひらがな、漢字、アルファベット、記号、絵文字などを、同じ考え方で使えるようにしています。

UTF-8は、このUnicodeの文字を保存したり送ったりするための方法の一つです。

少しむずかしく感じる場合は、「Unicodeは大きな文字の一覧」「UTF-8はその文字を使うための方法」と考えると分かりやすいです。

UTF-8とShift JISの違い

UTF-8とShift JISの違いを初心者向けに比較した図解

UTF-8とShift JISの大きな違いは、使われる場面と、使いやすい文字の広さです。

項目UTF-8Shift JIS
読み方ユーティーエフエイトシフトジス
よく使われる場面Webページ、スマホ、最近のサービス古いWindows環境、会社の古い仕組み、CSV
日本語使える使える
絵文字や海外の文字使いやすい苦手な場合がある
現在の使われ方広く使われている一部で今も使われている

現在はUTF-8が使われる場面が多くなっています。

ただし、会社の古い仕組みやExcelで使うCSVでは、Shift JISが必要になることもあります。

そのため、どちらが絶対によいというより、使う場面に合わせて選ぶことが大切です。

ExcelやCSVで文字化けが起きる理由

ExcelやCSVで文字化けが起きる理由と確認方法を説明した図解

ExcelでCSVファイルを開いたときに、文字化けすることがあります。

これは、CSVファイルの文字コードと、Excelが読み取る文字コードが合っていないときに起きやすいです。

たとえば、UTF-8で作られたCSVを、Excelが別の文字コードとして開いてしまうと、日本語が正しく画面に出ないことがあります。

反対に、Shift JISで作られたCSVを別の文字コードとして読んだ場合も、文字化けすることがあります。

ExcelでUTF-8のCSVを開く場合は、「BOM付きUTF-8」という形式だと、文字化けせずに開けることがあります。

BOMとは、ファイルの先頭に付く小さな目印のようなものです。Excelが「このファイルはUTF-8だ」と判断しやすくなります。

このような場合は、CSVを開く方法を変えたり、文字コードを変えたりすると、正しく表示できることがあります。

Excelで文字化けしたときは、ファイルが壊れたと決めつけず、まず文字コードを確認するとよいです。

文字コードを確認する方法

文字コードを確認する方法は、使っているソフトによって変わります。

初心者の場合は、まずテキストエディターを使う方法が分かりやすいです。

テキストエディターとは、文字だけのファイルを開いたり、直したりするソフトのことです。Windowsのメモ帳も、テキストエディターの一つです。

一部のテキストエディターでは、画面の下や保存画面に、UTF-8やShift JISなどの文字コードが表示されます。

CSVファイルの場合は、Excelで直接開くより、Excelでファイルを読み込む機能を使うと文字コードを選べることがあります。

文字化けしたときは、まず「このファイルはどの文字コードで作られているのか」を確認すると、原因を見つけやすくなります。

文字コードを変換する方法

文字コードの変換とは、ファイルの文字コードを別の文字コードに変えることです。

たとえば、Shift JISのファイルをUTF-8に変えることがあります。

文字コードを変換すると、別のソフトやサービスでも正しく読めるようになる場合があります。

変換には、テキストエディターや、文字コードを変えるためのソフトやサービスを使うことが多いです。

ただし、文字コードを変える前に、元のファイルをコピーしておくと安心です。

特に仕事で使うデータは、元の状態を残してから作業すると、あとで見直しやすくなります。

文字コード表とは?文字と番号の組み合わせを見られる表

文字コード表とは、文字と番号の組み合わせをまとめた表のことです。

たとえば、「A」はどの番号か、「あ」はどの番号かを確認できます。

文字コード表は、ふだん文章を書くときに毎回見るものではありません。

ただし、文字化けの原因を調べたり、特定の文字を正しく使ったりするときに役立ちます。

初心者の場合は、「文字コード表は文字と番号の一覧表」と考えれば十分です。

文字コードで初心者が間違えやすい点

文字コードは、画面には見えにくい仕組みです。

そのため、最初は少し分かりにくく感じることがあります。

ここでは、初心者が間違えやすい点を整理します。

文字コードを変えれば必ず文字化けが直ると思ってしまう

文字化けは、文字コードが原因で起きることが多いです。

ただし、すべての文字化けが文字コードの変更だけで直るわけではありません。

元のデータが壊れている場合や、その文字コードで使えない文字が含まれている場合は、別の確認が必要です。

まずは、元のファイルの文字コードと、開くときの文字コードが合っているかを確認しましょう。

UTF-8とUnicodeを同じ意味だと思ってしまう

UTF-8とUnicodeは、関係が深い言葉です。

ただし、まったく同じ意味ではありません。

Unicodeは、世界中の文字をまとめた大きな文字の一覧表のようなものです。

UTF-8は、そのUnicodeの文字を保存したり送ったりするための方法の一つです。

初心者の場合は、「Unicodeは文字の大きな一覧」「UTF-8はその使い方の一つ」と考えると分かりやすいです。

Shift JISを古いだけで不要なものと思ってしまう

Shift JISは、昔からある文字コードです。

しかし、今でも使われる場面があります。

特に、会社の古い仕組みやCSVファイルでは、Shift JISが必要なことがあります。

そのため、Shift JISは不要なものではなく、場面によって今でも使われる文字コードです。

環境依存文字をどこでも同じように出ると思ってしまう

環境依存文字は、使うパソコンやソフトによって見え方が変わることがある文字です。

たとえば、「①」や「㈱」などは、古い環境や一部の文字コードでは正しく出ないことがあります。

仕事で大切なデータをやり取りするときは、特殊な記号を使いすぎないようにすると安心です。

文字コードについてよくある質問

文字コードとは何ですか?

文字コードとは、文字をパソコンやスマホで保存したり、画面に出したりするための番号の決まりです。

「あ」「A」「1」などの文字を、正しく残したり画面に出したりできるようにします。

文字コードが違うとどうなりますか?

文字コードが合っていないと、文字化けが起きることがあります。

本来の文字とは違う記号や文字が画面に出ることがあります。

文字化けしたら何を確認すればよいですか?

まず、ファイルの文字コードを確認します。

次に、開くソフト側で同じ文字コードを選べるか確認します。

CSVファイルの場合は、Excelで直接開かず、Excelでファイルを読み込む機能を使うと、正しく表示できることがあります。

UTF-8とShift JISはどちらを使えばよいですか?

新しく作るファイルやWebページでは、UTF-8を使う場面が多いです。

ただし、会社の古い仕組みや提出先のルールでShift JISが指定されている場合は、Shift JISを使うこともあります。

迷ったときは、提出先や使うソフトの指定に合わせましょう。

ExcelでCSVが文字化けするのはなぜですか?

CSVファイルの文字コードと、Excelが読み取る文字コードが合っていないことが主な理由です。

UTF-8のCSVを別の文字コードとして開いたり、Shift JISのCSVを別の文字コードとして開いたりすると、文字化けすることがあります。

BOM付きUTF-8とは何ですか?

BOM付きUTF-8とは、ファイルの先頭に小さな目印が付いたUTF-8のことです。

Excelが文字コードを判断しやすくなるため、UTF-8のCSVを開くときに文字化けを防ぎやすくなることがあります。

文字コードを変換するときの注意点はありますか?

文字コードを変換する前に、元のファイルをコピーしておくと安心です。

変換後に文字が正しく画面に出るかを確認してから、使うようにしましょう。

環境依存文字とは何ですか?

環境依存文字とは、使うパソコンやソフトによって見え方が変わることがある文字です。

丸付き数字や一部の記号などが、別の環境では正しく表示されないことがあります。

まとめ:文字コードとは文字を正しく表示するための大切な決まり

文字コードとは、文字をパソコンやスマホで保存したり、画面に出したりするための決まりです。

文字に番号を付けることで、文章を残したり、画面に出したり、相手に送ったりできます。

文字コードが合っていないと、文字化けが起きることがあります。

特に、CSVファイル、Excel、会社で昔から使っている仕事用のデータでは、UTF-8やShift JISの違いが関係することがあります。

現在はUTF-8が広く使われていますが、Shift JISも一部では今でも使われています。

ExcelでUTF-8のCSVを開く場合は、BOM付きUTF-8という形式が役立つこともあります。

また、Shift JISを使う場面では、環境依存文字にも少し注意するとよいです。

文字化けしたときは、あわてずに、ファイルの文字コードと開くときの文字コードが合っているかを確認しましょう。

文字コードとは、文字を正しく画面に出し、情報をきちんとやり取りするための大切な仕組みです。

よかったらシェアしてね!
  • URLをコピーしました!
目次