整数は、プロセッサのワードサイズに応じて、ワードか、もしくはワードのペア によって表現されています。32 bit マシンでは、ワードが最も基本的な整数の 表現単位となっています。
コンピュータ言語のなかには、符合なし演算 (unsigned arithmetic) ができるものもあります。その場合は、ゼロと正の数だけを使った 通常の二進数演算となります。
この問題を解決しようとする試みは、過去にいくつもなされてきました。 それらはすべて、ASCII では使われていない最上位 bit を使うという ものであり、それによって 256 文字セットをもうひとつ作ってしまおう というものです、それらのうち、もっとも広く利用されているのが Latin-1 と呼ばれるものです(正式には、ISO 8859-1 と呼ばれています)。これは、 Linux, HTML および X でのデフォルトの文字セットとなっています。 Microsoft Windows は、Latin-1 に手を加え、正式な Latin-1 では 歴史的な理由から空欄とされている箇所に左右の二重引用記号などを 追加しています。(これが、トラブルを引き起こす原因になっている という事件の解説は、demoroniser のページを御覧ください。)
Latin-1 は、英語、フランス語、ドイツ語、スペイン語、イタリア語、オランダ語、 ノルウェー語、スウェーデン語、デンマーク語といった西ヨーロッパの言語を 扱うものです。しかし、Latin-1 は、どれひとつの言語においても満足のゆく出来 ではないために、その結果として、Latin-2 から Latin-9 までの一連の文字セット が生まれ、これらを使って、ギリシャ語、アラビア語、ヘブライ語、エスペラント語、 セルビア・クロアチア語なども扱っています。詳しくは、ISO alphabet soup のページを御覧ください。
究極の解決策が、Unicode (および、その双子の兄弟である ISO/IEC 10646-1:1993) と呼ばれる膨大な標準規格です。Unicode は、冒頭の 256 箇所については Latin-1 とまったく同じです。それ以降の 16 bit 空間には、ギリシャ、キリル、アルメニア、 ヘブライ、アラビア、デヴァナーガリー(訳注:サンスクリット・ヒンディーその他を 含む現代インド諸語)、ベンガル、グルムキー(訳注:パンジャブ地方の文字)、 グジャラート、オーリヤ(訳注:インドの Orissa 州)、 タミル、トゥルグ、カンナダ(訳注:インドの Mysore 州)、マラヤーナム(訳注: インド南西)、タイ、ラオス、グルジア、チベット、 日本仮名、現代韓国のハングル完全版、中国・日本・韓国の表意文字 (漢字) の 統一セットといった文字コードが含まれています。詳しくは、 Unicode ホームページ を御覧ください。