日本語SEOを技術的視点から考察する【Webの未来】

これからの時代の日本語WebサイトのSEOは次の3つのポイントに集約されるものと予想されます。(1)形態要素構造(2)AIへの追従(3)外郭的統計情報。たくさんある情報の海から、良いコンテンツを見つけ出すための技術で、有望なものはこれらだからです。
Welcome
  • 日本語解析は「MeCab」が基盤
  • 人間のリアルをシミュレートする時代
  • モバイルファースト時代の統計情報

日本語SEOの幕開け

2000年代前半だったと思いますが、ChaSenという形態素解析ツールに出会って、腰を抜かしたことがあります。当時、筆者は画像処理分野のエンジニアでしたが、ChaSenの登場は分野外の身でも驚き、早速、社内文書の検索サーバの構築用に使わせて頂きました。作者(工藤様)は天才だと思いました。それから15年程経った今、MeCabという名称で広く普及されるようになりました。

日本語のWebサイトのSEOを考えるときに欠かせないMeCabの存在、それから近年のAIの進化、さらにビッグデータが分析可能になった時代の統計情報。

技術的な見地では、この3点が恐らく、Webの未来をけん引すると考えて間違いありません。

Googleから提供されるSEO情報は、ベースで揺るがない部分や新しい方針などは広く公開されているものの、それ以外の情報はブラックボックスです。

あくまで推測ですが、日進月歩で進化している中で、何がベストなのか、明確に定めることができないといった事情もあると思います。

そこで、これからの時代の日本語のWebサイトのSEOを考えていく中で、どういう波に乗っていくべきなのか、技術的な見地から考察してみたいと思います。

MeCabからどう分析するか?

データサイエンティストの方は、もう頭が痛くなる程、このテキストマイニングをされていることと思います。そして、形態要素解析の技術だけでできる限界点も見えてきているかもしれません。

  • 単語数
  • 単語の前後関係(ネットワーク型構造体)
  • ネガポジ分析(※好感度を設定している場合)

理論的に証明できるところは、例え、世界のGoogle様でもあらがえないわけですので、あとは別の技術とどう組み合わせていくかがカギになってくると思います。そして、その有力候補はAIで間違いないと思います。

機械学習から人間の考えのシミュレートへ

私たち日本人の考えるAIはおそらくドラえもんのようなロボットのようなものだと思います。また、エンジニアの考えるAIは、機械学習のような独自進化エンジンだと思います。しかし、Googleの考えるAIはおそらくそういったものとは抜本的に違うものではないかと思います。

端的には、人間をシミュレートすることなのではないかと思います。

圧倒的な財力、情報量、技術力、これらを持った天才技術集団が望むものとは一体何か?

そんな視点で考えると、例えば、人間の未来の何年もの先の技術をコンピュータ上で予想して手に入れるとか、人間に足りないものをコンピュータで補って人類の進化を早めるとか、人類では住めない環境にロボットを送り込んで人類を住めるようにするとか、そういった感じのことではないかと思います。

そういった未来のゴールから現在までを、逆算的に線で引っ張って、今から少し先の未来に見えるものが「人間のシミュレート」というわけです。

そして、例えば日本語であれば、MeCabという人知を取り入れる入り口ができた以上、様々な情報を取り込んで高速計算処理で、いろいろな人知の組み合わせを作り、その妥当性を本当の人間の行動ログから取捨選択するようなAIが、実現できる最初の一歩目になるのではないかと思います。

もちろん、その情報の入り口であるのがWEBでして、行動ログをとる一つの主力方法が検索エンジンです。

おそらくは「人間のリアル」を抽出できる構造を持つサイトが、これからは重要になってくるかと思います。

モバイルファーストと言われる理由も、固定されたパソコンよりも「人間のリアル」が伝わるセンサーとしての役割が大きいことからだと思います。廉価版のAndroidが多いのも、「人間のリアル」を多く集めるための戦術のような気がします。

非言語分野との融合

さて、ここまで「形態要素解析の限界」と「人間のリアルをシミュレートするAI」のお話をしてきました。

現在、多くの言語情報をGoogleは獲得しています。一方で、非言語的な情報、例えば、人間の心に秘めている思いのようなものなどを、どう炙り出すのかが次のステップのチャレンジではないかと思います。

例えば、「宮崎」と検索したときに、「宮崎県」なのか「宮崎さん」なのか、もっと他のものなのかは、ユーザーのシチュエーションによって変わります。そして、これらを炙り出すためには、どうしても検索ワード以外の外郭的な統計情報が必要になります。宮崎県に向かう飛行機の中では、おそらく「宮崎県」でしょうし、テレビの視聴率に連動する宮崎はおそらく「宮崎さん」です。

SEO的にどのように絡んでくるのかは、おそらくはこれから決まってくるルールの一つだと思います。

このような未来に備えておくべきことは、WordPressのような最新のSEOを取り入れやすいCMSに準拠しておくことだと思います。

まとめ

来るべき未来を予想して、その準備を今からすることは、戦略では上策です。「パンダアップデート」や「ペンギンアップデート」も、遡ってみれば予想できたことだと思います。

Google発表に追従するのと同時に、様々な情勢の中から「あるべき姿」を構想するのも、1つのSEOの形だと思います。