Content Analyticsでよく使う正規表現について

Content Analyticsでは、レポートの検索エリアやゴール設定などで正規表現を使うことができます。
この記事では、Content Analyticsで比較的よく使う正規表現をご紹介します。

ご注意

Content Analyticsは、BigQuery上でSQL実行で取得しているため、正規表現についてはBigQueryに準拠しております。
使用されたい正規表現の対応可否については、下記ページを参照ください。「^(?!.*検索対象の文字列).*$」(検索対象の文字列を含まない)など、リスト内で「(NOT SUPPORTED)」と記載されている項目は使用できません。

■Google Cloud Big Query | String functions
https://cloud.google.com/bigquery/docs/reference/standard-sql/string_functions


目次

  1. OR条件(または、いずれか)
  2. $( 行の最後)
  3. .+ (任意の文字を繰り返す)
  4. ¥(メタ文字を文字としてヒットさせる)

1.OR条件(または、いずれか)

ページレポートなどでアクセス数を見る際、特定のページをいくつかに絞った状態で見たい、といったケースがあります。そんなときに役に立つ正規表現がOR条件「(A|B):AまたはB」です。

【使用例】UNCOVER TRUTH コーポレートサイトのservice配下にある3つのサービスだけをひとまとめにしてアクセス数を見たい

  1. https://www.uncovertruth.co.jp/service/ca/
  2. https://www.uncovertruth.co.jp/service/eark/
  3. https://www.uncovertruth.co.jp/service/customer-data/

3つのURLを下記のように組み合わせます(URL末尾のスラッシュ「/」は外してください)。
https://www.uncovertruth.co.jp/service/(ca|eark|customer-data)

これで、1または2または3、という条件のURLができあがりました。URLで共通している部分「https://www.uncovertruth.co.jp/service/」はそのままに、その配下にある文字列を( | )でまとめ上げています。
作成したURLをページレポートの検索ボックスに入力し、エンターキーを押します。

ca、eark、customer-dataの3URLがページレポートに出てきました。 
しかし、想定した3URL以外に、下層ディレクトリのページも表示されてしまいました。これを除外したい場合は、次の正規表現を使用します。



2.$( 行の末尾)

1で作成したURLの末尾に「$」を付け足します。

https://www.uncovertruth.co.jp/service/(ca|eark|customer-data)$

「$」は行の末尾を表す正規表現です。
このようにすることで、$以降には文字が存在しない、つまり「$まででURLは終わり。続かない」という意味を持たせることができます。
上記URLで改めて検索を行います。3つのURLだけがページレポート上に表示される状態を作ることができました。

そのほかにも「TOPページだけ見たい」といった場合も、$を使うことでTOPページだけのレポートを表示させることができます。

https://www.uncovertruth.co.jp$

補足

正規表現以外にも、検索ボックスの横にある「検索オプション」を使ってURLの完全一致で検索することで特定のページだけの数値を見ることも可能です。


3. .+ (任意の文字を繰り返す)

「.+」は、Content Analyticsでは自動クローラー設定にデフォルトで設定されている正規表現です。
「.」は、任意の1文字を意味する正規表現、「+」は、直前の文字が1つ以上という意味の正規表現です。 「.+」と組み合わせることにより、1文字以上の任意の文字列という意味になります。

また、「+」に似た正規表現として、「*」が存在します。「*」は直前の文字が0以上を意味します。

自動クローラー設定でデフォルトで設定されている「.+」という正規表現は、1文字以上の任意の文字列を意味することから、「すべてのページを対象とする」という設定になります。

自動クローラー設定にデフォルトで入っている設定。この場合、「(CAのタグが設置されている)すべてのページを週1回キャプチャする」という設定内容になります。


4.¥(メタ文字を文字としてヒットさせる)

「¥」または\(バックスラッシュ)は、メタ文字を文字として認識させるための正規表現です(Content Analyticsでは¥マークで表示されます)。メタ文字とは、先述の「$」や「|」といった文字のことです。
Content Analyticsのページレポートなどに設置されている検索ボックスは正規表現に対応していますが、それが原因で特定のケースで正しく検索ができない場合があります。

【事例】パラメータ付きURLを検索したい場合
パラメータ付きURLを検索したい場合、そのままURLを検索ボックスに入れると、下記のようなエラーメッセージが出てしまい、検索結果として表示されません。

これは、URL内に含まれている「?」を正規表現としての「?(直前の文字を0回もしくは1回だけ繰り返す)」と認識してしまっており、正しいURLとして成立していない状態です。これを回避するために先述の「¥」を「?」の手前に付け加えます。

https://uncovertruth.co.jp/service/ca/blog¥?preview=true

こうすることで「?」を正規表現ではなく文字として認識させ、確認したいURLを検索することができるようになります。

TOP